CN107992596B - 一种文本聚类方法、装置、服务器和存储介质 - Google Patents

一种文本聚类方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN107992596B
CN107992596B CN201711318684.XA CN201711318684A CN107992596B CN 107992596 B CN107992596 B CN 107992596B CN 201711318684 A CN201711318684 A CN 201711318684A CN 107992596 B CN107992596 B CN 107992596B
Authority
CN
China
Prior art keywords
text
clustered
clustering
sample set
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711318684.XA
Other languages
English (en)
Other versions
CN107992596A (zh
Inventor
徐敏
王佳
黄涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711318684.XA priority Critical patent/CN107992596B/zh
Publication of CN107992596A publication Critical patent/CN107992596A/zh
Application granted granted Critical
Publication of CN107992596B publication Critical patent/CN107992596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本聚类方法、装置、服务器和存储介质。该方法包括:获取预设时间段内多个待聚类文本;根据设定语言模型确定各待聚类文本对应的语义向量;根据待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集;对任意两个聚类样本集进行聚类归并,确定至少一个目标样本集。本发明实施例的技术方案,基于文本的语义向量之间的相似度先确定样本集,再完成聚类归并,从而优化文本聚类方法,提高文本聚类的准确性。

Description

一种文本聚类方法、装置、服务器和存储介质
技术领域
本发明实施例涉及文本信息处理技术,尤其涉及一种文本聚类方法、装置、服务器和存储介质。
背景技术
文本聚类作为一种对文本信息进行分类的重要手段,越来越受到研究人员的关注。文本聚类已广泛应用于文本数据挖掘,自然语言处理,信息检索等领域。比如利用文本聚类方法实现突发新闻挖掘。
现有技术中突发新闻挖掘方法是基于词袋模型,对网络发布文本进行文本聚类,从聚类文本集中挑选文本作为突发新闻。然而由于词袋模型仅仅根据词的字面含义表示文本,忽略了文本的语义层面,所以利用现有的文本聚类方法不能准确表示文本语义。而且在海量文本中,若仅关注文本中出现的词来进行文本聚类,则无法从聚类结果中准确的识别出突发新闻。可见,利用现有的文本聚类方法得到的聚类结果的准确性差。
发明内容
本发明实施例提供一种文本聚类方法、装置、服务器和存储介质,以优化文本聚类方法,提高文本聚类的准确性。
第一方面,本发明实施例提供了一种文本聚类方法,包括:
获取预设时间段内多个待聚类文本;
根据设定语言模型确定各所述待聚类文本对应的语义向量;
根据所述待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集;
对任意两个所述聚类样本集进行聚类归并,确定至少一个目标样本集。
第二方面,本发明实施例还提供了一种文本聚类装置,包括:
待聚类文本获取模块,用于获取预设时间段内多个待聚类文本;
语义向量确定模块,用于根据设定语言模型确定各所述待聚类文本对应的语义向量;
聚类样本集确定模块,用于根据所述待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集;
目标样本集确定模块,用于对任意两个所述聚类样本集进行聚类归并,确定至少一个目标样本集。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的文本聚类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的文本聚类方法。
本发明实施例能够确定各待聚类文本对应的语义向量;并利用语义向量确定的文本之间的相似度来确定聚类样本集,再对聚类样本集进行归并处理,从而使得文本聚类方法进一步优化,提高了文本聚类的准确性。
附图说明
图1是本发明实施例一提供的一种文本聚类方法的流程图;
图2是本发明实施例一提供的一种skip-gram语言模型的示意图;
图3是本发明实施例二提供的一种文本聚类方法用于挖掘突发新闻的流程图;
图4是本发明实施例三提供的一种文本聚类装置的结构示意图;
图5是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本聚类方法的流程图,本实施例可适用于基于语义向量对海量文本数据进行文本聚类的情况,优选是可用于突发新闻的挖掘,但也可以用于其他需要对文本聚类并进行后处理的应用场景中。该方法可以由文本聚类装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于文本处理服务器中。该方法具体包括:
S110、获取预设时间段内多个待聚类文本。
其中,待聚类文本可以是预设时间段内网络中发布的海量文本,可以按照文本在网络的创建时间(或称发布时间)、或抓取文本的时间来确定。预设时间段间隔可以是但不限于10分钟、30分钟、1小时或3小时。获取的待聚类文本可以是在任一预设时间段内的文本,也可以是在两个或两个以上预设时间段内的文本。示例性的,将7:00-7:10网络创建的文本作为待聚类文本,或者将7:00-7:10和7:10-7:40网络创建的文本作为待聚类文本。在本实施例中,文本的创建时间越近,则对应文本的权重值越高。示例性的,7:10-7:40创建的待聚类文本的权重值高于7:00-7:10创建的待聚类文本。
待聚类文本可以从设定网站来源中获取。例如,可以区分政治、经济、娱乐或体育等不同的标签来分别获取,也可以从不同类型的网站,如综合性网站、社区论坛等来获取。
S120、根据设定语言模型确定各待聚类文本对应的语义向量。
其中,设定语言模型优选是基于文本中词语的上下文关系来确定待聚类文本中各个词向量,并根据各个词向量确定待聚类文本的语义向量,从而提高了文本表示的准确性。对于中文而言,其存在两个特点。第一、语言的多义同义现象。相同的词在不同语境下,可以表达不同的语义,例如“苹果”既表示水果,也表示一家科技公司。同理,相同的语义也可由不同的词表达,例如“的士”、“taxi”都表示出租车。第二、语言的组合结构问题。相同的词组成的短语或句子,不同的语序可表达不同的语义,例如“深度学习”和“学习深度”。更进一步,还存在句法结构问题,例如“从北京到上海高铁”和“从上海到北京高铁”虽然含有的词语完全相同,但其语义完全不同。而“北京队打败了广东队”和“广东队被北京队打败了”又语义完全相同。
为了能够更准确的确定文本的语义向量,需要采用能够反映词汇上下文关系的语言模型,来计算文本中各词汇的词向量。本实施例中所采用的设定语言模型可以是基于负采样的skip-gram模型。
可选的,当设定语言模型为skip-gram模型时,S120具体包括:
获取待聚类文本中至少一个有效词,并根据skip-gram语言模型确定每个有效词的词向量,其中,有效词包括至少一个字符;根据各个有效词的词向量确定待聚类文本对应的语义向量。
其中,利用skip-gram语言模型将待聚类文本中的有效词转换为词向量,有效克服了自然语言处理中维数灾难的问题。skip-gram语言模型是根据当前有效词来预测当前有效词的上下文词汇。图2给出了一种skip-gram语言模型的示意图。本实施例中skip-gram语言模型包括三层,分别为输入层,映射层和输出层。skip-gram语言模型具有一个预设词汇数量的词库,其中词库是大量文本中词汇的集合体,并将词库中的词汇按照预定顺序进行排列。将待聚类文本中的有效词输入至skip-gram语言模型中,根据输出结果获取该有效词的词向量。有效词的词向量中元素的维度与词库中词汇数量相同,并且词向量中每位元素均可以按照预定顺序对应于词库中的每个词。词向量中每位元素对应的元素值用于表征该元素对应的词库中的词作为有效词的上下文词的概率。根据词库中每个词作为有效词的上下文词的概率来表示待聚类文本中有效词的词向量。
本实施例中,在获取待聚类文本中的有效词之前,还需要对待聚类文本进行分词处理,以获取至少一个有效词。分词处理可以包括但不限于中文分词、识别专有名词以及去停用词。通过对待聚类文本进行分词处理,并剔除没有语义的停用词,比如:“啊”、“吧”等,从而可以快速获取有效词的词向量,提高了词向量的生成效率。根据待聚类文本中各个有效词的词向量确定待聚类文本对应的语义向量。利用语义向量表示的待聚类文本可以进一步对比待聚类文本之间的相似度,以进行文本聚类。
可选的,根据各个有效词的词向量确定待聚类文本对应的语义向量,具体可包括:
对各个有效词的词向量进行按位求和,并按词向量的数量求取平均值,得到语义向量。
其中,通过skip-gram语言模型确定某待聚类文本中各个有效词的词向量之后,将各词向量进行按位求和,即将各词向量中同一位元素的元素值进行求和。将求和之后得到的向量中每位元素的元素值除以词向量的数量得到每位元素的平均值。将平均之后的向量作为该待聚类文本的语义向量。利用相同的方法,获取每个待聚类文本的语义向量。
可选的,在利用skip-gram语言模型获取待聚类文本中有效词的词向量之前,还包括skip-gram语言模型的训练过程,具体包括:
获取多个训练文本,并对每个训练文本进行分词处理,确定至少一个有效词;根据每个训练文本中各有效词的上下文词汇,确定训练文本的上下文词汇样本集;将上下文词汇样本集输入skip-gram语言模型进行训练,并计算skip-gram语言模型对应的目标函数的最大值;若目标函数的最大值保持不变,则skip-gram语言模型训练完成。
其中,训练样本可以是从网络发布的文本中抽取的大量文本。通过对训练样本的分词处理,获取各训练文本中所有的有效词。将训练文本中的任一有效词作为当前有效词,并根据预设窗口大小确定当前有效词的上下文词汇。例如,当窗口大小为2时,根据该训练文本的语序,将当前有效词前面的两个有效词和后面的两个有效词均作为当前有效词的上下文词汇。根据各有效词以及对应的上下文词汇,可以确定训练文本的上下文词汇样本集。上下文词汇样本集中每个上下文词汇样本的格式为(当前有效词,上下文词)。上下文词为当前有效词对应的上下文词汇中的任意一个词。由于skip-gram语言模型只能接受数值的输入,不能输入单词字符串,所以需要将训练样本中获取的所有不重复的有效词组成词汇表,利用该词汇表对当前有效词进行one-hot编码形成一个向量,进而输入到skip-gram语言模型中。示例性的,假设根据训练样本获取了1000个不同的有效词,这1000个有效词可以按照字母顺序进行排列形成一个词汇表。根据这个词汇表表示的有效词是一个1000维的向量,向量中每位元素的对应的元素值只有1或0,若当前有效词在词汇表中的出现位置为第3个,则当前有效词的向量就是一个第三位元素值为1,其他位元素值均为0的1000维向量。将当前有效词的向量输入到skip-gram语言模型的输入层,根据skip-gram语言模型的输出可以得到当前有效词的词向量。词向量中每位元素对应的元素值用于表征该元素对应的词库中的词作为有效词的上下文词的概率。将有效词的词向量和上下文词汇样本中上下文词对应的向量输入到skip-gram语言模型的目标函数中,以优化skip-gram语言模型。skip-gram语言模型对应的目标函数如下:
Figure BDA0001504305560000071
其中,W是有效词w的词向量,c是有效词w的上下文词,C是上下文词c的向量,Vw是所有有效词w的集合,Vc是所有上下文词c的集合,#w,c是上下文词c出现在有效词w的上下文中的次数,σ是一个逻辑回归函数,k是经验参数,是取值范围在[3,5]之间的随机整数,
Figure BDA0001504305560000081
是训练期望值,可以采用采样k次来近似。由于采样得到的样本可以为负样本,所以称为基于负采样的skip-gram模型。将上下文词汇样本集输入skip-gram语言模型中,并采用随机梯度下降的方法对目标函数进行训练。通过计算目标函数的最大值来检验skip-gram语言模型的训练程度,当目标函数的最大值保持不变时,skip-gram语言模型训练完成。训练后得到的skip-gram语言模型可以用于确定待聚类文本中有效词的词向量。
S130、根据待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集。
其中,本实施例中可以通过欧式距离来计算任意两个待聚类文本的语义向量之间的相似度。将任一待聚类文本作为当前待聚类文本,并按照当前待聚类文本与其他待聚类文本之间的相似度进行排列。将相似度大于预设相似度阈值的其他待聚类文本作为当前待聚类文本的聚类文本,并形成一个聚类样本集。将所有待聚类文本逐个作为当前待聚类文本以确定对应的聚类文本和聚类样本集。可选的,每个聚类样本集中包括当前待聚类文本和至少一个其他待聚类文本,若不存在相似度大于预设相似度阈值的其他待聚类文本,则表明对应的当前待聚类文本是个例,且不会形成一个聚类样本集,之后也不会对该当前待聚类文本进行聚类归并,从而提高了聚类效率。
S140、对任意两个聚类样本集进行聚类归并,确定至少一个目标样本集。
其中,在确定每个待聚类文本的聚类样本集后,可以进一步对任意两个聚类样本集进行聚类归并,以获取准确的聚类结果,优化文本的聚类过程。
可选的,S140具体包括:
获取任意两个聚类样本集的交集结果和并集结果;若两个聚类样本集的交集结果和并集结果满足聚类归并条件,则将该两个聚类样本集进行聚类归并,形成一个新的聚类样本集;当任意两个聚类样本集的交集结果和并集结果均不满足聚类归并条件时,聚类归并结束,并根据聚类归并后的聚类样本集确定至少一个目标样本集。
其中,对任意两个聚类样本集取交集和并集,以获取交集结果和并集结果。根据两个聚类样本集的交集结果和并集结果检测该两个聚类样本集是否满足聚类归并条件,若满足,则将该两个聚类样本集进行聚类归并,形成一个新的聚类样本集;若不满足,则不会进行聚类归并,并继续检测其他两个聚类样本集是否满足聚类归并条件。可选的,本实施例中的聚类归并条件可以是两个聚类样本集的交集结果中的待聚类文本数量大于并集结果中的待聚类文本数量的一半。当所有聚类样本集均无法进行两两聚类时,则表示聚类归并结束。通过聚类归并后得到的至少一个聚类样本集确定为至少一个目标样本集。利用获取的目标样本集可以挖掘海量文本中的突发热闻事件。
本发明实施例能够确定各待聚类文本对应的语义向量;并利用语义向量确定的文本之间的相似度来确定聚类样本集,再对聚类样本集进行归并处理,从而使得文本聚类方法进一步优化,提高了文本聚类的准确性。
实施例二
图3为本发明实施例二提供的一种文本聚类方法用于挖掘突发新闻的流程图,本实施例在上述实施例的基础上进行优化:在确定至少一个目标样本集之后,还包括:根据每个目标样本集中待聚类文本的数量,对至少一个目标样本集进行排序;根据排序后的目标样本集确定突发新闻。
优化后,一种文本聚类方法具体包括:
S210、获取预设时间段内多个待聚类文本。
S220、根据设定语言模型确定各待聚类文本对应的语义向量。
S230、根据待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集。
S240、对任意两个聚类样本集进行聚类归并,确定至少一个目标样本集。
S250、根据每个目标样本集中待聚类文本的数量,对至少一个目标样本集进行排序。
其中,目标样本集中待聚类文本的数量越多,表示该目标样本集包括突发新闻的可能性越大。可选的,若每个目标样本集中待聚类文本的数量均不同,则根据目标样本集中待聚类文本的数量对至少一个目标样本集进行降序排列;若多个目标样本集中待聚类文本的数量相同,则根据待聚类文本的创建时间确定待聚类文本的权重值,根据权重值对待聚类文本数量相同的目标样本集进行排序。
可选的,S250具体包括:
根据每个目标样本集中待聚类文本的创建时间,确定待聚类文本的权重值,其中,创建时间为待聚类文本在网络中进行创建的时间;根据每个目标样本集中待聚类文本的数量和权重值,对至少一个目标样本集进行排序。
其中,根据待聚类文本的创建时间确定待聚类文本的权重值,待聚类文本的创建时间距离当前时间越近,待聚类文本的时效性越高,对应的权重值也越高。可选的,根据目标样本集中待聚类文本的数量和权重值计算目标样本集的平均权重值。具体的,将目标样本集中各待聚类文本的权重值相加再除以待聚类文本数量得到该目标样本集的平均权重值。根据目标样本集的平均权重值进行降序排序,排序完成后最靠前的目标样本集的平均权重值最高。由于考虑了待聚类文本的数量和权重值,所以得到的聚类结果的准确性更高。或者,还可以考虑创建时间所在时间段,基于所在时间段确定该时间段对应的权重值。例如,创建时间所在时间段包括至少两个,如10分钟、30分钟、1小时和3小时,四个时间段,则对应设置其固定的权重,能够加速计算。
S260、根据排序后的目标样本集确定突发新闻。
其中,从排序后最靠前的目标样本集中提取突发新闻,提高突发新闻选取的准确性。本实施例中可以将最靠前的目标样本集中权重值最高,也就是创建时间最近的待聚类文本作为突发新闻,实现了从海量待聚类文本中挖掘出突发新闻,以实时关注并及时发现当前的突发事件。
本发明实施例通过根据设定语言模型确定各待聚类文本对应的语义向量;根据待聚类文本之间的相似度确定每个待聚类文本的聚类样本集;通过对任意两个聚类样本集进行聚类归并,确定至少一个目标样本集;根据每个目标样本集中待聚类文本的数量,对至少一个目标样本集进行排序;根据排序后的目标样本集确定突发新闻。利用文本聚类的准确性和时效性,实现了从海量文本中准确挖掘出突发新闻,从而实时关注并及时发现当前的突发事件。
实施例三
图4为本发明实施例三提供的一种文本聚类装置的结构示意图,本实施例可适用于基于语义向量对海量文本数据进行文本聚类的情况,该装置包括待聚类文本获取模块410、语义向量确定模块420、聚类样本集确定模块430和目标样本集确定模块440。
其中,待聚类文本获取模块410,用于获取预设时间段内多个待聚类文本;语义向量确定模块420,用于根据设定语言模型确定各待聚类文本对应的语义向量;聚类样本集确定模块430,用于根据待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集;目标样本集确定模块440,用于对任意两个聚类样本集进行聚类归并,确定至少一个目标样本集。
可选的,该装置还包括:
目标样本集排序模块,用于在确定至少一个目标样本集之后,根据每个目标样本集中待聚类文本的数量,对至少一个目标样本集进行排序;
突发新闻确定模块,用于根据排序后的目标样本集确定突发新闻。
可选的,目标样本集排序模块,具体包括:
文本权重值确定单元,用于根据每个目标样本集中待聚类文本的创建时间,确定待聚类文本的权重值,其中,创建时间为待聚类文本在网络中进行创建的时间;
目标样本集排序单元,用于根据每个目标样本集中待聚类文本的数量和权重值,对至少一个目标样本集进行排序。
可选的,语义向量确定模块420,具体包括:
词向量获取单元,用于获取待聚类文本中至少一个有效词,并根据skip-gram语言模型确定每个有效词的词向量,其中,有效词包括至少一个字符;
语义向量确定单元,用于根据各个有效词的词向量确定待聚类文本对应的语义向量。
可选的,语义向量确定单元,具体用于:
对各个有效词的词向量进行按位求和,并按词向量的数量求取平均值,得到语义向量。
可选的,该装置还包括语言模型训练模块,具体用于:
获取多个训练文本,并对每个训练文本进行分词处理,确定至少一个有效词;根据每个训练文本中各有效词的上下文词汇,确定训练文本的上下文词汇样本集;将上下文词汇样本集输入skip-gram语言模型进行训练,并计算skip-gram语言模型对应的目标函数的最大值;若目标函数的最大值保持不变,则skip-gram语言模型训练完成。
可选的,目标样本集确定模块440,具体包括:
交并集获取单元,用于获取任意两个聚类样本集的交集结果和并集结果;
聚类归并单元,用于若两个聚类样本集的交集结果和并集结果满足聚类归并条件,则将该两个聚类样本集进行聚类归并,形成一个新的聚类样本集;
目标样本集确定单元,用于当任意两个聚类样本集的交集结果和并集结果均不满足聚类归并条件时,聚类归并结束,并根据聚类归并后的聚类样本集确定至少一个目标样本集。
本发明实施例所提供的文本聚类装置可执行本发明任意实施例所提供的文本聚类方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的文本聚类方法。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的文本聚类方法。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种文本聚类方法,其特征在于,包括:
获取预设时间段内多个待聚类文本;
根据设定语言模型确定各所述待聚类文本对应的语义向量,其中,所述设定语言模型为能够反映词汇上下文关系的语言模型;
根据所述待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集;
对任意两个所述聚类样本集进行聚类归并,确定至少一个目标样本集;
所述对任意两个所述聚类样本集进行聚类归并,确定至少一个目标样本集包括:
获取任意两个所述聚类样本集的交集结果和并集结果;
若两个聚类样本集的交集结果和并集结果满足聚类归并条件,则将该两个聚类样本集进行聚类归并,形成一个新的聚类样本集;
当任意两个聚类样本集的交集结果和并集结果均不满足聚类归并条件时,聚类归并结束,并根据聚类归并后的聚类样本集确定至少一个目标样本集。
2.根据权利要求1所述的方法,其特征在于,在确定至少一个目标样本集之后,还包括:
根据每个目标样本集中待聚类文本的数量,对所述至少一个目标样本集进行排序;
根据排序后的目标样本集确定突发新闻。
3.根据权利要求2所述的方法,其特征在于,根据每个目标样本集中待聚类文本的数量,对所述至少一个目标样本集进行排序包括:
根据每个目标样本集中待聚类文本的创建时间,确定待聚类文本的权重值,其中,所述创建时间为待聚类文本在网络中进行创建的时间;
根据每个目标样本集中待聚类文本的数量和权重值,对所述至少一个目标样本集进行排序。
4.根据权利要求1所述的方法,其特征在于,根据设定语言模型确定各所述待聚类文本对应的语义向量,包括:
获取所述待聚类文本中至少一个有效词,并根据skip-gram语言模型确定每个所述有效词的词向量,其中,所述有效词包括至少一个字符;
根据各个有效词的词向量确定所述待聚类文本对应的语义向量。
5.根据权利要求4所述的方法,其特征在于,根据各个有效词的词向量确定所述待聚类文本对应的语义向量,包括:
对所述各个有效词的词向量进行按位求和,并按词向量的数量求取平均值,得到所述语义向量。
6.根据权利要求4所述的方法,其特征在于,在使用所述skip-gram语言模型之前,还包括所述skip-gram语言模型的训练过程,具体包括:
获取多个训练文本,并对每个所述训练文本进行分词处理,确定至少一个有效词;
根据每个所述训练文本中各有效词的上下文词汇,确定所述训练文本的上下文词汇样本集;
将所述上下文词汇样本集输入skip-gram语言模型进行训练,并计算所述skip-gram语言模型对应的目标函数的最大值;
若所述目标函数的最大值保持不变,则所述skip-gram语言模型训练完成。
7.一种文本聚类装置,其特征在于,包括:
待聚类文本获取模块,用于获取预设时间段内多个待聚类文本;
语义向量确定模块,用于根据设定语言模型确定各所述待聚类文本对应的语义向量,其中,所述设定语言模型为能够反映词汇上下文关系的语言模型;
聚类样本集确定模块,用于根据所述待聚类文本的语义向量之间的相似度,确定每个待聚类文本的聚类样本集;
目标样本集确定模块,用于对任意两个所述聚类样本集进行聚类归并,确定至少一个目标样本集;
所述目标样本集确定模块,具体包括:交并集获取单元,用于获取任意两个聚类样本集的交集结果和并集结果;聚类归并单元,用于若两个聚类样本集的交集结果和并集结果满足聚类归并条件,则将该两个聚类样本集进行聚类归并,形成一个新的聚类样本集;目标样本集确定单元,用于当任意两个聚类样本集的交集结果和并集结果均不满足聚类归并条件时,聚类归并结束,并根据聚类归并后的聚类样本集确定至少一个目标样本集。
8.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的文本聚类方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的文本聚类方法。
CN201711318684.XA 2017-12-12 2017-12-12 一种文本聚类方法、装置、服务器和存储介质 Active CN107992596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711318684.XA CN107992596B (zh) 2017-12-12 2017-12-12 一种文本聚类方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711318684.XA CN107992596B (zh) 2017-12-12 2017-12-12 一种文本聚类方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN107992596A CN107992596A (zh) 2018-05-04
CN107992596B true CN107992596B (zh) 2021-05-18

Family

ID=62035946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711318684.XA Active CN107992596B (zh) 2017-12-12 2017-12-12 一种文本聚类方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN107992596B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829807A (zh) * 2018-06-07 2018-11-16 武汉斗鱼网络科技有限公司 一种舆情归并方法、装置、服务器和存储介质
CN110598200B (zh) * 2018-06-13 2023-05-23 北京百度网讯科技有限公司 语义识别方法及装置
CN108920458A (zh) * 2018-06-21 2018-11-30 武汉斗鱼网络科技有限公司 一种标签归一化方法、装置、服务器和存储介质
CN108831472B (zh) * 2018-06-27 2022-03-11 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN110968690B (zh) * 2018-09-30 2023-05-23 百度在线网络技术(北京)有限公司 词语的聚类划分方法和装置、设备以及存储介质
CN109408638B (zh) * 2018-10-22 2021-04-30 科大讯飞股份有限公司 定标集更新方法及装置
CN109360658B (zh) * 2018-11-01 2021-06-08 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109902170B (zh) * 2019-01-30 2023-08-22 创新先进技术有限公司 一种文本的分类方法、装置及电子设备
CN111858916B (zh) * 2019-04-01 2024-04-09 北京百度网讯科技有限公司 用于聚类句子的方法和装置
CN110427614B (zh) * 2019-07-16 2023-08-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110633468B (zh) * 2019-09-04 2023-04-25 山东旗帜信息有限公司 一种关于对象特征提取的信息处理方法及装置
CN111047353A (zh) * 2019-11-27 2020-04-21 泰康保险集团股份有限公司 数据处理方法、系统及电子设备
CN110990569B (zh) * 2019-11-29 2023-11-07 百度在线网络技术(北京)有限公司 文本聚类方法、装置及相关设备
CN111309905A (zh) * 2020-02-06 2020-06-19 北京明略软件系统有限公司 一种对话语句的聚类方法、装置、电子设备及存储介质
CN111428035A (zh) * 2020-03-23 2020-07-17 北京明略软件系统有限公司 实体聚类的方法及装置
CN113449102A (zh) * 2020-03-27 2021-09-28 北京京东拓先科技有限公司 文本聚类方法、设备及存储介质
CN111552850A (zh) * 2020-04-24 2020-08-18 浙江每日互动网络科技股份有限公司 类型确定方法及装置、电子设备和计算机可读存储介质
CN111708879A (zh) * 2020-05-11 2020-09-25 北京明略软件系统有限公司 针对事件的文本聚合方法、装置及计算机可读存储介质
CN112364130B (zh) * 2020-11-10 2024-04-09 深圳前海微众银行股份有限公司 样本采样方法、设备和可读存储介质
CN112784040B (zh) * 2020-12-08 2023-02-28 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
CN112632229A (zh) * 2020-12-30 2021-04-09 语联网(武汉)信息技术有限公司 文本聚类方法及装置
CN112835798B (zh) * 2021-02-03 2024-02-20 广州虎牙科技有限公司 聚类学习方法、测试步骤聚类方法及相关装置
CN113590820A (zh) * 2021-07-16 2021-11-02 杭州网易智企科技有限公司 一种文本处理方法、装置、介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN106886561A (zh) * 2016-12-29 2017-06-23 中国科学院自动化研究所 基于时间关联交互融合的网络社区帖子影响排序方法
CN107133315A (zh) * 2017-05-03 2017-09-05 有米科技股份有限公司 一种基于语义分析的智能媒介推荐方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044487A1 (en) * 2003-08-21 2005-02-24 Apple Computer, Inc. Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
CN102937960B (zh) * 2012-09-06 2015-06-17 北京邮电大学 突发事件热点话题的识别与评估装置
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN107330049B (zh) * 2017-06-28 2020-05-22 北京搜狐新媒体信息技术有限公司 一种新闻热度预估方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN106886561A (zh) * 2016-12-29 2017-06-23 中国科学院自动化研究所 基于时间关联交互融合的网络社区帖子影响排序方法
CN107133315A (zh) * 2017-05-03 2017-09-05 有米科技股份有限公司 一种基于语义分析的智能媒介推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于本体的文本主题提取方法研究;高玮军等;《万方数据库》;20120427;第54-56页 *

Also Published As

Publication number Publication date
CN107992596A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN109614625B (zh) 标题正文相关度的确定方法、装置、设备及存储介质
CN106897439B (zh) 文本的情感识别方法、装置、服务器以及存储介质
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN107909088B (zh) 获取训练样本的方法、装置、设备和计算机存储介质
CN109408829B (zh) 文章可读性确定方法、装置、设备和介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN113220999A (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN114201607B (zh) 一种信息处理的方法和装置
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质
CN111949765B (zh) 基于语义的相似文本搜索方法、系统、设备和存储介质
CN112084764B (zh) 数据检测方法、装置、存储介质及设备
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110378378B (zh) 事件检索方法、装置、计算机设备及存储介质
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN113779370A (zh) 一种地址检索方法和装置
US20240233427A1 (en) Data categorization using topic modelling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant