CN106951511A - 一种文本聚类方法及装置 - Google Patents

一种文本聚类方法及装置 Download PDF

Info

Publication number
CN106951511A
CN106951511A CN201710160349.5A CN201710160349A CN106951511A CN 106951511 A CN106951511 A CN 106951511A CN 201710160349 A CN201710160349 A CN 201710160349A CN 106951511 A CN106951511 A CN 106951511A
Authority
CN
China
Prior art keywords
clustered
text
keyword
texts
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710160349.5A
Other languages
English (en)
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Cnfol Information Technology Co Ltd
Original Assignee
Fujian Cnfol Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Cnfol Information Technology Co Ltd filed Critical Fujian Cnfol Information Technology Co Ltd
Priority to CN201710160349.5A priority Critical patent/CN106951511A/zh
Publication of CN106951511A publication Critical patent/CN106951511A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明实施例提供了一种文本聚类方法及装置,其中,所述方法包括:获取多个待聚类文本;分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;根据该对应关系,将多个待聚类文本进行聚类。通过本发明实施例提供的文本聚类方法及装置,可以简化文本聚类的计算过程、提高计算效率。

Description

一种文本聚类方法及装置
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种文本聚类方法及装置。
背景技术
随着互联网与物联网应用日益普及,网络更加智能化,网络的数据量也呈现爆炸的趋势。而大数据的特征就是海量、多样与实时性,这些对数据的管理、分析、处理提出了很高的要求。为了使用户从大量的数据中读取自己感兴趣的或者自己需要的信息,需要通过一些手段对数据进行处理,例如数据挖掘、自然语言处理(Natural Language Processing,NLP)、大规模数据集的并行运算(Hadoop)、高性能与高可扩展性数据库(NoSQL)、数据可视化技术等技术。
数据挖掘是大数据处理的一个重要的手段,而聚类是数据挖掘中一个重要的分析方法。聚类,将相似的数据对象划分到对应的分组或子集,从而使得具有相似属性的数据能被划分到同一个子集中,以实现将数据集类别划分的目的。其中,文本聚类是从很多文本中把一些内容相似的文本聚为一类。文本聚类主要是依据聚类假设:同类的文本相似度较大,而不同类的文本相似度较小。
现有的文本聚类方法,将文本表示为特征向量,然后通过计算文本对应的特征向量、计算文本之间的相似度;最后,根据文本之间的相似度将文本进行聚类。可以看出,现有的文本聚类方法,首先需要将文本表示为特征向量,进而才能通过特征向量计算文本之间的相似度,使得文本聚类的计算过程复杂、效率较低。
发明内容
本发明实施例的目的在于提供一种文本聚类方法及装置,以简化文本聚类的计算过程、提高计算效率。具体技术方案如下:
一方面,本发明实施例提供了一种文本聚类方法,包括:
获取多个待聚类文本;
分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;
根据所述对应关系,将多个待聚类文本进行聚类。
可选的,所述根据所述对应关系,将多个待聚类文本进行聚类,包括:
按照将具有相同关键词的不同待聚类文本划分为同一类别的过程,将多个待聚类文本划分为不同类别,完成多个待聚类文本的聚类;
其中,同一类别中所有待聚类文本具有的相同关键词,为所述类别的关键词标签,同一类别中所有待聚类文本,为所述类别的关键词标签对应的聚合文本。
可选的,所述方法还包括:
显示所有关键词标签。
可选的,所述方法还包括:
接收用户选择第一关键词标签的指令;
查找所述第一关键词标签对应的聚合文本;
向用户展示所述第一关键词标签对应的聚合文本。
可选的,所述提取多个待聚类文本的关键词,包括:
提取待聚类文本的标题的第一关键词;
将所述第一关键词,作为所述待聚类文本的关键词。
可选的,所述提取多个待聚类文本的关键词,包括:
分别计算每个待聚类文本中的所有词的词频,其中,所述词频表示词在待聚类文本中出现的次数;
分别计算每个待聚类文本中的所有词的逆文档频率,其中,所述逆文档频率是文档频率的倒数;
将每个词的所述词频与所述逆文档频率相乘,得到每个词的关键值;
分别将每个待聚类文本中关键值最大的词作为所述待聚类文本的关键词。
另一方面,本发明实施例还提供了一种文本聚类装置,包括:
获取模块,用于获取多个待聚类文本;
提取模块,用于分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;
聚类模块,用于根据所述对应关系,将多个待聚类文本进行聚类。
可选的,所述聚类模块具体用于,按照将具有相同关键词的不同待聚类文本划分为同一类别的过程,将多个待聚类文本划分为不同类别,完成多个待聚类文本的聚类;
其中,同一类别中所有待聚类文本具有的相同关键词,为所述类别的关键词标签,同一类别中所有待聚类文本,为所述类别的关键词标签对应的聚合文本。
可选的,所述装置还包括:
显示模块,用于显示所有关键词标签。
可选的,所述装置还包括:
接收模块,用于接收用户选择第一关键词标签的指令;
查找模块,用于查找所述第一关键词标签对应的聚合文本;
展示模块,用于向用户展示所述第一关键词标签对应的聚合文本。
本发明实施例提供的文本聚类方法及装置,可以通过获取多个待聚类文本;分别提取多个待聚类文本的关键词,并保存每个待聚类文本与待聚类文本的关键词的对应关系;根据多个待聚类文本的关键词以及对应关系,将多个待聚类文本进行聚类。通过提取每个待聚类文本的关键词,进而根据每个待聚类文本的关键词对所有的待聚类文本进行聚类,简化文本聚类的计算过程、提高计算效率。同时,可以更好地展示文本的信息,方便用户快速地获取文本信息。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本聚类方法的流程图;
图2为本发明实施例文本聚类装置的另一种结构示意图;
图3为本发明实施例文本聚类装置的另一种结构示意图;
图4为本发明实施例文本聚类装置的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的文本聚类方法的流程图,参照图1对本发明实施例提供的文本聚类方法进行详细说明,该方法包括:
步骤101,获取多个待聚类文本。
本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为处理器、台式计算机、便携式计算机、智能移动设备等。
本发明实施例文本聚类方法中,电子设备获取多个待聚类文本,具体地可以通过光学字符识别、语音识别、手写识别等方式获取多个待聚类文本。其中,光学识别是指对文本资料进行扫描,然后对扫描得到的图像文件进行分析处理,获取文本信息的过程;语音识别是指通过识别和理解过程将语音信号转化为文本的过程;手写识别是指将手写的有序轨迹信息转化为文本信息的过程。
步骤102,分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系。
一般情况下,待聚类文本都是围绕一个或者多个主题形成的,可以包括标题和正文,其中标题是对正文内容进行总结得到的。所以实际应用过程中,可以通过提取正文内容的关键词得到待聚类文本的关键词,也可以直接通过提取标题的关键词得到待聚类文本的关键词。本发明实施例一种可实现方式中,为了更加快速地提取到待聚类文本的关键词,可以提取待聚类文本的标题的第一关键词;将该第一关键词,作为待聚类文本的关键词。
提取待聚类文本的关键词,简单地理解,即找出可以代表整个待聚类文本思想的词。本发明实施例提供的文本聚类方法中,可以通过以下方式提取待聚类文本的关键词。第一种:按照待聚类文本中每个词出现的次数,找出待聚类文本中出现频繁的词作为待聚类文本的关键词;第二种:不仅仅考虑待聚类文本中的高频词语,同时结合词语的词性对关键词提取的影响,例如,待聚类文本中“的”出现的频率很高,但是不能简单地理解“的”为该待聚类文本的关键词。需要说明的是,本发明实施例不对提取关键词的方式进行限制,任何可以提取待聚类文本的关键词的方式都在本发明实施例的保护范围内。
提取待聚类文本的关键词后,需要保存待聚类文本与待聚类文本的关键词的对应关系,为后续的聚类过程提供条件。本发明实施例一种可实现方式中,可以将该对应关系保存至本地文件、数据库、缓存或者云盘等存储空间中,然后在对待聚类文本进行聚类时,从这些存储空间中直接查找该对应关系。
另外,需要说明的是,待聚类文本与待聚类文本的关键词的对应关系可以是以列表、索引等形式存在,如此不仅方便存储,而且在对待聚类文本进行聚类时,方便查找待聚类文本与关键词的关系,进而提高了聚类过程的速率。
步骤103,根据待聚类文本与待聚类文本的关键词的对应关系,将多个待聚类文本进行聚类。
每个待聚类文本都有其对应的关键词,分别比对每个待聚类文本的关键词是否相同,将关键词相同的待聚类文本归为一类,如此即可将多个待聚类文本分为不同类别,完成将多个待聚类文本进行聚类的过程。
具体地,在本发明实施例一种可选的实施例中,可以按照将具有相同关键词的不同待聚类文本划分为同一类别的过程,将多个待聚类文本划分为不同类别,完成多个待聚类文本的聚类;其中,同一类别中所有待聚类文本具有的相同关键词,为类别的关键词标签,同一类别中所有待聚类文本,为类别的关键词标签对应的聚合文本。
本发明实施例提供的文本聚类方法,通过分别提取多个待聚类文本的关键词,进而根据每个待聚类文本的关键词将多个待聚类文本进行聚类,使得方便用户可以更加方便地获取、查找信息。可以看出,本发明实施例提供的文本聚类方法不需要首先将多个待聚类文本表示成特征向量,然后计算特征向量之间的相似度,进而才能对多个待聚类文本进行聚类,如此可以简化文本聚类的计算过程、提高计算效率。
上述内容已经说到,提取多个待聚类文本的关键词的方式有多种,其中,有一种是按照待聚类文本中每个词出现的次数,找出待聚类文本中出现频繁的词作为待聚类文本的关键词。因为这种提取关键词的方式是最容易理解,同时计算过程不复杂的一种方式,所以本发明实施例一种可选的实施例中,文本聚类方法中选择这种选取关键词的方式,提取多个待聚类文本的关键词,具体地,包括:
第一步,分别计算每个待聚类文本中的所有词的词频,其中,词频表示词在待聚类文本中出现的次数。
第二步,分别计算每个待聚类文本中的所有词的逆文档频率,其中,逆文档频率是文档频率的倒数。
第三步,将每个词的词频与逆文档频率相乘,得到每个词的关键值。
第四步,分别将每个待聚类文本中关键值最大的词作为该待聚类文本的关键词。
另外,将多个待聚类文本进行聚类后,可以保存聚类后的结果,需要说明的是,聚类后的结果可以是以索引、列表等形式存在。例如,每个关键词标签对应一个或者多个聚合文本,将每个关键词标签作为一个索引标识,每个关键词标签对应的聚合文本为索引标识对应的具体内容。
具体地,表1为本发明实施例提供的文本聚类方法的聚类结果示意图,参照表1所示,得到的聚类结果为:不同的关键词标签分别对应不同的聚合文本,如关键词标签1对应三个聚合文本:聚合文本10、聚合文本11和聚合文本12;关键词标签2对应两个聚合文本:聚合文本20和聚合文本21,当然,这里只是以关键词标签1和关键词标签2为例进行说明。实际应用过程中,对多个待聚类文本进行聚类可以得到一个、两个或者多个不同的关键词标签,同时,一个关键词标签也可以对应一个、两个或者多个关键词标签。
表1
本发明实施例一种可选的实施例中,为了使用户可以直观地查看多个待聚类文本,可以将对多个待聚类文本进行聚类后的聚类结果显示出来。在实际的应用中,显示聚类结果中的所有关键词标签,以使用户可以通过关键词标签分类别地查找多个待聚类文本的信息,如此使得用户可以更加方便、快速地查找信息。
具体地,显示聚类结果中的所有关键词标签可以是随机进行显示,也可以是按照一定的顺序进行显示。例如,按照关键词标签的长度从短到长或从长到短进行显示;或者根据关键词标签对应的主题在网上的热度,按照热度从高到低或从低到高的顺序进行显示。需要说明的是,本发明实施例文本聚类方法对关键词标签的显示方式不作限制,任何可以显示关键词标签的方式都在本发明实施例的保护范围内。
还有,显示聚类结果中的所有关键词标签之后,通过接收用户选择第一关键词标签的指令,查找用户选择的该第一关键词标签对应的聚合文本,进而向用户展示该第一关键词标签对应的所有聚合文本。
需要说明的是,第一关键词标签可以是所有关键词标签中的一个或者多个。另外,这里所说的选择第一关键词标签的指令可以是用户点击关键词标签产生的点击指令,也可以是以信息形式存在的信息指令。具体地,当选择关键词标签的指令是点击指令时,用户获取、查找信息的过程包括:
第一步,用户点击一个或者多个关键词标签,即产生点击指令;
第二步,电子设备接收该点击指令;
第三步,电子设备通过该点击指令中包含的关键词标签,查找该关键词标签对应的聚合文本;
第四步,电子设备将该关键词标签对应的这些聚合文本显示、提供给用户,使得用户获取、浏览这些聚合文本的信息。
另外,当选择关键词标签的指令是信息指令时,用户获取、查找信息的过程与选择关键词标签的指令是点击指令时,用户获取、查找信息的过程类似。不同的是,当选择关键词标签的指令是信息指令时,用户将自己想要查找、浏览的关键词标签的属性信息生成信息指令,发送至电子设备,使电子设备可以根据信息指令查找用户需要的聚合文本,进而将这些聚合文本呈现给用户,方便用户获取、浏览聚合文本对应的信息。
本发明实施例一种可选的实现方式中,选择关键词标签的指令为点击指令,用户通过直接点击选择出关键词标签,一方面符合用户的日常习惯;另一方面使得用户无需再生成信息指令,并将该信息指令发送至电子设备,如此可以简化交互的过程,提高速率,进而使得用户可以快速地查找、获取聚合文本的信息。
本发明实施例还提供了一种文本聚类装置,图2为本发明实施例文本聚类装置的一种结构示意图,参照图2对该装置进行详细说明,该装置包括:
获取模块201,用于获取多个待聚类文本。
提取模块202,用于分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系。
聚类模块203,用于根据该对应关系,将多个待聚类文本进行聚类。
本发明实施例提供的文本聚类装置,通过分别提取多个待聚类文本的关键词,进而根据每个待聚类文本的关键词将多个待聚类文本进行聚类,使得方便用户可以更加方便地获取、查找信息。可以看出,本发明实施例提供的文本聚类方法不需要首先将多个待聚类文本表示成特征向量,然后计算特征向量之间的相似度,进而才能对多个待聚类文本进行聚类,如此可以简化文本聚类的计算过程、提高计算效率。
可选的,本发明实施例提供的文本聚类装置中,聚类模块具体用于,按照将具有相同关键词的不同待聚类文本划分为同一类别的过程,将多个待聚类文本划分为不同类别,完成多个待聚类文本的聚类。
其中,同一类别中所有待聚类文本具有的相同关键词,为该类别的关键词标签,同一类别中所有待聚类文本,为该类别的关键词标签对应的聚合文本。
可选的,图3为本发明实施例文本聚类装置的另一种结构示意图,参照图3,本发明实施例提供的文本聚类装置还包括:
显示模块204,用于显示所有关键词标签。
可选的,图4为本发明实施例文本聚类装置的另一种结构示意图,参照图4,本发明实施例提供的文本聚类装置还包括:
接收模块205,用于接收用户选择第一关键词标签的指令。
查找模块206,用于查找第一关键词标签对应的聚合文本。
展示模块207,用于向用户展示第一关键词标签对应的聚合文本。
可选的,本发明实施例提供的文本聚类装置中,提取模块具体用于提取待聚类文本的标题的第一关键词;并将第一关键词,作为待聚类文本的关键词。
可选的,本发明实施例提供的文本聚类装置中,提取模块202包括:
第一计算子模块,用于分别计算每个待聚类文本中的所有词的词频,其中,词频表示词在待聚类文本中出现的次数。
第二计算子模块,用于分别计算每个待聚类文本中的所有词的逆文档频率,其中,逆文档频率是文档频率的倒数。
相乘子模块,用于将每个词的词频与逆文档频率相乘,得到每个词的关键值。
关键词得到子模块,用于分别将每个待聚类文本中关键值最大的词作为待聚类文本的关键词。
需要说明的是,本发明实施例的装置是应用上述文本聚类方法的装置,则上述文本聚类方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文本聚类方法,其特征在于,包括:
获取多个待聚类文本;
分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;
根据所述对应关系,将多个待聚类文本进行聚类。
2.根据权利要求1所述的文本聚类方法,其特征在于,所述根据所述对应关系,将多个待聚类文本进行聚类,包括:
按照将具有相同关键词的不同待聚类文本划分为同一类别的过程,将多个待聚类文本划分为不同类别,完成多个待聚类文本的聚类;
其中,同一类别中所有待聚类文本具有的相同关键词,为所述类别的关键词标签,同一类别中所有待聚类文本,为所述类别的关键词标签对应的聚合文本。
3.根据权利要求2所述的文本聚类方法,其特征在于,所述方法还包括:
显示所有关键词标签。
4.根据权利要求3所述的文本聚类方法,其特征在于,所述方法还包括:
接收用户选择第一关键词标签的指令;
查找所述第一关键词标签对应的聚合文本;
向用户展示所述第一关键词标签对应的聚合文本。
5.根据权利要求1所述的文本聚类方法,其特征在于,所述提取多个待聚类文本的关键词,包括:
提取待聚类文本的标题的第一关键词;
将所述第一关键词,作为所述待聚类文本的关键词。
6.根据权利要求1所述的文本聚类方法,其特征在于,所述提取多个待聚类文本的关键词,包括:
分别计算每个待聚类文本中的所有词的词频,其中,所述词频表示词在待聚类文本中出现的次数;
分别计算每个待聚类文本中的所有词的逆文档频率,其中,所述逆文档频率是文档频率的倒数;
将每个词的所述词频与所述逆文档频率相乘,得到每个词的关键值;
分别将每个待聚类文本中关键值最大的词作为所述待聚类文本的关键词。
7.一种文本聚类装置,其特征在于,包括:
获取模块,用于获取多个待聚类文本;
提取模块,用于分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;
聚类模块,用于根据所述对应关系,将多个待聚类文本进行聚类。
8.根据权利要求7所述的文本聚类装置,其特征在于,所述聚类模块具体用于,按照将具有相同关键词的不同待聚类文本划分为同一类别的过程,将多个待聚类文本划分为不同类别,完成多个待聚类文本的聚类;
其中,同一类别中所有待聚类文本具有的相同关键词,为所述类别的关键词标签,同一类别中所有待聚类文本,为所述类别的关键词标签对应的聚合文本。
9.根据权利要求8所述的文本聚类装置,其特征在于,所述装置还包括:
显示模块,用于显示所有关键词标签。
10.根据权利要求9所述的文本聚类装置,其特征在于,所述装置还包括:
接收模块,用于接收用户选择第一关键词标签的指令;
查找模块,用于查找所述第一关键词标签对应的聚合文本;
展示模块,用于向用户展示所述第一关键词标签对应的聚合文本。
CN201710160349.5A 2017-03-17 2017-03-17 一种文本聚类方法及装置 Pending CN106951511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710160349.5A CN106951511A (zh) 2017-03-17 2017-03-17 一种文本聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710160349.5A CN106951511A (zh) 2017-03-17 2017-03-17 一种文本聚类方法及装置

Publications (1)

Publication Number Publication Date
CN106951511A true CN106951511A (zh) 2017-07-14

Family

ID=59473506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710160349.5A Pending CN106951511A (zh) 2017-03-17 2017-03-17 一种文本聚类方法及装置

Country Status (1)

Country Link
CN (1) CN106951511A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918488A (zh) * 2019-02-02 2019-06-21 上海蜜度信息技术有限公司 用于相似文档检索的方法与设备
CN110188203A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质
CN110633330A (zh) * 2018-06-01 2019-12-31 北京百度网讯科技有限公司 事件发现方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646103A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
US20140214821A1 (en) * 2000-11-27 2014-07-31 Sonicwall, Inc. System and method for adaptive text recommendation
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214821A1 (en) * 2000-11-27 2014-07-31 Sonicwall, Inc. System and method for adaptive text recommendation
CN102646103A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633330A (zh) * 2018-06-01 2019-12-31 北京百度网讯科技有限公司 事件发现方法、装置、设备及存储介质
US11210469B2 (en) 2018-06-01 2021-12-28 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus for event detection, device and storage medium
CN110633330B (zh) * 2018-06-01 2022-02-22 北京百度网讯科技有限公司 事件发现方法、装置、设备及存储介质
CN109918488A (zh) * 2019-02-02 2019-06-21 上海蜜度信息技术有限公司 用于相似文档检索的方法与设备
CN110188203A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US9600533B2 (en) Matching and recommending relevant videos and media to individual search engine results
Kaleel et al. Cluster-discovery of Twitter messages for event detection and trending
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN105550369B (zh) 一种搜索目标商品集的方法及装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
US20120054206A1 (en) System and method for generating a relationship network
CN103838756A (zh) 一种确定推送信息的方法及装置
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN105512143A (zh) 一种网页分类方法及装置
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
Roopak et al. OntoKnowNHS: ontology driven knowledge centric novel hybridised semantic scheme for image recommendation using knowledge graph
CN105916032A (zh) 视频推荐的方法及视频推荐的终端设备
CN103744887A (zh) 一种用于人物搜索的方法、装置和计算机设备
CN106294358A (zh) 一种信息的检索方法及系统
CN106951511A (zh) 一种文本聚类方法及装置
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
CN108932247A (zh) 一种优化文本搜索的方法及装置
Wu et al. Clustering results of image searches by annotations and visual features
CN108345605B (zh) 一种文本搜索方法及装置
CN112241463A (zh) 一种基于融合文本语义与图片信息的搜索方法
CN109635075A (zh) 一种文本内容划词标识的方法及装置
Alonso et al. Kondenzer: Exploration and visualization of archived social media
KR101236998B1 (ko) 성장 식물형 키워드 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170714