CN101727500A - 一种基于流聚类的中文网页文本分类方法 - Google Patents
一种基于流聚类的中文网页文本分类方法 Download PDFInfo
- Publication number
- CN101727500A CN101727500A CN201010034107A CN201010034107A CN101727500A CN 101727500 A CN101727500 A CN 101727500A CN 201010034107 A CN201010034107 A CN 201010034107A CN 201010034107 A CN201010034107 A CN 201010034107A CN 101727500 A CN101727500 A CN 101727500A
- Authority
- CN
- China
- Prior art keywords
- text
- class
- vector
- label
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 52
- 241000239290 Araneae Species 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000270322 Lepidosauria Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于流聚类的中文网页文本分类方法,属于互联网数据挖掘技术领域,该方法包括:实时采集网页;去除未处理过的该网页的格式中的标签,解析出网页中各文本的特征信息;将文本内容分割、做ngram分词,形成多个词串;计算每个词串的权值;提取高权值词串,将该高权值词串及其相应权值作为特征向量;将特征向量以及特征信息与已有类进行相似度的计算;并计算得到的总的相似度,将文本归入已有的一类中或建立一个新类;根据已存在的类中的特征项数量,判断是否将该类分裂成两个子类;对已处理的文本记录和已有的类的信息进行储存。本方法针对网页文本的特点充分挖掘了它的有效信息,使该方法具有增量式、快速、有效及更实用的特点。
Description
技术领域
本发明属于互联网数据挖掘技术领域,特别是涉及一种对于海量网页文本的聚类方法。
背景技术
随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,这些数据具有更新速度快、数据量庞大、数据组织形式不规范等特点,但也蕴藏着极多的有价值信息。如何从这些海量数据中提取出有效信息成为人们关注的热点。
为了能对海量数据进行有效分类,目前人们主要基于流聚类方法对海量数据进行分类,这种方法的基本思路是:只对数据进行一次扫描,扫描一条处理一条,按照数据的特征信息将该数据归入类中,类的表示方法为类中数据的特征信息的加权,这样便于进行类的更新操作。
将这种通用的流聚类方法应用到网页文本上存在的主要问题是:网页文本的特征信息除了正文之外还包含标题、作者、发表时间等,而且网页文本经过预处理之后的数据单元往往是高维的而且维度不定,分析起来难度更大。
发明内容
本发明的目的在于克服已有技术的不足之处,提出一种中文网页文本的聚类方法,将流聚类方法应用到网页文本聚类上,本方法针对网页文本的特点充分挖掘了它的有效信息,使该方法具有增量式、快速、有效及更实用的特点。
本方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成;
文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的加权线性和以及类的权值构成;初始化时文本类数量为0;
该方法包括以下步骤:
1)通过网页爬虫从Internet的新闻站点上实时采集网页;
2)对采集到的网页做预处理,首先判断该网页是否已经处理过,如果是,则丢弃,如果未处理过,则去除该网页格式(html)中的标签,解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接(个别文本中可能会缺少某些信息)作为特征信息;
3)根据文本的中文编码标准对该文本进行解码,将文本内容分割成一个个单独的字,然后对标题、标签和正文做ngram分词,形成多个词串;
4)根据TF*IDF公式计算该文本标题、标签和正文中每个词串的权值;
5)根据步骤4)中计算得到的权值提取该文本标题、标签和正文中的高权值词串,并对所述高权值词串进行归一化处理,使该词串的权值和为1,将该高权值词串及其相应权值作为该文本的标题、标签和正文特征向量;
6)将该文本的标题、标签和正文特征向量以及作者和相关链接的特征信息与已有类进行相似度的计算;
7)根据步骤6)中计算得到的总的相似度,将文本归入已有的一类中或以该文本的特征信息为基础建立一个新类;
8)判断已存在的类中的正文特征向量的特征项数量,若该数量大于设定值,则将该类分裂成两个子类,以防止类的无限膨胀;
9)对已处理的文本记录和已有的类的信息进行储存,以在下次启动聚类过程时利用这些信息。
本发明的中文网页新词自动获取方法与现有的技术相比,具有以下优点:
1、采用网页爬虫从大型门户网站上获取WEB数据来进行分析;
互联网是当前发布和传播信息的主要途径,而大型门户网站的数据具有较强的实时性、可靠性和较高的覆盖程度,能够较好的反应当前舆论动向,数据的分析结果也就具有更高的实用价值。
2、采用ngram方法进行中文分词;
相比基于词典查找的中文分词方法,ngram分词方法简便易行,处理效率高,词的覆盖率宽,不会遗漏最新出现的网络词汇。
3、充分利用网页中的有效信息;
网页文本中除了正文部分以外,往往还含有其他的有用信息,这些信息对于进行文本分析都是有用的,本方法中充分考虑了这一点,针对不同的信息引入不同的衡量公式,以达到更好的分析结果。
4、引入了类的合并与分裂,防止类的畸形发展;
随着文本的不断输入,传统的聚类方法往往会出现类的数量急剧增多、文本的集中化分布、类的容量过大等情况,本方法对类的生成、分裂和合并等过程进行了程式化描述,以防止类的畸形发展。
5、本方法具有较高的运行速度;
对于海量数据的处理往往会遇到算法复杂度过高,运行速度较慢的情况,本方法还可采用多线程并行处理和分片处理等机制来改进运行速度,获得了理想的效果。
具体实施方式
本发明提出的一种基于流聚类的中文网页文本分类方法及实施例详细描述如下:
首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成;
文本类为在某一时刻t到来的一组发表时间为T1,T2,...Tn(以天为单位)的相应文本P1,P2,...P3的集合,该类结构由多个特征向量及类的权值和更新时间组成,表示为(,ω,t),其中分别为该类中的所有文本的标题向量、标签向量、正文向量、作者向量、相关博文链接向量的加权线性和;表示该类的权值,f(t)=2-λt为衰变函数(λ推荐取0.1,即以10天为半衰期),t为该类中距离当前时间最近的文本的发表日期,
本方法具体包括以下步骤:
1)通过网页爬虫从Internet的新闻站点上实时采集网页;
本实施例的网页爬虫可以使用开源的爬虫,或者自己开发的爬虫,例如通过借助RSS从新浪或搜狐博客站点持续更新博文网页;
2)对采集到的网页做预处理,首先判断该网页是否已经处理过,如果是,则丢弃,如果未处理过,则去除网页格式(html)中的标签,解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接(个别文本中可能会缺少某些项)作为特征信息;
本实施例可利用开源的网页解析软件、开发包,或者通过简单的正则匹配的方式对采集到的网页进行解析,提取文章的作者、标题、标签、正文、发表时间、相关链接作为特征信息;
3)根据文本的中文编码标准对该文本进行解码,将文本内容分割成一个个单独的字,然后然后对标题、标签和正文做ngram分词,形成多个词串;本实施例的具体步骤如下:
31)中文网页通常采用定长形式的GBK编码或者不定长形式的UTF8编码,首先判断其编码方案,然后根据解码规范对其进行解码,将文本内容分割成一个个单独的字;
32)利用ngram分词方法对分割后的文本进行分词,顺序将临近的n个汉字聚聚集在一起形成一个词串(比如一句话“我爱中国”,n取为2时,可以得到如下三个词串:“我爱”、“爱中”、“中国”,n可以取1、2和3,或根据需要取值);
4)根据TF*IDF公式计算该文本标题、标签和正文中每个词串的权值;
41)TF*IDF是文本处理中计算词串权值的经典公式,词串i的权值wti计算公式为其中tf是该词串在该文本中出现的频率,N为处理过的文本总数,由统计可以得到,ni为处理过的文本中包含该词串的文本数;N、ni、i均为正整数;
42)维护一份词串索引表,通过多线程和哈希的方式将词串索引表分成256个子表,该词串索引子表以词串为索引,记录处理过的文本中包含该词串的文本数以及这些文本的链接地址;
由于ngram分词后的词串量往往在千万数量级,数据库在维护这个量级的索引表时操作速度很慢,为了解决这个问题,本实施例通过多线程和哈希的方式将词串索引表分成256个子表,每个子表对应一个线程,对于一个新的词串,根据词串的哈希值将其分给某一个线程,由该线程将词串插入或更新到子索引表中;
一方面分表方式可以大大减小每个表中词串的数量,另一方面,绑定线程的方式可以实现并行操作,当数据表锁定时(修改或查找数据时)可以进行其他操作而不是等待直到解锁。这种方式可以大大提高词串索引表的读取、插入和更新速度;
43)对于该文本中的每一个词串,从词串索引子表中读取ni,即处理过的文本中包含该词串的文本数,根据步骤41)的公式对该词串权值进行计算,最后对词串索引子表中该词串项进行更新;
5)根据步骤4)中计算得到的权值提取该文本标题、标签和正文中的高权值词串,并对这些高权值词串进行归一化处理,使词串的权值和为1,将这些高权值词串及其相应权值作为该文本的标题、标签和正文特征向量;
本实施例的具体步骤如下:
51)将该文本中的词串按照权重进行排序,取前1/12的词串为高权值词串,若该文本中有200字,则由于ngram通常用到一元、二元和三元,则会得到600个词串,取前1/12高权值词串即取前50高权值词串,也可根据需要调整高权值词串数。
52)对提取后的高权值词串做归一化处理,使该高权值词串的权值和为1。将这些高权值词串及其相应权值作为该文本的标题、标签和正文特征向量;
6)将该文本的标题、标签和正文特征向量以及作者和相关链接的特征信息与已有类进行相似度的计算;本实施例相似度计算方法如下:
将该文本的各个特征向量与已有类进行特征相似度的计算,其中标题、标签和正文向量用TF*IDF模型对其建模,然后用余弦相似度计算公式来计算与类的相应特征向量之间的相似度,对于作者和相关链接特征信息,用如下公式计算与类相应特征向量的相似度:S(a,t)=∑ei·wi,ei∈L(a)∩L(t),其中ei表示同时属于该文本与该类的作者或相关链接,wi表示ei在该类中所占的比重,最后该文本与类之间的总的相似度为各特征相似度加权,该文本的发表日期只用于归类时根据类权值计算公式对类的权值进行更新;
7)根据步骤6)中计算得到的总的相似度,将文本归入已有的一类中或以该文本的特征信息为基础建立一个新类;本实施例具体包括:
71)如果该文本与类之间的最高相似度高于预先设定的阈值(经验值,通常取0.1到0.3),则将当前文本归于相应的最高相似度类中,如果该类新加入的该文本的发表时间T>t,则该类结构更新为(,f(T-t)ω+1,T),如果T<t,则该类结构更新为(,ω+f(t-T),t);
72)如果该文本与类之间的最高相似度低于该阈值,但是类的数量已经达到上限(该实施方案中限定类的数量上限为30个,根据存储容量设定,一般为20到50),则需要对已存在的类进行合并,计算类与类之间的相似度,并对相似度最高的两个类进行合并,合并时取原来两个类中各特征量的高权值部分(前1/3)组成新类的相应特征量;合并次数可以根据需要设定;若待合并的类从创建时间到当前时刻系统处理过的文本总数未达到下限(例如1000篇,根据类的储存容量设定,一般为1000到3000)则不允许对该类进行合并;
73)如果该文本与类之间的相似度低于该阈值,而且类的数量未达到上限,则以该文本的特征信息为基础建立一个新类;
8)判断已存在的类中的正文特征向量的特征项数量,若该数量大于设定值(例如20000个,根据存储空间设定),则将该类分裂成两个子类,以防止类的无限膨胀;
当类的正文特征向量的特征项数量高于一定数量时,对该类进行分裂,分裂时先去掉类中各特征向量中的一半低权值数据项,然后根据类中各特征向量中剩余数据项的权值分布,用信息熵或者方差来衡量,计算数据项的权值分布的信息熵值δ,设数据项总数为n,当(α取0.7到0.9)时,将该类拆分为两类,分类时将各特征向量的剩余特征项的高权值项归入一类,低权值项归入另一类;
9)对已处理的文本记录和已有的类的信息进行储存,以在下次启动聚类过程时利用这些信息。
每当该方法处理完一定数量的文本(例如1000篇)或者发生异常中断时都会对已处理的文本记录和已有的类的信息做一次储存,主要包括:
91)当前时刻每个类的特征向量(已有的类的信息);
92)已经处理过的网页的哈希表(已处理的文本记录),用于防止同一篇网页的重复处理;该实施例维护一个64M长度的哈希表,每个哈希项占位1bit,共8M byte,对于每一个处理过的网页将其链接地址(URL)映射到该哈希表中;
Claims (1)
1.一种基于流聚类的中文网页文本分类方法,其特征在于,该方法首先定义单个文本结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量以及发表时间组成;文本类结构由文本的标题向量、标签向量、正文向量、作者向量、相关链接向量的加权线性和以及类的权值构成;初始化时文本类数量为0;
该方法包括以下步骤:
1)通过网页爬虫从Internet的新闻站点上实时采集网页;
2)对采集到的网页做预处理,首先判断该网页是否已经处理过,如果是,则丢弃,如果未处理过,则去除该网页格式(html)中的标签,解析出网页中各文本的作者、标题、标签、正文、发表时间、相关链接作为特征信息;
3)根据文本的中文编码标准对该文本进行解码,将文本内容分割成一个个单独的字,然后对标题、标签和正文做ngram分词,形成多个词串;
4)根据TF*IDF公式计算该文本标题、标签和正文中每个词串的权值;
5)根据步骤4)中计算得到的权值提取该文本标题、标签和正文中的高权值词串,并对所述高权值词串进行归一化处理,使该词串的权值和为1,将该高权值词串及其相应权值作为该文本的标题、标签和正文特征向量;
6)将该文本的标题、标签和正文特征向量以及作者和相关链接的特征信息与已有类进行相似度的计算;
7)根据步骤6)中计算得到的总的相似度,将文本归入已有的一类中或以该文本的特征信息为基础建立一个新类;
8)判断已存在的类中的正文特征向量的特征项数量,若该数量大于设定值,则将该类分裂成两个子类,以防止类的无限膨胀;
9)对已处理的文本记录和已有的类的信息进行储存,以在下次启动聚类过程时利用这些信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010034107A CN101727500A (zh) | 2010-01-15 | 2010-01-15 | 一种基于流聚类的中文网页文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010034107A CN101727500A (zh) | 2010-01-15 | 2010-01-15 | 一种基于流聚类的中文网页文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101727500A true CN101727500A (zh) | 2010-06-09 |
Family
ID=42448386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010034107A Pending CN101727500A (zh) | 2010-01-15 | 2010-01-15 | 一种基于流聚类的中文网页文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101727500A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101917456A (zh) * | 2010-07-06 | 2010-12-15 | 杭州热点信息技术有限公司 | 一种内容聚合无线发布系统 |
CN101976259A (zh) * | 2010-11-03 | 2011-02-16 | 百度在线网络技术(北京)有限公司 | 一种推荐系列文档的方法和装置 |
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN102419975A (zh) * | 2010-09-27 | 2012-04-18 | 深圳市腾讯计算机系统有限公司 | 一种基于语音识别的数据挖掘方法和系统 |
CN102567405A (zh) * | 2010-12-31 | 2012-07-11 | 北京安码科技有限公司 | 一种基于改进的文本空间向量表示的热点发现方法 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
CN102929889A (zh) * | 2011-08-11 | 2013-02-13 | 中兴通讯股份有限公司 | 一种完善社区网络的方法和系统 |
CN102982114A (zh) * | 2012-11-09 | 2013-03-20 | 同济大学 | 网页类特征向量的构建方法及其构建器 |
CN102982292A (zh) * | 2012-11-05 | 2013-03-20 | 北京奇虎科技有限公司 | 获取可信文件数字签名的方法和装置及系统 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103593360A (zh) * | 2012-08-16 | 2014-02-19 | 江苏金鸽网络科技有限公司 | 基于页面分析的互联网信息发表时间提取方法 |
CN104102654A (zh) * | 2013-04-08 | 2014-10-15 | 阿里巴巴集团控股有限公司 | 一种词汇聚类的方法及装置 |
CN104504086A (zh) * | 2014-12-25 | 2015-04-08 | 北京国双科技有限公司 | 网页页面的聚类方法和装置 |
CN104794108A (zh) * | 2015-02-13 | 2015-07-22 | 刘秀磊 | 网页标题抽取方法及其装置 |
CN104809252A (zh) * | 2015-05-20 | 2015-07-29 | 成都布林特信息技术有限公司 | 互联网数据提取系统 |
CN104809253A (zh) * | 2015-05-20 | 2015-07-29 | 成都布林特信息技术有限公司 | 互联网数据分析系统 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN104965853A (zh) * | 2015-05-11 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 聚合类应用的推荐、多方推荐源聚合的方法、系统和装置 |
CN105320778A (zh) * | 2015-11-25 | 2016-02-10 | 焦点科技股份有限公司 | 一种适用于电子商务中文网站商品标签化的方法 |
CN105335529A (zh) * | 2015-12-10 | 2016-02-17 | 天津海量信息技术有限公司 | 多类型数据的一致性预处理方法 |
WO2016058267A1 (zh) * | 2014-10-17 | 2016-04-21 | 任子行网络技术股份有限公司 | 一种基于网站主页特征分析的中文网站分类方法和系统 |
CN105630931A (zh) * | 2015-12-22 | 2016-06-01 | 浪潮软件集团有限公司 | 一种文档分类的方法及装置 |
CN106250552A (zh) * | 2011-08-09 | 2016-12-21 | 微软技术许可有限责任公司 | 在搜索引擎结果页面上聚集web页面 |
CN107066623A (zh) * | 2017-05-12 | 2017-08-18 | 湖南中周至尚信息技术有限公司 | 一种文章合并方法及装置 |
CN107544980A (zh) * | 2016-06-24 | 2018-01-05 | 北京国双科技有限公司 | 一种查找网页的方法及装置 |
CN107609062A (zh) * | 2017-08-29 | 2018-01-19 | 口碑(上海)信息技术有限公司 | 应用于终端的信息处理方法及装置 |
CN108255891A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 一种判别网页类型的方法及装置 |
CN110019793A (zh) * | 2017-10-27 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种文本语义编码方法及装置 |
CN110413787A (zh) * | 2019-07-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、终端和存储介质 |
US10747951B2 (en) | 2013-11-26 | 2020-08-18 | Uc Mobile Co., Ltd. | Webpage template generating method and server |
WO2021081837A1 (zh) * | 2019-10-30 | 2021-05-06 | 深圳市欢太科技有限公司 | 模型构建方法、分类方法、装置、存储介质及电子设备 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
-
2010
- 2010-01-15 CN CN201010034107A patent/CN101727500A/zh active Pending
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN101917456A (zh) * | 2010-07-06 | 2010-12-15 | 杭州热点信息技术有限公司 | 一种内容聚合无线发布系统 |
CN101917456B (zh) * | 2010-07-06 | 2012-10-03 | 杭州热点信息技术有限公司 | 一种内容聚合无线发布系统 |
CN102419975A (zh) * | 2010-09-27 | 2012-04-18 | 深圳市腾讯计算机系统有限公司 | 一种基于语音识别的数据挖掘方法和系统 |
CN102419975B (zh) * | 2010-09-27 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 一种基于语音识别的数据挖掘方法和系统 |
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
CN101976259A (zh) * | 2010-11-03 | 2011-02-16 | 百度在线网络技术(北京)有限公司 | 一种推荐系列文档的方法和装置 |
CN102567405A (zh) * | 2010-12-31 | 2012-07-11 | 北京安码科技有限公司 | 一种基于改进的文本空间向量表示的热点发现方法 |
CN106250552B (zh) * | 2011-08-09 | 2020-02-07 | 微软技术许可有限责任公司 | 在搜索引擎结果页面上聚集web页面 |
CN106250552A (zh) * | 2011-08-09 | 2016-12-21 | 微软技术许可有限责任公司 | 在搜索引擎结果页面上聚集web页面 |
CN102929889B (zh) * | 2011-08-11 | 2017-08-25 | 中兴通讯股份有限公司 | 一种完善社区网络的方法和系统 |
CN102929889A (zh) * | 2011-08-11 | 2013-02-13 | 中兴通讯股份有限公司 | 一种完善社区网络的方法和系统 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103309862B (zh) * | 2012-03-07 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
CN103593360A (zh) * | 2012-08-16 | 2014-02-19 | 江苏金鸽网络科技有限公司 | 基于页面分析的互联网信息发表时间提取方法 |
CN102982292A (zh) * | 2012-11-05 | 2013-03-20 | 北京奇虎科技有限公司 | 获取可信文件数字签名的方法和装置及系统 |
CN102982292B (zh) * | 2012-11-05 | 2015-11-25 | 北京奇虎科技有限公司 | 获取可信文件数字签名的方法和装置及系统 |
CN102982114A (zh) * | 2012-11-09 | 2013-03-20 | 同济大学 | 网页类特征向量的构建方法及其构建器 |
CN104102654A (zh) * | 2013-04-08 | 2014-10-15 | 阿里巴巴集团控股有限公司 | 一种词汇聚类的方法及装置 |
US10747951B2 (en) | 2013-11-26 | 2020-08-18 | Uc Mobile Co., Ltd. | Webpage template generating method and server |
WO2016058267A1 (zh) * | 2014-10-17 | 2016-04-21 | 任子行网络技术股份有限公司 | 一种基于网站主页特征分析的中文网站分类方法和系统 |
CN105574047A (zh) * | 2014-10-17 | 2016-05-11 | 任子行网络技术股份有限公司 | 一种基于网站主页特征分析的中文网站分类方法和系统 |
CN104504086B (zh) * | 2014-12-25 | 2017-11-21 | 北京国双科技有限公司 | 网页页面的聚类方法和装置 |
CN104504086A (zh) * | 2014-12-25 | 2015-04-08 | 北京国双科技有限公司 | 网页页面的聚类方法和装置 |
CN104794108A (zh) * | 2015-02-13 | 2015-07-22 | 刘秀磊 | 网页标题抽取方法及其装置 |
CN104965853A (zh) * | 2015-05-11 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 聚合类应用的推荐、多方推荐源聚合的方法、系统和装置 |
CN104809253A (zh) * | 2015-05-20 | 2015-07-29 | 成都布林特信息技术有限公司 | 互联网数据分析系统 |
CN104809252A (zh) * | 2015-05-20 | 2015-07-29 | 成都布林特信息技术有限公司 | 互联网数据提取系统 |
CN104809252B (zh) * | 2015-05-20 | 2018-05-04 | 成都信息工程大学 | 互联网数据提取系统 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN104881458B (zh) * | 2015-05-22 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN105320778A (zh) * | 2015-11-25 | 2016-02-10 | 焦点科技股份有限公司 | 一种适用于电子商务中文网站商品标签化的方法 |
CN105320778B (zh) * | 2015-11-25 | 2019-04-02 | 焦点科技股份有限公司 | 一种适用于电子商务中文网站商品标签化的方法 |
CN105335529A (zh) * | 2015-12-10 | 2016-02-17 | 天津海量信息技术有限公司 | 多类型数据的一致性预处理方法 |
CN105630931A (zh) * | 2015-12-22 | 2016-06-01 | 浪潮软件集团有限公司 | 一种文档分类的方法及装置 |
CN107544980B (zh) * | 2016-06-24 | 2020-07-24 | 北京国双科技有限公司 | 一种查找网页的方法及装置 |
CN107544980A (zh) * | 2016-06-24 | 2018-01-05 | 北京国双科技有限公司 | 一种查找网页的方法及装置 |
CN108255891A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 一种判别网页类型的方法及装置 |
CN108255891B (zh) * | 2016-12-29 | 2020-08-28 | 北京国双科技有限公司 | 一种判别网页类型的方法及装置 |
CN107066623A (zh) * | 2017-05-12 | 2017-08-18 | 湖南中周至尚信息技术有限公司 | 一种文章合并方法及装置 |
CN107609062A (zh) * | 2017-08-29 | 2018-01-19 | 口碑(上海)信息技术有限公司 | 应用于终端的信息处理方法及装置 |
CN107609062B (zh) * | 2017-08-29 | 2020-07-10 | 口碑(上海)信息技术有限公司 | 应用于终端的信息处理方法及装置 |
CN110019793A (zh) * | 2017-10-27 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种文本语义编码方法及装置 |
CN110413787A (zh) * | 2019-07-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、终端和存储介质 |
CN110413787B (zh) * | 2019-07-26 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、终端和存储介质 |
WO2021081837A1 (zh) * | 2019-10-30 | 2021-05-06 | 深圳市欢太科技有限公司 | 模型构建方法、分类方法、装置、存储介质及电子设备 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101727500A (zh) | 一种基于流聚类的中文网页文本分类方法 | |
Wang et al. | Integrating extractive and abstractive models for long text summarization | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN100401300C (zh) | 具有自动分类功能的搜索引擎 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
CN102184262A (zh) | 基于web的文本分类挖掘系统及方法 | |
CN106599041A (zh) | 基于大数据平台的文本处理及检索系统 | |
CN107423282A (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
CN105787121B (zh) | 一种基于多故事线的微博事件摘要提取方法 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN105205163B (zh) | 一种科技新闻的增量学习多层次二分类方法 | |
Rajalakshmi et al. | Web page classification using n-gram based URL features | |
CN116050397B (zh) | 一种长文本摘要生成方法、系统、设备及存储介质 | |
CN113157903A (zh) | 一种面向多领域的电力词库构建方法 | |
CN105279231A (zh) | 一种音乐资源聚合搜索的方法 | |
Kotenko et al. | Evaluation of text classification techniques for inappropriate web content blocking | |
Ao et al. | News keywords extraction algorithm based on TextRank and classified TF-IDF | |
Ghanem et al. | Stemming effectiveness in clustering of Arabic documents | |
Zhang et al. | Learning hash codes for efficient content reuse detection | |
Liu et al. | Internet news headlines classification method based on the n-gram language model | |
CN102103604B (zh) | 检索词核心权重确定方法和装置 | |
Majdabadi et al. | Twitter trend extraction: a graph-based approach for tweet and hashtag ranking, utilizing no-hashtag tweets | |
CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
Zhai et al. | TRIZ technical contradiction extraction method based on patent semantic space mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20100609 |