CN104615714A - 基于文本相似度和微博频道特征的博文排重方法 - Google Patents

基于文本相似度和微博频道特征的博文排重方法 Download PDF

Info

Publication number
CN104615714A
CN104615714A CN201510061278.4A CN201510061278A CN104615714A CN 104615714 A CN104615714 A CN 104615714A CN 201510061278 A CN201510061278 A CN 201510061278A CN 104615714 A CN104615714 A CN 104615714A
Authority
CN
China
Prior art keywords
channel
feature
blog article
microblog
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510061278.4A
Other languages
English (en)
Other versions
CN104615714B (zh
Inventor
尹柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou Cloud Business Network Technology Co ltd
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201510061278.4A priority Critical patent/CN104615714B/zh
Publication of CN104615714A publication Critical patent/CN104615714A/zh
Application granted granted Critical
Publication of CN104615714B publication Critical patent/CN104615714B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本相似度和微博频道特征的博文排重方法,所述方法包括(1)加载词库;(2)根据标识的频道类型,判断博文所属频道;(3)去噪;(4)计算特征向量;(5)分频道计算相似度;(6)重复检测。采用本发明进行微博频道排重,效果良好。扩展同义词特征,提高了相似度,弥补了传统排重对于特征敏感度高,排重力度小的缺点。在一般去噪处理的基础上,针对不同频道的噪声特点,进一步去噪,降低了干扰性。根据不同频道不同特点,采用不同的特征提取方法,提高了特征的准确性和有效度。综合决策相似度计算方法,相对于单一方法,漏排率低。

Description

基于文本相似度和微博频道特征的博文排重方法
技术领域
本发明涉及一种博文排重方法,具体讲涉及一种基于文本相似度和微博频道特征的博文排重方法。
背景技术
在这个互联网的时代,信息量爆发。同时,互联网上重复信息泛滥,也造成了不好的用户使用体验;浪费大量搜索引擎存储资源,用户需要在众多返回结果中进行人工判重和内容筛选以寻找更有价值的信息,浪费了大量的时间和精力。尤其是以140字为特色的微博诞生以来,人们随时随地都可以织围脖,对同一件事情发表言论,出现很多内容相似的博文。微博的转发功能,更是让一条微博,一下就转发出成千上万条一样的博文。因此,海量短文本的去重处理有着重要的实用价值。
典型的文本去重方法采用指纹算法(流程图如图2),先对文本分词,计算文档的TF-IDF,根据TF-IDF排序,提取排序靠前的几个词作为特征词,利用HASH函数或别的规则形成指纹,最后比较每篇文档的指纹,如果指纹相同,就判断这两篇文档重复。另外,还有应用字符串匹配算法,在两篇文档中查找最大匹配字符串,分析匹配字符串完成重复性检测。
微博实时、简短、快捷、互动方便、转发传播迅速,促使微博频道热点高峰时,内容相似博文泛滥。指纹算法见长于长文本排重,面对短小的微博排重,缺点就显而易见。微博简短,特征词少,两篇微博只要稍稍一个特征词不同,便会形成不同的指纹,达不到排重效果。字符串匹配算法,对文本结构、用词规范依赖性高,其一变化都会影响检测效果,而微博最大的特点便是语言个性、非规范化。可见,单一的字符串匹配算法不适合千姿百态的微博。
发明内容
针对现有技术的不足,本发明提出一种频道内微博排重的方法。针对指纹算法和字符串匹配算法的不足,根据不同频道特点,采用不同的特征提取方法,综合决策相似度算法;对于微博的用词网络化,采取扩展同义词特征的策略。
本发明的目的是采用下述技术方案实现的:
一种基于文本相似度和微博频道特征的博文排重方法,其改进之处在于,所述方法包括
(1)加载词库;
(2)根据标识的频道类型,判断博文所属频道;
(3)去噪;
(4)计算特征向量;
(5)分频道计算相似度;
(6)重复检测。
优选的,所述步骤(1)包括
准备同义词库,词库格式包括表示词和编号,编号相同的为同义词,发现新的同义词,按照词库格式添加到词库,将词库加载到hash表中,供查询使用;
准备禁用词词库,格式包括禁用的话题和唯一标识,将词库加载到hash表中,供查询使用。
优选的,所述步骤(2)中频道类型包括热门博文、热门话题、搞笑、神回复、美食、电影、旅游、星座、购物和动漫频道,每个频道都带有唯一的标识;属于热门话题频道,则去禁用词库的hash里查找,找到,则直接排除。
优选的,所述步骤(3)包括不分频道种类,对博文进行去噪,根据该博文所属频道特征去除该频道噪声。
优选的,所述步骤(4)包括对去噪后博文,进行分词,去除停用词,按照主谓宾,提取特征,并查找同义词库,合并特征,统计计算特征向量;和根据不同频道的特点,按照不同的方法提取特征向量。
优选的,所述步骤(5)包括
(5.1)基于热门博文频道,根据主题特征向量计算相似度,记为sim1;
(5.2)电影频道,根据电影名特征N,计算最大匹配度,记为sim2;
(5.3)其它频道,根据频道特征向量计算相似度,记为sim3。
优选的,所述步骤(6)包括
(6.1)sim1>T,则排重,否则根据热门博文特征向量计算相似度sim1`;sim1`>T,则排重。
(6.2)sim2>T,则排重,否则根据电影博文特征向量计算相似度sim2`;sim2`>T,则排重。
(6.3)sim3>T,则排重;
其中,T为阈值。
与现有技术比,本发明的有益效果为:
采用本发明进行微博频道排重,效果良好。这里给出测试数据,如表1。抽取200条博文数据,分别采用本发明(M1)、相似度算法(M2),指纹算法(M3)测试。比较结果,可以明显看出本发明的优势。具体体现在以下几点:
1、扩展同义词特征,提高了相似度,弥补了传统排重对于特征敏感度高,排重力度小的缺点。
2、在一般去噪处理的基础上,针对不同频道的噪声特点,进一步去噪,降低了干扰性。
3、根据不同频道不同特点,采用不同的特征提取方法,提高了特征的准确性和有效度。
4、综合决策相似度计算方法,相对于单一方法,漏排率低。
附图说明
图1为本发明提供的一种基于文本相似度和微博频道特征的博文排重方法流程图。
图2为本发明提供的典型的文本去重方法采用指纹算法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
针对微博的短小、用词网络化、频道各具特色等特征,结合LCS算法和余弦相似度对微博内容排重。对于海量数据,可以利用MapReduce分布式处理的高效性能,提高排重性能,实施步骤如下(如图1):
1、加载词库
准备同义词库,词库格式如下
A##i
B##i
“##”前面的字母表示词,后面的”i”表示编号,若编号相同,表示A和B是同义词。发现新的同义词,按照词库格式添加到词库。将词库加载到hash表中,供查询使用。
准备禁用词词库,格式如下
A id
tab键前的A表示禁用的话题,后面的id表示A的唯一标识。将词库加载到hash表中,供查询使用。
2、根据标识的频道类型,判断博文所属频道。
包括热门博文、热门话题、搞笑、神回复、美食、电影、旅游、星座、购物、动漫等频道,每个频道都带有唯一的标识。若属于热门话题频道,则去禁用词库的hash里查找,若找到,则直接排除,不进行下面步骤。
3、去噪。
首先不分频道种类,对博文进行去噪如url、人名、多空格等。然后再根据该博文所属频道特征去除该频道特有的噪声。如搞笑频道,很多博文都带有话题,干扰了原文分析,这样的“#某话题#”就可以作为噪声去除。
4、计算特征向量
基本方法
对去噪后博文,进行分词,去除停用词,按照主谓宾,提取特征,并查找同义词库,合并特征,再统计计算特征向量;
特殊方法
根据不同频道的特点,按照不同的方法提取特征向量。例如:
热门博文频道
通过分析理解博文信息,按照“【】”、“[]”、“##”提取主题,再采取基本方法,计算出特征向量。
电影频道
重复博文的定义为相同电影名称的博文为重复博文。由此,首先提取电影名称,记为Ni(i∈1,...,n),扩展同部电影名,多个电影名称归一化处理,合并统计特征,最后得出特征向量,记为N
5、分频道计算相似度
(1)、基于热门博文频道,大部分是热点事件、新闻等,根据主题特征向量计算相似度,记为sim1。
(2)、电影频道,根据电影名特征向量N,计算最大匹配度,记为sim2。
(3)、其它频道,根据频道特征向量计算相似度,记为sim3。
6、检测重复
(1)、若sim1>T(T表示阈值,下同),则排重,否则,采用基本方法,计算热门博文特征向量,再通过步骤5,计算相似度sim1`。若sim1`>T,则排重,反之,不排除。
(2)、若sim2>T,则排重,否则,采用基本方法,计算电影博文特征向量,再通过步骤5,计算相似度sim2`。若sim2`>T,则排重,反之,不排除。
(3)、若sim3>T,则排重,反之,不排除。
表1
算法 M1 M2 M3
准确度 0.975 0.825 0.73
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述方法包括
(1)加载词库;
(2)根据标识的频道类型,判断博文所属频道;
(3)去噪;
(4)计算特征向量;
(5)分频道计算相似度;
(6)重复检测。
2.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(1)包括
准备同义词库,词库格式包括表示词和编号,编号相同的为同义词,发现新的同义词,按照词库格式添加到词库,将词库加载到hash表中,供查询使用;
准备禁用词词库,格式包括禁用的话题和唯一标识,将词库加载到hash表中,供查询使用。
3.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(2)中频道类型包括热门博文、热门话题、搞笑、神回复、美食、电影、旅游、星座、购物和动漫频道,每个频道都带有唯一的标识;属于热门话题频道,则去禁用词库的hash里查找,找到,则直接排除。
4.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(3)包括不分频道种类,对博文进行去噪,根据该博文所属频道特征去除该频道噪声。
5.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(4)包括对去噪后博文,进行分词,去除停用词,按照主谓宾,提取特征,并查找同义词库,合并特征,统计计算特征向量;和根据不同频道的特点,按照不同的方法提取特征向量。
6.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(5)包括
(5.1)基于热门博文频道,根据主题特征向量计算相似度,记为sim1;
(5.2)电影频道,根据电影名特征N,计算最大匹配度,记为sim2;
(5.3)其它频道,根据频道特征向量计算相似度,记为sim3。
7.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法,其特征在于,所述步骤(6)包括
(6.1)sim1>T,则排重,否则根据热门博文特征向量计算相似度sim1`;sim1`>T,则排重。
(6.2)sim2>T,则排重,否则根据电影博文特征向量计算相似度sim2`;sim2`>T,则排重。
(6.3)sim3>T,则排重;
其中,T为阈值。
CN201510061278.4A 2015-02-05 2015-02-05 基于文本相似度和微博频道特征的博文排重方法 Expired - Fee Related CN104615714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510061278.4A CN104615714B (zh) 2015-02-05 2015-02-05 基于文本相似度和微博频道特征的博文排重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510061278.4A CN104615714B (zh) 2015-02-05 2015-02-05 基于文本相似度和微博频道特征的博文排重方法

Publications (2)

Publication Number Publication Date
CN104615714A true CN104615714A (zh) 2015-05-13
CN104615714B CN104615714B (zh) 2019-05-24

Family

ID=53150156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510061278.4A Expired - Fee Related CN104615714B (zh) 2015-02-05 2015-02-05 基于文本相似度和微博频道特征的博文排重方法

Country Status (1)

Country Link
CN (1) CN104615714B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法
CN107729338A (zh) * 2016-08-12 2018-02-23 中国电信股份有限公司 数据节点相似度计算方法和装置
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN111918248A (zh) * 2020-07-22 2020-11-10 重庆理工大学 车联网环境下基于d2d的多接入边缘计算任务卸载方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403959A (zh) * 2001-09-07 2003-03-19 联想(北京)有限公司 基于文本内容特征相似度和主题相关程度比较的内容过滤器
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
US7657507B2 (en) * 2007-03-02 2010-02-02 Microsoft Corporation Pseudo-anchor text extraction for vertical search
CN102521402A (zh) * 2011-12-23 2012-06-27 上海电机学院 文本过滤系统及方法
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103559259A (zh) * 2013-11-04 2014-02-05 同济大学 基于云平台的消除近似重复网页方法
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统
CN103646029A (zh) * 2013-11-04 2014-03-19 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN104281610A (zh) * 2013-07-08 2015-01-14 腾讯科技(深圳)有限公司 过滤微博的方法和装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403959A (zh) * 2001-09-07 2003-03-19 联想(北京)有限公司 基于文本内容特征相似度和主题相关程度比较的内容过滤器
US7657507B2 (en) * 2007-03-02 2010-02-02 Microsoft Corporation Pseudo-anchor text extraction for vertical search
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102521402A (zh) * 2011-12-23 2012-06-27 上海电机学院 文本过滤系统及方法
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN104281610A (zh) * 2013-07-08 2015-01-14 腾讯科技(深圳)有限公司 过滤微博的方法和装置
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN103559259A (zh) * 2013-11-04 2014-02-05 同济大学 基于云平台的消除近似重复网页方法
CN103646029A (zh) * 2013-11-04 2014-03-19 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729338A (zh) * 2016-08-12 2018-02-23 中国电信股份有限公司 数据节点相似度计算方法和装置
CN107729338B (zh) * 2016-08-12 2020-09-04 中国电信股份有限公司 数据节点相似度计算方法和装置
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN107977347B (zh) * 2017-12-04 2021-12-21 海南云江科技有限公司 一种题目去重方法和计算设备
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN108647322B (zh) * 2018-05-11 2021-12-17 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN111918248A (zh) * 2020-07-22 2020-11-10 重庆理工大学 车联网环境下基于d2d的多接入边缘计算任务卸载方法

Also Published As

Publication number Publication date
CN104615714B (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
Wen et al. Emotion classification in microblog texts using class sequential rules
US9189746B2 (en) Machine-learning based classification of user accounts based on email addresses and other account information
CN104615714A (zh) 基于文本相似度和微博频道特征的博文排重方法
Sun et al. A comparative evaluation of string similarity metrics for ontology alignment
Wu et al. Co-detecting social spammers and spam messages in microblogging via exploiting social contexts
CN104866478B (zh) 恶意文本的检测识别方法及装置
WO2008043645B1 (en) Establishing document relevance by semantic network density
CN106708947B (zh) 一种基于大数据的网络文章转发识别方法
CN101694670A (zh) 一种基于公共子串的中文Web文档在线聚类方法
CN106372202B (zh) 文本相似度计算方法及装置
Hasan et al. TwitterNews: Real time event detection from the Twitter data stream
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
Man Feature extension for short text categorization using frequent term sets
CN103646029A (zh) 一种针对博文的相似度计算方法
CN105447169A (zh) 文献归一方法、文献搜索方法及对应装置
CN106569989A (zh) 一种用于短文本的去重方法及装置
Huang et al. Hyperpartisan news and articles detection using bert and elmo
Trani et al. SEL: A unified algorithm for salient entity linking
Habib et al. Unsupervised improvement of named entity extraction in short informal context using disambiguation clues
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN111190873A (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN102253983A (zh) 一种汉语高危词识别方法和系统
Pujara et al. Reducing label cost by combining feature labels and crowdsourcing
CN107133317B (zh) 一种通过新词抽取网络舆情主题的方法
Shinde et al. Sentiment analysis using hybrid approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170503

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY Co.,Ltd.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190524

Termination date: 20220205