CN103646029A - 一种针对博文的相似度计算方法 - Google Patents
一种针对博文的相似度计算方法 Download PDFInfo
- Publication number
- CN103646029A CN103646029A CN201310538588.1A CN201310538588A CN103646029A CN 103646029 A CN103646029 A CN 103646029A CN 201310538588 A CN201310538588 A CN 201310538588A CN 103646029 A CN103646029 A CN 103646029A
- Authority
- CN
- China
- Prior art keywords
- word
- fingerprint
- weight
- blog article
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
满足条件 | 核心词语数n | 二级匹配词语数m | 指纹集名称 |
C>10 | 3 | 5 | 大文本指纹集 |
5<C<=10 | 2 | 3 | 中文本指纹集 |
C<=5 | C | 0 | 小文本指纹集 |
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310538588.1A CN103646029B (zh) | 2013-11-04 | 2013-11-04 | 一种针对博文的相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310538588.1A CN103646029B (zh) | 2013-11-04 | 2013-11-04 | 一种针对博文的相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103646029A true CN103646029A (zh) | 2014-03-19 |
CN103646029B CN103646029B (zh) | 2017-03-15 |
Family
ID=50251245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310538588.1A Expired - Fee Related CN103646029B (zh) | 2013-11-04 | 2013-11-04 | 一种针对博文的相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103646029B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079559A (zh) * | 2014-06-05 | 2014-10-01 | 腾讯科技(深圳)有限公司 | 一种网址安全性检测方法、装置及服务器 |
CN104615714A (zh) * | 2015-02-05 | 2015-05-13 | 北京中搜网络技术股份有限公司 | 基于文本相似度和微博频道特征的博文排重方法 |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
CN106569989A (zh) * | 2016-10-20 | 2017-04-19 | 北京智能管家科技有限公司 | 一种用于短文本的去重方法及装置 |
CN108595517A (zh) * | 2018-03-26 | 2018-09-28 | 南京邮电大学 | 一种大规模文档相似性检测方法 |
CN110399464A (zh) * | 2019-07-30 | 2019-11-01 | 广州吉信网络科技开发有限公司 | 一种相似新闻判别方法、系统及电子设备 |
CN111159996A (zh) * | 2019-12-31 | 2020-05-15 | 福建福诺移动通信技术有限公司 | 一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统 |
CN112084776A (zh) * | 2020-09-15 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 相似文章的检测方法、装置、服务器和计算机存储介质 |
CN115098853A (zh) * | 2022-05-26 | 2022-09-23 | 中国人民解放军战略支援部队信息工程大学 | 基于改进simhash的有害网址检测方法、装置与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101977360A (zh) * | 2010-09-30 | 2011-02-16 | 北京新媒传信科技有限公司 | 垃圾短信过滤方法 |
US20110238698A1 (en) * | 2010-03-25 | 2011-09-29 | Rovi Technologies Corporation | Searching text and other types of content by using a frequency domain |
CN102693279A (zh) * | 2012-04-28 | 2012-09-26 | 合一网络技术(北京)有限公司 | 一种快速计算评论相似度的方法、装置及系统 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831198A (zh) * | 2012-08-07 | 2012-12-19 | 人民搜索网络股份公司 | 一种基于文档签名技术的相似文档识别装置及方法 |
CN103020140B (zh) * | 2012-11-21 | 2016-01-20 | 合一网络技术(北京)有限公司 | 一种对互联网用户评论内容自动过滤的方法和装置 |
-
2013
- 2013-11-04 CN CN201310538588.1A patent/CN103646029B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110238698A1 (en) * | 2010-03-25 | 2011-09-29 | Rovi Technologies Corporation | Searching text and other types of content by using a frequency domain |
CN101977360A (zh) * | 2010-09-30 | 2011-02-16 | 北京新媒传信科技有限公司 | 垃圾短信过滤方法 |
CN102693279A (zh) * | 2012-04-28 | 2012-09-26 | 合一网络技术(北京)有限公司 | 一种快速计算评论相似度的方法、装置及系统 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
Non-Patent Citations (1)
Title |
---|
李真等: "基于Hash技术的重复性评论检测", 《计算机应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079559A (zh) * | 2014-06-05 | 2014-10-01 | 腾讯科技(深圳)有限公司 | 一种网址安全性检测方法、装置及服务器 |
CN104079559B (zh) * | 2014-06-05 | 2017-07-25 | 腾讯科技(深圳)有限公司 | 一种网址安全性检测方法、装置及服务器 |
CN104615714B (zh) * | 2015-02-05 | 2019-05-24 | 北京中搜云商网络技术有限公司 | 基于文本相似度和微博频道特征的博文排重方法 |
CN104615714A (zh) * | 2015-02-05 | 2015-05-13 | 北京中搜网络技术股份有限公司 | 基于文本相似度和微博频道特征的博文排重方法 |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
CN106569989A (zh) * | 2016-10-20 | 2017-04-19 | 北京智能管家科技有限公司 | 一种用于短文本的去重方法及装置 |
CN108595517A (zh) * | 2018-03-26 | 2018-09-28 | 南京邮电大学 | 一种大规模文档相似性检测方法 |
CN110399464A (zh) * | 2019-07-30 | 2019-11-01 | 广州吉信网络科技开发有限公司 | 一种相似新闻判别方法、系统及电子设备 |
CN110399464B (zh) * | 2019-07-30 | 2023-04-07 | 广州吉信网络科技开发有限公司 | 一种相似新闻判别方法、系统及电子设备 |
CN111159996A (zh) * | 2019-12-31 | 2020-05-15 | 福建福诺移动通信技术有限公司 | 一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统 |
CN112084776A (zh) * | 2020-09-15 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 相似文章的检测方法、装置、服务器和计算机存储介质 |
CN112084776B (zh) * | 2020-09-15 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 相似文章的检测方法、装置、服务器和计算机存储介质 |
CN115098853A (zh) * | 2022-05-26 | 2022-09-23 | 中国人民解放军战略支援部队信息工程大学 | 基于改进simhash的有害网址检测方法、装置与系统 |
CN115098853B (zh) * | 2022-05-26 | 2024-10-01 | 中国人民解放军战略支援部队信息工程大学 | 基于改进simhash的有害网址检测方法、装置与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103646029B (zh) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103646029A (zh) | 一种针对博文的相似度计算方法 | |
CN105488196B (zh) | 一种基于互联语料的热门话题自动挖掘系统 | |
CN101430695B (zh) | 用于计算单词之间的差相关度的系统和方法 | |
CN101950284B (zh) | 中文分词方法及系统 | |
CN108132929A (zh) | 一种海量非结构化文本的相似性计算方法 | |
CN104615593B (zh) | 微博热点话题自动检测方法及装置 | |
CN106708947B (zh) | 一种基于大数据的网络文章转发识别方法 | |
CN103646080A (zh) | 基于倒序索引的微博去重方法和系统 | |
CN103150382B (zh) | 基于开放知识库的短文本语义概念自动化扩展方法及系统 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN103049568A (zh) | 对海量文档库的文档分类的方法 | |
CN103235774A (zh) | 一种科技项目申请书特征词提取方法 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN103106245A (zh) | 基于大规模术语语料库对译稿自动碎片化分类的方法 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN103294681A (zh) | 一种搜索结果的生成方法和装置 | |
CN103207864A (zh) | 一种网络小说内容近似度比对方法 | |
CN102929902A (zh) | 一种基于中文检索的分词方法及装置 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
Sharaff et al. | Document Summarization by Agglomerative nested clustering approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170503 Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2 Patentee after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY Co.,Ltd. Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902 Patentee before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170315 Termination date: 20211104 |