CN1770159A - 一种网络内容引用自动发现的方法 - Google Patents

一种网络内容引用自动发现的方法 Download PDF

Info

Publication number
CN1770159A
CN1770159A CN200510109600.2A CN200510109600A CN1770159A CN 1770159 A CN1770159 A CN 1770159A CN 200510109600 A CN200510109600 A CN 200510109600A CN 1770159 A CN1770159 A CN 1770159A
Authority
CN
China
Prior art keywords
content
web
web site
automatically finding
quotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200510109600.2A
Other languages
English (en)
Other versions
CN100412866C (zh
Inventor
杨建武
陈晓鸥
吴於茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Peking University Founder Research and Development Center
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CNB2005101096002A priority Critical patent/CN100412866C/zh
Publication of CN1770159A publication Critical patent/CN1770159A/zh
Application granted granted Critical
Publication of CN100412866C publication Critical patent/CN100412866C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种网络内容引用自动发现的方法,属于智能信息处理技术。现有技术中,由于没有自动发现网络内容引用的方法,使得网络内容同质化问题非常严重,没有授权的内容引用转载随处可见。本发明以网络搜索技术与智能分析技术及自然语言理解技术为基础,提出一种自动发现网络内容引用的方法,该方法将引用分析过程分成了两步,引入了预搜索过程,不但极大地加快了自动发现的过程,而且可利用搜索引擎网站提供的检索服务,免除开销巨大的网页抓取与建立内容索引等工作。本发明方法不仅使得自动发现网站内容引用成为可能,而且使得系统所需硬件条件要求低,速度快,对保护网络内容的知识产权具有重要的实用价值。

Description

一种网络内容引用自动发现的方法
技术领域
本发明属于智能信息处理技术,具体涉及的是一种网络内容引用自动发现的方法。
背景技术
目前,互联网上网络内容之间互相引用的问题非常突出,其中大部分都是未取得授权的非法引用或抄袭,这些行为严重侵犯了相关版权人的知识产权。但是,现在还没有一种自动发现网络内容引用的方法,人们不得不采用人工方法。人工发现特定的网站内容被引用的方法主要有如下一些:
1、网站浏览方式。到相关的网站上浏览,查看是否有对这些内容的引用。由于网站数量多、内容丰富、时常更新等,使得这种方式不仅需要花费大量的人力,而且难免遗漏。
2、网络搜索方式。利用网络搜索引擎,通过网络搜索来发现特定网络内容是否被引用。由于搜索引擎只能接受查询词方式的搜索条件,这种方法需要人工进行查询条件的构造,并对检索结果进行人工挑选确认。这种方式需要操作者具有一定的专业知识,特别是构造好的查询条件,否则要么检索结果中无关信息太多,要么待发现的目标被遗漏。由于网络内容异常丰富,据Google数据,2005年8月互联网上网页数量已超过80亿,所以这种方式的计算代价非常大,难以在短时间内完成。假设非常高配置的机器每秒钟能完成1千篇文档的比较判断,将一个指定的网页内容与网上所有内容进行比较的话也将需要90天以上。
3、人工举报方式。通过一些激励手段,鼓励大众发现内容引用时进行举报。除非特殊情况,这种方式使用少。
由于当前没有自动发现网络内容引用的方法,而采用人工发现的方法需要花费大量人力物力,成本太高导致未经授权的网络内容引用转载大量存在,网络内容同质化问题非常严重。没有授权的内容转载如同盗印是应该制止的盗版行为,内容版权人的合法权益应该获得保护。发现网络内容引用转载是实现内容版权保护的基础。
本发明是基于如下两项现有的基本技术:
1、计算机可自动判断两个网站内容(如:网页)是否存在引用关系,这种引用关系包括内容完全相同和内容部分相同等情况;
2、可通过网络爬虫技术获得当前网络中的几乎全部的内容,这是当前的成熟技术,已被网络搜索引擎等系统广泛使用。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提出一种自动发现网络内容引用的方法,该方法能够替代人工进行网络内容的发现。在此方法基础上结合一些界定盗版的原则,可成为实现网络内容的数字版权保护的重要技术手段。
为了实现上述发明目的,本发明采用的技术方案是:一种网络内容引用自动发现方法,包括以下步骤:
1)内容读取:读取指定的待发现是否被引用的网站内容;
2)内容抓取:利用网络爬虫技术将网络中的全部或部分内容抓取过来;
3)引用分析:抓取的网络内容与指定的网络内容进行对比分析,判断是否存在引用关系。
进一步,如存在引用关系,则输出引用指定内容的网络内容列表。
进一步,步骤3中所述的引用分析方法包括将待发现是否被引用的网站内容按段落或按子主题或按句子进行分析,以便检测出部分引用的情况。
步骤3中的分析判断过程分为两步:
(1)先根据待发现是否被引用的网站内容的特征对步骤2中抓取的所有内容进行快速分析,获得一个小的结果集;
(2)在小的结果集上,采用逐个分析判断的方法发现是否存在引用关系。
进一步,步骤3中对抓取的网络内容采用索引技术建立内容索引,以便加快对内容进行第一次分析搜索。索引可以是多种类型的索引,包括:倒排索引、高维索引或其它的索引类型。步骤2中对网络内容抓取及步骤3中对抓取的网络内容建立索引的过程直接利用搜索引擎网站提供的服务替代完成。常用的搜索引擎网站如Google,百度等。
进一步,在步骤2使用搜索引擎网站的服务前对指定的待发现是否被引用的网站内容进行特征分析并形成符合搜索引擎检索条件格式要求的检索条件。
进一步,采用特征词提取技术对待发现是否被引用的网站内容进行特征分析获得特征词及其权重。将这些词组成检索条件项利用内容索引实现快速检索获得小的结果集。
再进一步,使用搜索引擎网站的服务时,使用单个搜索引擎网站的服务,或者是综合多个搜索引擎网站提供的服务。
本发明的效果在于:采用本发明所述的方法,可以通过计算机自动发现网页内容被引用的情况,替代了现有技术中人工检索的手段,从而为网页内容的知识产权保护或相关数据(如被引用的次数等)的统计提供了一种高效的技术手段。
本发明之所以具有上述显著的效果,其原因在于:由于本发明将引用分析过程分成了两步,特别是引入了第一步预搜索过程,不但极大地加快了自动发现的过程,使得自动发现成为可能;进一步可利用Google等搜索引擎网站提供的检索服务,免除开销巨大的网页抓取与建立内容索引等工作,使得网站内容引用自动发现系统的硬件条件要求低,速度快。实验表明,本发明在普通PC机的条件及网络带宽下,针对任何一个网页,10秒以内(通常是2-3秒)就可以自动发现互联网上是否有对该网页内容的引用。
附图说明
图1是本发明所述方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步地描述。
本发明在普通PC上进行实验,CPU为P4 2.0GHz,内存为512MB,Windows2000操作系统。如图1所示,一种网络内容引用自动发现方法,包括以下步骤:
1)内容读取:读取指定的待发现是否被引用的网站内容;
2)特征分析:首先进行分词,采用关键词提取技术根据文档中各词出现的频度、位置、词性、词长度、是否常用词等信息对各词计算权重评分,然后选取权重高的10个词作为特征词;
3)搜索条件:根据搜索引擎网站提供的检索格式要求将内容特征形成搜索条件,本实施例中根据Google的检索格式要求,将特征词按权重由大到小的顺序以空格分开形成一个字符串作为搜索条件;
4)内容检索:将搜索条件通过网络访问方式提交给Google获得检索结果,查询提交的方式既可以是“http”的方式,也可以使用Google提供的WEB服务开发包。本实施例中通过程序模拟人工在表单的查询条件框中填写步骤3所形成的搜索条件并向Google站点发送。
5)引用检测:将检索结果集的每个网页与指定用于发现是否被引用的网站内容比较,检测是否有被引用的情况;本实施例中将返回的网页按条目方式逐条分析并根据各条结果的URL将实际网页抓取来,并分析其内容,并与指定的待发现是否被引用的网站内容进行比较,判断是否存在引用关系,本实施例中以文本段为单位,以文本分析中常用的向量空间模型中的文本向量夹角余弦值来度量两文本段之间的相似度,当两文本段之间的相似度大于0.8时,则认为它们之间可能存在引用关系,并将相似度值看作存在引用关系的可信度。
6)输出结果:根据引用关系的可信度输出引用发现的结果,结束发现过程。
实验表明,本发明在上述实验条件下,针对任何一个网页,10秒以内(通常是2-3秒)就可以自动发现互联网上是否有对该网页内容的引用。
综上,本发明针对现有技术中所存在的问题,以网络搜索技术与智能分析技术及自然语言理解技术为基础,对指定的用于发现是否被引用的网站内容进行智能分析,获得这些内容的特征性的信息,并利用这些信息通过快速搜索技术获得一个相对较小的结果集,该结果集是与指定的网站内容存在相关性的网络内容,最后将指定的网站内容与该结果集的内容进行逐一对比,判断结果集中的内容与指定的网络内容是否存在引用关系。因此,本发明相对于现有技术来说是具有显著的效果的。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (10)

1.一种网络内容引用自动发现的方法,包括以下步骤:
1)内容读取:读取指定的待发现是否被引用的网络内容;
2)内容抓取:利用网络爬虫技术将网络中的全部或部分内容抓取过来;
3)引用分析:抓取的网络内容与指定的网络内容进行对比分析,判断是否存在引用关系。
2、如权利要求1所述的一种网络内容引用自动发现的方法,其特征在于:如存在引用关系,则输出引用指定内容的网络内容列表。
3.如权利要求1或2所述的一种网络内容引用自动发现的方法,其特征在于:步骤3中所述的引用分析方法包括将待发现是否被引用的网站内容按段落或按子主题或按句子进行分析,以便检测出部分引用的情况。
4.如权利要求3所述的一种网络内容引用自动发现的方法,其特征在于:步骤3中的分析判断过程分为两步:
(1)先根据待发现是否被引用的网站内容的特征对步骤2中抓取的所有内容进行快速分析,获得一个小的结果集;
(2)在小的结果集上,采用逐个比较判断的方法发现是否存在引用关系。
5.如权利要求4所述的一种网络内容引用自动发现的方法,其特征在于:步骤(1)中为实现快速分析先对抓取的网络内容建立索引。
6.如权利要求5所述的一种网络内容引用自动发现的方法,其特征在于:步骤(1)中对抓取的网络内容建立的索引是:倒排索引、高维索引或多重索引。
7.如权利要求1或4所述的一种网络内容引用自动发现的方法,其特征在于:步骤2中对网络内容抓取及步骤3中对抓取的网络内容建立索引的过程直接利用搜索引擎网站提供的服务替代完成。
8.如权利要求7所述的一种网络内容引用自动发现的方法,其特征在于:使用搜索引擎网站的服务前对待发现是否被引用的网站内容进行特征分析并形成符合搜索引擎检索条件格式要求的检索条件。
9.如权利要求8所述的一种网络内容引用自动发现的方法,其特征在于:采用特征词提取技术对待发现是否被引用的网站内容进行特征分析获得特征词及其权重。
10.如权利要求7所述的一种网络内容引用自动发现的方法,其特征在于:使用搜索引擎网站的服务时,使用单个搜索引擎网站的服务,或者是综合多个搜索引擎网站提供的服务。
CNB2005101096002A 2005-10-28 2005-10-28 一种网络内容引用自动发现的方法 Expired - Fee Related CN100412866C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005101096002A CN100412866C (zh) 2005-10-28 2005-10-28 一种网络内容引用自动发现的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101096002A CN100412866C (zh) 2005-10-28 2005-10-28 一种网络内容引用自动发现的方法

Publications (2)

Publication Number Publication Date
CN1770159A true CN1770159A (zh) 2006-05-10
CN100412866C CN100412866C (zh) 2008-08-20

Family

ID=36751460

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101096002A Expired - Fee Related CN100412866C (zh) 2005-10-28 2005-10-28 一种网络内容引用自动发现的方法

Country Status (1)

Country Link
CN (1) CN100412866C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008098502A1 (fr) * 2007-02-06 2008-08-21 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif destinés à créer un index et procédé et système de récupération
CN1845134B (zh) * 2006-05-16 2010-05-12 武汉大学 基于计算机网络的防转载或/和反剽窃监控方法
CN101231641B (zh) * 2007-01-22 2010-05-19 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
CN101187925B (zh) * 2006-11-17 2010-11-03 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN101980529A (zh) * 2010-09-21 2011-02-23 天栢宽带网络科技(上海)有限公司 支持三网融合的视频服务系统
CN102216945A (zh) * 2008-08-21 2011-10-12 杜比实验室特许公司 通过媒体指纹进行联网
CN101355587B (zh) * 2008-09-17 2012-05-23 杭州华三通信技术有限公司 Url信息获取方法和装置及搜索引擎实现方法及系统
CN103281213A (zh) * 2013-04-18 2013-09-04 西安交通大学 一种网络流量内容提取和分析检索方法
CN103716690A (zh) * 2013-12-27 2014-04-09 广州华多网络科技有限公司 多媒体直播举报的方法、终端、服务器及系统
CN104133868A (zh) * 2014-07-21 2014-11-05 厦门大学 一种用于垂直爬虫数据分类整合的策略
CN108829659A (zh) * 2018-05-04 2018-11-16 北京中科闻歌科技股份有限公司 一种引用识别方法、设备和计算机可存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845134B (zh) * 2006-05-16 2010-05-12 武汉大学 基于计算机网络的防转载或/和反剽窃监控方法
CN101187925B (zh) * 2006-11-17 2010-11-03 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN101231641B (zh) * 2007-01-22 2010-05-19 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
WO2008098502A1 (fr) * 2007-02-06 2008-08-21 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif destinés à créer un index et procédé et système de récupération
US9684907B2 (en) 2008-08-21 2017-06-20 Dolby Laboratories Licensing Corporation Networking with media fingerprints
CN102216945A (zh) * 2008-08-21 2011-10-12 杜比实验室特许公司 通过媒体指纹进行联网
CN102216945B (zh) * 2008-08-21 2013-04-17 杜比实验室特许公司 通过媒体指纹进行联网
CN101355587B (zh) * 2008-09-17 2012-05-23 杭州华三通信技术有限公司 Url信息获取方法和装置及搜索引擎实现方法及系统
CN101980529A (zh) * 2010-09-21 2011-02-23 天栢宽带网络科技(上海)有限公司 支持三网融合的视频服务系统
CN103281213B (zh) * 2013-04-18 2016-04-06 西安交通大学 一种网络流量内容提取和分析检索方法
CN103281213A (zh) * 2013-04-18 2013-09-04 西安交通大学 一种网络流量内容提取和分析检索方法
CN103716690A (zh) * 2013-12-27 2014-04-09 广州华多网络科技有限公司 多媒体直播举报的方法、终端、服务器及系统
CN104133868A (zh) * 2014-07-21 2014-11-05 厦门大学 一种用于垂直爬虫数据分类整合的策略
CN104133868B (zh) * 2014-07-21 2018-01-05 厦门大学 一种用于垂直爬虫数据分类整合的策略
CN108829659A (zh) * 2018-05-04 2018-11-16 北京中科闻歌科技股份有限公司 一种引用识别方法、设备和计算机可存储介质
CN108829659B (zh) * 2018-05-04 2021-02-09 北京中科闻歌科技股份有限公司 一种引用识别方法、设备和计算机可存储介质

Also Published As

Publication number Publication date
CN100412866C (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
CN1770159A (zh) 一种网络内容引用自动发现的方法
US8015162B2 (en) Detecting duplicate and near-duplicate files
CN107977575B (zh) 一种基于私有云平台的代码组成分析系统和方法
US8458207B2 (en) Using anchor text to provide context
US6615209B1 (en) Detecting query-specific duplicate documents
US6959326B1 (en) Method, system, and program for gathering indexable metadata on content at a data repository
WO2020164276A1 (zh) 网页数据爬取方法、装置、系统及计算机可读存储介质
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
US20060294052A1 (en) Unsupervised, automated web host dynamicity detection, dead link detection and prerequisite page discovery for search indexed web pages
US20090070366A1 (en) Method and system for web document clustering
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US20040193636A1 (en) Method for identifying related pages in a hyperlinked database
KR20060048778A (ko) 정보 검색 시스템에서의 문구 기반 서치
KR20060048779A (ko) 정보 검색 시스템에서의 문구 식별
CN1728134A (zh) 基于超文本的多语言网络信息搜索方法和系统
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
US8001462B1 (en) Updating search engine document index based on calculated age of changed portions in a document
EP1677215B1 (en) Methods and apparatus for the evalution of aspects of a web page
Wills et al. Studying the impact of more complete server information on web caching
US8521746B1 (en) Detection of bounce pad sites
Jadidoleslamy Search result merging and ranking strategies in meta-search engines: a survey
Peshave et al. How search engines work: And a web crawler application
CN110245275B (zh) 一种大规模相似新闻标题快速归一化方法
CN1677389A (zh) 一种基于关键字搜索的移动互联网智能信息搜索引擎
Qinghua Application of WebCrawler in Information Search and Data Mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220913

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: PEKING University FOUNDER R & D CENTER

Patentee after: Peking University

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PEKING University FOUNDER R & D CENTER

Patentee before: Peking University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080820