CN1770159A

CN1770159A - 一种网络内容引用自动发现的方法

Info

Publication number: CN1770159A
Application number: CN200510109600.2A
Authority: CN
Inventors: 杨建武; 陈晓鸥; 吴於茜
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Peking University Founder Research and Development Center
Priority date: 2005-10-28
Filing date: 2005-10-28
Publication date: 2006-05-10
Anticipated expiration: 2025-10-28
Also published as: CN100412866C

Abstract

本发明涉及一种网络内容引用自动发现的方法，属于智能信息处理技术。现有技术中，由于没有自动发现网络内容引用的方法，使得网络内容同质化问题非常严重，没有授权的内容引用转载随处可见。本发明以网络搜索技术与智能分析技术及自然语言理解技术为基础，提出一种自动发现网络内容引用的方法，该方法将引用分析过程分成了两步，引入了预搜索过程，不但极大地加快了自动发现的过程，而且可利用搜索引擎网站提供的检索服务，免除开销巨大的网页抓取与建立内容索引等工作。本发明方法不仅使得自动发现网站内容引用成为可能，而且使得系统所需硬件条件要求低，速度快，对保护网络内容的知识产权具有重要的实用价值。

Description

一种网络内容引用自动发现的方法

技术领域

本发明属于智能信息处理技术，具体涉及的是一种网络内容引用自动发现的方法。

背景技术

目前，互联网上网络内容之间互相引用的问题非常突出，其中大部分都是未取得授权的非法引用或抄袭，这些行为严重侵犯了相关版权人的知识产权。但是，现在还没有一种自动发现网络内容引用的方法，人们不得不采用人工方法。人工发现特定的网站内容被引用的方法主要有如下一些：

1、网站浏览方式。到相关的网站上浏览，查看是否有对这些内容的引用。由于网站数量多、内容丰富、时常更新等，使得这种方式不仅需要花费大量的人力，而且难免遗漏。

2、网络搜索方式。利用网络搜索引擎，通过网络搜索来发现特定网络内容是否被引用。由于搜索引擎只能接受查询词方式的搜索条件，这种方法需要人工进行查询条件的构造，并对检索结果进行人工挑选确认。这种方式需要操作者具有一定的专业知识，特别是构造好的查询条件，否则要么检索结果中无关信息太多，要么待发现的目标被遗漏。由于网络内容异常丰富，据Google数据，2005年8月互联网上网页数量已超过80亿，所以这种方式的计算代价非常大，难以在短时间内完成。假设非常高配置的机器每秒钟能完成1千篇文档的比较判断，将一个指定的网页内容与网上所有内容进行比较的话也将需要90天以上。

3、人工举报方式。通过一些激励手段，鼓励大众发现内容引用时进行举报。除非特殊情况，这种方式使用少。

由于当前没有自动发现网络内容引用的方法，而采用人工发现的方法需要花费大量人力物力，成本太高导致未经授权的网络内容引用转载大量存在，网络内容同质化问题非常严重。没有授权的内容转载如同盗印是应该制止的盗版行为，内容版权人的合法权益应该获得保护。发现网络内容引用转载是实现内容版权保护的基础。

本发明是基于如下两项现有的基本技术：

1、计算机可自动判断两个网站内容(如：网页)是否存在引用关系，这种引用关系包括内容完全相同和内容部分相同等情况；

2、可通过网络爬虫技术获得当前网络中的几乎全部的内容，这是当前的成熟技术，已被网络搜索引擎等系统广泛使用。

发明内容

针对现有技术中存在的缺陷，本发明的目的是提出一种自动发现网络内容引用的方法，该方法能够替代人工进行网络内容的发现。在此方法基础上结合一些界定盗版的原则，可成为实现网络内容的数字版权保护的重要技术手段。

为了实现上述发明目的，本发明采用的技术方案是：一种网络内容引用自动发现方法，包括以下步骤：

1)内容读取：读取指定的待发现是否被引用的网站内容；

2)内容抓取：利用网络爬虫技术将网络中的全部或部分内容抓取过来；

3)引用分析：抓取的网络内容与指定的网络内容进行对比分析，判断是否存在引用关系。

进一步，如存在引用关系，则输出引用指定内容的网络内容列表。

进一步，步骤3中所述的引用分析方法包括将待发现是否被引用的网站内容按段落或按子主题或按句子进行分析，以便检测出部分引用的情况。

步骤3中的分析判断过程分为两步：

(1)先根据待发现是否被引用的网站内容的特征对步骤2中抓取的所有内容进行快速分析，获得一个小的结果集；

(2)在小的结果集上，采用逐个分析判断的方法发现是否存在引用关系。

进一步，步骤3中对抓取的网络内容采用索引技术建立内容索引，以便加快对内容进行第一次分析搜索。索引可以是多种类型的索引，包括：倒排索引、高维索引或其它的索引类型。步骤2中对网络内容抓取及步骤3中对抓取的网络内容建立索引的过程直接利用搜索引擎网站提供的服务替代完成。常用的搜索引擎网站如Google，百度等。

进一步，在步骤2使用搜索引擎网站的服务前对指定的待发现是否被引用的网站内容进行特征分析并形成符合搜索引擎检索条件格式要求的检索条件。

进一步，采用特征词提取技术对待发现是否被引用的网站内容进行特征分析获得特征词及其权重。将这些词组成检索条件项利用内容索引实现快速检索获得小的结果集。

再进一步，使用搜索引擎网站的服务时，使用单个搜索引擎网站的服务，或者是综合多个搜索引擎网站提供的服务。

本发明的效果在于：采用本发明所述的方法，可以通过计算机自动发现网页内容被引用的情况，替代了现有技术中人工检索的手段，从而为网页内容的知识产权保护或相关数据(如被引用的次数等)的统计提供了一种高效的技术手段。

本发明之所以具有上述显著的效果，其原因在于：由于本发明将引用分析过程分成了两步，特别是引入了第一步预搜索过程，不但极大地加快了自动发现的过程，使得自动发现成为可能；进一步可利用Google等搜索引擎网站提供的检索服务，免除开销巨大的网页抓取与建立内容索引等工作，使得网站内容引用自动发现系统的硬件条件要求低，速度快。实验表明，本发明在普通PC机的条件及网络带宽下，针对任何一个网页，10秒以内(通常是2-3秒)就可以自动发现互联网上是否有对该网页内容的引用。

附图说明

图1是本发明所述方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步地描述。

本发明在普通PC上进行实验，CPU为P4 2.0GHz，内存为512MB，Windows2000操作系统。如图1所示，一种网络内容引用自动发现方法，包括以下步骤：

1)内容读取：读取指定的待发现是否被引用的网站内容；

2)特征分析：首先进行分词，采用关键词提取技术根据文档中各词出现的频度、位置、词性、词长度、是否常用词等信息对各词计算权重评分，然后选取权重高的10个词作为特征词；

3)搜索条件：根据搜索引擎网站提供的检索格式要求将内容特征形成搜索条件，本实施例中根据Google的检索格式要求，将特征词按权重由大到小的顺序以空格分开形成一个字符串作为搜索条件；

4)内容检索：将搜索条件通过网络访问方式提交给Google获得检索结果，查询提交的方式既可以是“http”的方式，也可以使用Google提供的WEB服务开发包。本实施例中通过程序模拟人工在表单的查询条件框中填写步骤3所形成的搜索条件并向Google站点发送。

5)引用检测：将检索结果集的每个网页与指定用于发现是否被引用的网站内容比较，检测是否有被引用的情况；本实施例中将返回的网页按条目方式逐条分析并根据各条结果的URL将实际网页抓取来，并分析其内容，并与指定的待发现是否被引用的网站内容进行比较，判断是否存在引用关系，本实施例中以文本段为单位，以文本分析中常用的向量空间模型中的文本向量夹角余弦值来度量两文本段之间的相似度，当两文本段之间的相似度大于0.8时，则认为它们之间可能存在引用关系，并将相似度值看作存在引用关系的可信度。

6)输出结果：根据引用关系的可信度输出引用发现的结果，结束发现过程。

实验表明，本发明在上述实验条件下，针对任何一个网页，10秒以内(通常是2-3秒)就可以自动发现互联网上是否有对该网页内容的引用。

综上，本发明针对现有技术中所存在的问题，以网络搜索技术与智能分析技术及自然语言理解技术为基础，对指定的用于发现是否被引用的网站内容进行智能分析，获得这些内容的特征性的信息，并利用这些信息通过快速搜索技术获得一个相对较小的结果集，该结果集是与指定的网站内容存在相关性的网络内容，最后将指定的网站内容与该结果集的内容进行逐一对比，判断结果集中的内容与指定的网络内容是否存在引用关系。因此，本发明相对于现有技术来说是具有显著的效果的。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种网络内容引用自动发现的方法，包括以下步骤：

1)内容读取：读取指定的待发现是否被引用的网络内容；

2、如权利要求1所述的一种网络内容引用自动发现的方法，其特征在于：如存在引用关系，则输出引用指定内容的网络内容列表。

3.如权利要求1或2所述的一种网络内容引用自动发现的方法，其特征在于：步骤3中所述的引用分析方法包括将待发现是否被引用的网站内容按段落或按子主题或按句子进行分析，以便检测出部分引用的情况。

4.如权利要求3所述的一种网络内容引用自动发现的方法，其特征在于：步骤3中的分析判断过程分为两步：

(2)在小的结果集上，采用逐个比较判断的方法发现是否存在引用关系。

5.如权利要求4所述的一种网络内容引用自动发现的方法，其特征在于：步骤(1)中为实现快速分析先对抓取的网络内容建立索引。

6.如权利要求5所述的一种网络内容引用自动发现的方法，其特征在于：步骤(1)中对抓取的网络内容建立的索引是：倒排索引、高维索引或多重索引。

7.如权利要求1或4所述的一种网络内容引用自动发现的方法，其特征在于：步骤2中对网络内容抓取及步骤3中对抓取的网络内容建立索引的过程直接利用搜索引擎网站提供的服务替代完成。

8.如权利要求7所述的一种网络内容引用自动发现的方法，其特征在于：使用搜索引擎网站的服务前对待发现是否被引用的网站内容进行特征分析并形成符合搜索引擎检索条件格式要求的检索条件。

9.如权利要求8所述的一种网络内容引用自动发现的方法，其特征在于：采用特征词提取技术对待发现是否被引用的网站内容进行特征分析获得特征词及其权重。

10.如权利要求7所述的一种网络内容引用自动发现的方法，其特征在于：使用搜索引擎网站的服务时，使用单个搜索引擎网站的服务，或者是综合多个搜索引擎网站提供的服务。