CN1845134B - 基于计算机网络的防转载或/和反剽窃监控方法 - Google Patents

基于计算机网络的防转载或/和反剽窃监控方法 Download PDF

Info

Publication number
CN1845134B
CN1845134B CN200610019074A CN200610019074A CN1845134B CN 1845134 B CN1845134 B CN 1845134B CN 200610019074 A CN200610019074 A CN 200610019074A CN 200610019074 A CN200610019074 A CN 200610019074A CN 1845134 B CN1845134 B CN 1845134B
Authority
CN
China
Prior art keywords
document
user
data
server
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200610019074A
Other languages
English (en)
Other versions
CN1845134A (zh
Inventor
沈阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN200610019074A priority Critical patent/CN1845134B/zh
Publication of CN1845134A publication Critical patent/CN1845134A/zh
Application granted granted Critical
Publication of CN1845134B publication Critical patent/CN1845134B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及基于计算机网络的防转载或/和反剽窃监控方法,其方法步骤包括:(1)在服务器上建立数据库的步骤;(2)在服务器上建立一个用于储存被监控文档的文档数据的存储空间的步骤;(3)在服务器上建立用于供用户输入包括文档条件的交互窗口的步骤;(4)根据用户输入的文档条件建立文档数据并存储的步骤;(5)将文档数据与数据库中的数据进行比较的步骤;(6)服务器将比较结果数据提交给用户的步骤。本发明方法只需用户提交文档条件而不是文档本身,极大的减少了客户机到服务器的网络传输量,适合于对大量文档进行防转载或/和反剽窃的监控。

Description

基于计算机网络的防转载或/和反剽窃监控方法
技术领域
本发明涉及计算机互联网络领域,具体涉及计算机互联网络上的知识产权保护、惩治学术腐败的方法。
背景技术
近年来,学术界抄袭剽窃、学术腐败问题已经成为学术界共同面临的严重问题,由于没有很好的基于计算机网络的反剽窃监控方法,抄袭剽窃、学术腐败已经是摆在学术界面前的一个重大课题。
另一方面,目前互联网上的转载风气盛行,由于没有很好的基于计算机网络的防转载监控方法,很多网站和个人不知道自己的撰写的文档等被他人转载,使得作者的权利受到侵害。例如博克(Blog)上的文章或者帖子随便被他人转载,作者不能得到应得的报酬,有的转载甚至连作者姓名也不标注。
国外网站www.turnitin.com提供反剽窃服务,该反剽窃服务采用了一种基于计算机网络的反剽窃监控方法,方法的具体步骤为:
(1)在互联网服务器上建立数据库(文献库)的步骤;
(2)在互联网服务器上建立一个供用户储存数据的存储器空间的步骤;该步骤在互联网服务器上建立一个文档交互窗口,用户可通过互联网上的客户机在交互窗口上提交上传文档(被监控文档),用户提交的文档储存在存储器空间内。
(3)将存储器空间内的数据与数据库中的数据进行比较的步骤;
(4)服务器将比较结果数据提交给用户的步骤。
上述基于计算机网络的反剽窃监控方法,可将被监控的文档与服务器数据库(文献库)中的文档进行对比,并将对比后的结果报告给用户,可有效防止抄袭剽窃。
但上述基于计算机网络的反剽窃监控方法也存在一些缺陷:1、这种模式只适合监控少量文件,不能一次大规模的查看转载和剽窃情况;2、用户须一篇一篇地提交文档,如果文档较大或文档较多,则进行传输的时间要耗费较长时间,也会大量占用网络资源。因此,该方法只能作为反剽窃监控方法使用,不能作为防转载的监控方法使用。
发明内容
本发明所要解决的技术问题是:提供一种基于计算机网络的防转载或/和反剽窃监控方法。
本发明解决上述技术问题所采用的技术方案是:
基于计算机网络的防转载或/和反剽窃监控方法,其特征在于:其方法步骤包括:
(1)在服务器上建立数据库的步骤;
(2)在服务器上建立一个用于储存被监控文档的文档数据的存储空间的步骤;
(3)在服务器上建立用于供用户输入文档条件的交互窗口的步骤;文档条件为文档来源;
(4)根据用户输入的文档条件建立文档数据并存储的步骤;文档数据为符合文档条件而建立的文档数据列表结构,它包括编号、文件来源地址、关键词内容;
(5)将文档数据中的关键词内容与数据库中的数据进行比较的步骤;
(6)服务器将比较结果数据提交给用户的步骤。
上述方案中,步骤(5)包括判断文档数据列表中的关键词内容是否已全部完成对比的步骤,该步骤对以下动作进行选择:
已全部完成对比的,步骤(5)后进行步骤(6);
或,
未全部完成对比的,循环步骤(5)。
上述方案中,文档数据列表还包括文档数据列表建立的时间;
步骤(6)后还包括:
(7)更新数据库并记录文档入库时间的步骤;
(8)根据用户输入的文档条件和文档入库时间大于上次文档数据列表建立的时间更新文档数据并存储的步骤;
(9)将更新文档数据与更新数据库中的数据进行比较的步骤;
(10)服务器将比较结果数据提交给用户的步骤。
上述方案中,比较结果包括:相似度高于设定阀值的文档来源。
上述方案中,数据库包括文献编号、文献索引库、文献关键词句库。
上述方案中,步骤(4)包括依据文档条件判断数据库中是否具有被监控文档的步骤,该步骤对以下动作进行选择:
数据库中具有被监控文档,将被监控文档编号储存在用于储存被监控文档数据的存储空间内;
或,
数据库中没有被监控文档,从用户输入的文档来源处提取监控文档数据,并将监控文档来源储存在用于储存被监控文档数据的存储空间内。
上述方案中,不能从用户输入的文档来源处提取监控文档数据的,服务器将未找到文献通知提交给用户,结束。
与现有技术相比,本发明方法具有以下优点:
1、只需用户提交文档条件而不是文档本身,极大的减少了客户机到服务器的网络传输量,又由于服务器到服务器的带宽一般高于客户机到服务器的带宽,也有可能服务器上本来就有用户要提交的文档,这样的方案从整体上降低了该系统的互联网流量,提升了处理速度。
2、适合于对大量文档进行防转载或/和反剽窃的监控,例如:可对www.whu.edu.cn或者http://blog.sina.com.cn/u/1192387515下的所有网页进行转载监控,而不需要一篇一篇文档进行提交。例如:使用现有技术对一般的中型网站上的所用文档进行监控,可能需要提交几万次,几乎不可能完成这样任务。而本发明方法通过给定文档来源范围,可对大量文档进行防转载或/和反剽窃的监控,极大的降低了用户操作时间和网络流量。
3、现有的反剽窃系统,只能是一次性静态跟踪文档的相似度,使用本发明可以持续的跟踪文档的转载和剽窃情况,有利于用户持续保护自己权益。
4、适合对多个监控目标的同时监控,例如可同时监控两个网站的被剽窃情况:www.whu.edu.cn和www.cc.whu.edu.cn
5、使用本方法,可以极大的加快更新文献库后的文档比较速度。
附图说明
图1为本发明方法实施例的步骤流程图
图2为本发明方法实施例后续的监控步骤流程图
图3为本发明方法基于的硬件的结构框图
具体实施方式
如图1、3所示,本发明基于计算机网络的防转载或/和反剽窃监控方法实施例,其方法步骤包括:
(1)在服务器上建立数据库(文献库)的步骤;
数据库包括文献编号、文献索引库、文献关键词句库。
该步骤是前期需要进行的基本数据准备,数据库(文献库)的数据来源主要有纸质文档、已经数字化的期刊、报纸、会议、学位论文、专利、其他文献数据库、外文数据库、www中的网页等。
对于纸质文档可通过数字扫描系统将文献扫入文献服务器上,应用图文识别模块将文献从图片状态转化为可识别的格式和非格式字符状态。对于外文文献调用翻译软件翻译之后,导入到文献库。利用搜索引擎将www的网页构建出文献库(网页内容全文及基本属性数据库、网页关键词数据库、网页关键词索引库)。对上述文献调进行文献归类。从目前较为成熟的分类词表、主题词表、关键词句表导入或手工输入获得关键词句表。
完成基本数据准备后,系统进入关键词句提取和关键词句加权,匹配和聚类阶段。
对于关键词句提取,可以采用目前较为成熟的各种数据挖掘和字符串匹配技术,也可以在此定义一个算法接口,只要符合该接口规范即可进行关键词句提取和加权,进行匹配和聚类,将每个文献的关键词句提取出来,将相关文献依据关键词句进行适当归类。
建立的文献库包括文献全文及基本属性库、文献关键词句库、文献索引库。在系统实施时,可以让每个数据库对应一台服务器。当然,如果IO数据量小的情况下,也可以让所有数据库都运转在一台服务器上甚至整合为一个数据库中的不同数据表;当数据量极为庞大时,每个子数据库都可以使用多台服务器并行处理。
举例说明如下:搜索引擎从www中抓取网站内容。将这些网页进行关键词句解析。同时在每个网页属性表中都有网页的来源说明。例如抓取到的kkk.html的网页地址是www.whu.edu.cn/aaa/kkk.html。搜索引擎建立的文献库至少包括网页基本属性库、网页的关键词库(经全文解析关键词提取出来的库)、网页关键词索引库。
(2)在服务器上建立一个用于储存被监控文档的文档数据的存储空间的步骤;
(3)在服务器上建立用于供用户输入包括文档条件的交互窗口的步骤;
文档条件包括文档来源。
如表1所示,文档条件可为:网络地址和数据库文档链接和文档发表来源和文档作者单位。通过文档来源可直接获得所需监控的文档本身。
表1:
  输入情况   例子
  文档网址   http://read.hjsm.tom.com/book/18817/html/1008.html   一个网页网址
  数据库链接   http://www.xxx.com/search/search.php?cardname=%C4   一个包含在数据库中的网页地址
  发表来源   武汉大学学报理学版1998年第七期   武汉大学学报理学版1998年第七期发表的论文
  期刊号   CN36-1249/G2   该刊号下的所有论文
  域名和域名下的目录   www.whu.edu.cn或者www.whu.edu.cn/xdjm   该域名和域名下的目录的所有网页内容
  单位名称   新华社   新华社所发文档
文档条件可以使用键盘输入、鼠标输入、语音输入等各类能够输入信息的交互手段。在非字符输入时,系统增加将用户输入转化为字符输入的模块,将用户输入的其他媒体转化为字符类型的文档来源。
系统提供一个可设定需要监控的范围的交互接口。例如设定www.ts123333.edu.cn,则系统后面只监控www.tsts123333.edu.cn与www.whu.edu.cn相似度高于阀值的文章。
系统提供一个用户可设定预设接收报告或者报告通知的存储空间的交互接口。这个存储空间可以是电子邮箱,即时通讯号、论坛、Blog、贴吧、手机短信、电话录音、网络数据库、交互窗口等。用户使用该接口可以设定报告或者报告通知发送至何处,以便用户可以即时获得报告信息。例如用户设定为某个邮箱接收报告通知或者报告本身。系统根据用户设定,定期或者不定期发送剽窃报告本身或者报告通知给用户。
系统提供一个用户设定多少时间接收一次搜索引擎或者文献给自己发送的剽窃和转载监控的报告的交互接口。例如可以是一天、或者一周、或者一月等时间单位。
系统提供一个用户设定需要排除的某些监控情况的交互接口,例如党的路线、方针、政策、法律、以及无版权要求的某些情况;以及系统返回的该文档来源下所有文档的选择交互接口,以便用户在搜索引擎将该文档来源下所有文档在原始数据库中返回时,用户可调用系统功能对要监控的文档进行主观排除。
用户提交信息来源后,系统可将用户一次或多次设定的监控文档来源显示于一个列表,用户在该确认界面也可取消要监控反剽窃的文档来源。当用户提交完要监控文档来源,系统依据用户提交数据形成一个要监控文档的文档来源数据结构。例如用户可提交两个要监控的文档来源:www.whu.edu.cn和www.cc.whu.edu.cn。该数据结构可包含多个文档来源。
举例说明如下:系统构建交互窗口,用户提交要监控的网站www.whu.edu.cn和www.whu123.edu.cn。
(4)根据用户输入的文档条件建立文档数据并存储的步骤;
该步骤中包括依据文档条件判断数据库中是否具有被监控文档的步骤,该步骤对以下动作进行选择:
数据库中具有被监控文档,将被监控文档编号储存在用于储存被监控文档数据的存储空间内;
或,
数据库中没有被监控文档,从用户输入的文档来源处提取监控文档数据,并将监控文档来源储存在用于储存被监控文档数据的存储空间内。
如果不能从用户输入的文档来源处提取监控文档数据的,服务器将未找到文献通知提交给用户,结束下面的步骤。
文档数据为符合文档条件而建立的文档数据列表结构,它包括编号、文件来源地址、关键词内容、文档数据列表建立的时间等。
服务器在获得用户提交的文档条件后,先从文档来源数据结构中依照某种顺序取出文档来源,在系统的文献数据库中进行查找。如果找到文档来源所指向的文档,则将给定文档来源所指向文档的属性叙述情况及关键词表存储至要监控文档数据结构中,例如文档的ID号、文档的网络地址、文档的标题、文档的发表来源、文档的入库时间、文档的简要关键词、文档的TAG、文档摘要等信息。同时系统建立一个文献列表数据结构,系统记录建立本次监控文档列表时间至该文献列表数据结构,在列表中,系统依据某种排列规则,依次将包含在该信息来源下的标题、建立用户、建表时间等显示出来。系统提供一个交互接口以便用户可对要显示的内容进行定制。
在找到全部文档来源所指向的文档及相关属性描述后,可根据用户设定依据所有文档的篇数、所有文档关键词数量计算出初步估计的比较转载和剽窃文献所需时间。并依据用户设定决定是否返回该信息给用户。系统提供一个交互接口以便用户可定制是否显示估计时间。
服务器后可在运行过程中初步估计出监控时间,可将初步估计监控时间从服务器发送至客户机提供给用户,以便用户参考,不用在交互窗口和本系统中作无谓的等待。例如可以通知用户大约需要1天时间才能将www.whu.edu.cn中的全部文档在互联网中匹配完成。
如果系统根据文档条件没有找到相关文档或者用户希望系统能监控最新的要监控的文档列表,用户可设定系统直接调用Spider到文档来源所指网络位置进行文档提取、关键词解析,将更新后的文档列表返回至客户机,经用户确认后进入下一步骤。如果直接调用Spider依据文档来源仍未找到相关文档或者用户不使用即时监控功能则返回一个通知至用户预设空间或者交互界面,告知用户未能在现有文献库中找到文献,重新确认提交的文档来源是否正确或者直接提交文档本身。如果用户提交文档本身,利用现有分词技术,对文档进行关键词解析。将解析后的文档以及文档关键词等属性存入到依据文档来源获得的文档的基本属性表和各文档对应的关键词表中。
一旦用户给出需要监控的文档来源参数,例如设定要监控自己的www.whu.edu.cn网站,服务器可根据用户设定将排除死链接后的www.whu.edu.cn所包含的所有文档来源、文档地址、文档数量显示于客户机,客户可以全选也可部分选择需要监控的文档或者文档来源.将相关监控信息确认后提交到服务器,本显示步骤也可以依据用户设定省略.系统可再次将用户多次设定的监控文档来源显示于一个列表,用户在该确认界面也可再次取消要监控反剽窃的文档来源.
举例说明如下:系统获得用户要监控的文档来源列表,该列表包含www.whu.edu.cn和www.whu123.edu.cn,系统在文献库中查找,找到这两个网站包含的所有文档。假定www.whu.edu.cn包含20000个网页,www.whu123.edu.cn包含10000个网页。获得这些网页在搜索引擎文献库中的检索ID号、网络地址、网页的入库时间等参数写入要监控文档数据结构中。将这两个文档来源列表建立时间写入一个文档来源列表基本属性数据结构中(如表2、3)。
表2:
  要监控来源   要监控文档   文档ID   文档入库时间
  www.whu.edu.cn   /aaa/index.html   1234567111   2005.12.02
  /bbb/aaa.html   1234567112   2005.12.05
  /ccc/zzz,html   1234567113   2005.12.06
  www.whu123.edu.cn   /zzz/index.html   1234567114   2005.12.06
  /ccc/aaa.html   1234567115   2005.12.06
  /ccc/zzz.html   1234567116   2005.12.07
表3:
  文档来源列表   用户名   更新时间
  www.whu123.edu.cn   123   2005.12.20.12:30:34
  www.whu.edu.cn   123   2005.12.20.12:30:34
(5)将文档数据与数据库中的数据进行比较的步骤;
依据文档来源获得文档的基本属性,从文献库中依据文档ID号获得各文档的关键词句表.此时可利用目前现有的各种关键词比对算法对原始文献数据库中的各文档关键词表进行比对.将相似度高于某一阀值的文章或者网页相关的基本属性提取出来.形成比较结果数据结构.这个比较结果数据结构至少包括与目标文档相似的原始文献数据库中提取出来的文档列表,每个有转载和剽窃嫌疑的文档的转载和剽窃起始和终止位置的标识,即有转载和剽窃嫌疑的相似章节的位置信息.该比较结果数据结构进一步包括相似文档或者剽窃文档的发表来源、作者名称、所属单位、联系方式,例如剽窃文章是zz大学信息中心,zzz是作者,联系方式包括手机、电话、电子邮件之类的在文档中包含的联系方式.如果是相似或者剽窃网页,则显示为该网页作者是zzz,发表网址www.sinnnnnnnn.com.cn.如果系统不能解析识别出这些文献归属信息,可空置或高亮这些信息,以便用户手工处理这些信息.系统在每次比较后,应记录比较时间至比较结果数据结构.
本步骤需要用专有的全文比较软件或自己实现的软件模块。当前,一般的搜索引擎和文献检索库都有相应的软件模块。该模块利用字符串比对技术和人工智能技术,对连续的大段中文电子文档进行关键词句比较,得出对比文档的相似度。
因为需要比较的文档数量极大,所以系统可以设定为晚上的某个时间段进行比较,或者和公众网使用的服务器分离开,使用不同的比较服务器和数据库服务器,避免影响系统面向散户的搜索请求。系统只需定期同步数据即可。
举例说明如下:系统取得文档的ID号,依据该号可以将系统中的各文档对应关键词句表取出,对各关键词句表对比,即可获得关键词句相似度高于某一阀值的文档显示出来。对于用户提交的www.whu.edu.cn和www.whu123.edu.cn系统对比出以下文档和www.whu.edu.cn和www.whu123.edu.cn的文档相似度高于80。系统得到表4。
表4:
  要监控来源   要监控文档   文档ID   相似文档编号   相似度
  www.whu.edu.cn   /aaa/index.html   1234567111   123234234/234243/435345/345345/3453453/3453453/   90
  90   /bbb/aaa.html   1234567112   123234236/234246/4435346/2345346/13453456/3453456/   85
  /ccc/zzz,html   1234567113   123234237/234247/4435347/2345347/13453457/3453457/   80
  www.whu123.edu.cn   /zzz/index.html   1234567114   123234238/234248/4435348/2345348/13453458/3453458/   90
  /ccc/aaa.html   1234567115   123234239/234249/4435349/2345349/13453459/3453459/   85
  /ccc/zzz.html   1234567116   123234230/234240/4435340/2345340/13453450/3453450/   90
依据相似文档编号可以找到相应网页。
对于要求更加精细的用户,也可显示要监控文档的某个段落和别的文档的相似度。
该步骤还包括判断文档数据列表中的项目是否已全部完成对比的步骤,该步骤对以下动作进行选择:
已全部完成对比的,步骤(5)后进行步骤(6);
或,
未全部完成对比的,循环步骤(5)。
(6)服务器将比较结果数据提交给用户的步骤。
服务器将比较结果报告或者报告的通知发送至用户预先设定的设定存储空间,例如服务器将报告通知发送至用户的邮箱中,告知用户已经比较出剽窃和转载结果。用户点击邮箱中的链接则直接登录进服务器提供的最终报告交互界面。此时服务器将比较结果数据结构传送至客户机,显示至用户客户机,显示的内容包括:依据文档来源获得的要监控的文档列表,这些文档的附属信息,以及这些文档所对应的相似文档及这些相似文档的附属信息。在这个最终报告交互界面中,系统提供一个交互接口以便用户选择是否继续监控某些或者全部文档。在最终用户交互界面上,可以对剽窃和转载位置给予颜色区别。例如判定为相似度大于90%者显示为蓝色,如果大于80%者显示为红色。
在最终报告交互界面中,系统的相似文档基本属性中包括相似文档来源,用户点击这些文档来源后,可再次手工审核这些相似文档是否和要监控文档高度相似。
如图2所示,本发明实施例后续的监控步骤为:
(7)更新数据库并记录文档入库时间的步骤;
(8)根据用户输入的文档条件和文档入库时间大于上次文档数据列表建立的时间(上次比较以后)更新文档数据并存储的步骤;
当数据库(文献库)更新时,系统定期或不定期更新要监控文档列表,将更新后的要监控文档和新增文档进行比较。
当系统的文献库新加入文档,例如搜索引擎的spdier抓取了新的网页,期刊数据库中增加或者导入了新的期刊和文献,这些网页在进入后文献库进行关键词句解析。在入库的时候记录这些新增文档的入库时间。如果新增文档入库时间大于上次建立要监控文档列表时间系统可依次判断这些新增文档是否包含在用户提供的文档来源中,如果在用户提供的文档来源中,则增加依据文档来源下的新增文档及文档的其他相关附属信息,更新用户要监控文档的文档列表。
(9)将更新文档数据与更新数据库中的数据进行比较的步骤;
a、将更新后的数据列表中所指向的文档数据与更新文献数据库且记录文档入库时间大于上次文档数据列表建立的时间的文档数据进行比较的步骤;
b、将更新后的数据列表中的文档入库时间大于上次文档数据列表建立的时间的文档数据与更新文献数据库文档数据进行比较的步骤。
举例说明如下:假定www.whu.edu.cn包含20000个网页,www.whu123.edu.cn包含10000个网页.此次更新了15000个网页.则在更新服务器对这15000个网页进行判断,看是否有来源于www.whu.edu.cn和www.whu123.edu.cn两个网站的网页,假定www.whu.edu.cn有50个网页,www.whu123.edu.cn没有.则判断此次www.whu.edu.cn更新网页时间是否大于上次该用户www.whu.edu.cn要监控文档列表,如果大于说明这50个网页是新搜索到的网页.假定30个网页都是新网页.此时.系统需要将原监控列表的www.whu.edu.cn的20000个网页和新增的15000个网页关键词句表进行比较,再比较前还可以依据一些条件剔除部分网页,例如同文档来源的网页可以不用比较,得出相似度高出某一阀值的文档,另外也要用新增的30个文档和文献库中所有的文档进行关键词句对比,得出与这30篇文档相似度高出某一阀值的文档.
(10)服务器将比较结果数据提交给用户的步骤。

Claims (7)

1.基于计算机网络的防转载或/和反剽窃监控方法,其特征在于:其方法步骤包括:
(1)在服务器上建立数据库的步骤;
(2)在服务器上建立一个用于储存被监控文档的文档数据的存储空间的步骤;
(3)在服务器上建立用于供用户输入文档条件的交互窗口的步骤;文档条件为文档来源;
(4)根据用户输入的文档条件建立文档数据并存储的步骤;文档数据为符合文档条件而建立的文档数据列表结构,它包括编号、文件来源地址、关键词内容;
(5)将文档数据中的关键词内容与数据库中的数据进行比较的步骤;
(6)服务器将比较结果数据提交给用户的步骤。
2.如权利要求1所述的方法,其特征在于:步骤(5)包括判断文档数据列表中的关键词内容是否已全部完成对比的步骤,该步骤对以下动作进行选择:
已全部完成对比的,步骤(5)后进行步骤(6);
或,
未全部完成对比的,循环步骤(5)。
3.如权利要求1所述的方法,其特征在于:文档数据列表还包括文档数据列表建立的时间;
步骤(6)后还包括:
(7)更新数据库并记录文档入库时间的步骤;
(8)根据用户输入的文档条件和文档入库时间大于上次文档数据列表建立的时间更新文档数据并存储的步骤;
(9)将更新文档数据与更新数据库中的数据进行比较的步骤;
(10)服务器将比较结果数据提交给用户的步骤。
4.如权利要求1所述的方法,其特征在于:比较结果包括:相似度高于设定阀值的文档来源。
5.如权利要求1所述的方法,其特征在于:数据库包括文献编号、文献索引库、文献关键词句库。
6.如权利要求5所述的方法,其特征在于:步骤(4)包括依据文档条件判断数据库中是否具有被监控文档的步骤,该步骤对以下动作进行选择:
数据库中具有被监控文档,将被监控文档编号储存在用于储存被监控文档数据的存储空间内;
或,
数据库中没有被监控文档,从用户输入的文档来源处提取监控文档数据,并将监控文档来源储存在用于储存被监控文档数据的存储空间内。
7.如权利要求6所述的方法,其特征在于:不能从用户输入的文档来源处提取监控文档数据的,服务器将未找到文献通知提交给用户,结束。
CN200610019074A 2006-05-16 2006-05-16 基于计算机网络的防转载或/和反剽窃监控方法 Expired - Fee Related CN1845134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610019074A CN1845134B (zh) 2006-05-16 2006-05-16 基于计算机网络的防转载或/和反剽窃监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610019074A CN1845134B (zh) 2006-05-16 2006-05-16 基于计算机网络的防转载或/和反剽窃监控方法

Publications (2)

Publication Number Publication Date
CN1845134A CN1845134A (zh) 2006-10-11
CN1845134B true CN1845134B (zh) 2010-05-12

Family

ID=37064062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610019074A Expired - Fee Related CN1845134B (zh) 2006-05-16 2006-05-16 基于计算机网络的防转载或/和反剽窃监控方法

Country Status (1)

Country Link
CN (1) CN1845134B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100426302C (zh) * 2006-12-31 2008-10-15 武汉大学 能加快反剽窃或转载文档检测速度的方法
US10037384B2 (en) 2013-05-28 2018-07-31 Tencent Technology (Shenzhen) Company Limited Method and apparatus for notifying a user of updated content for a webpage
CN104182426A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 一种网页更新内容的显示方法和装置
CN110069903B (zh) * 2019-04-28 2023-03-21 腾讯科技(上海)有限公司 一种确定查阅文本数据的用户的方法及装置
CN110321931A (zh) * 2019-06-05 2019-10-11 上海易点时空网络有限公司 原创内容仲裁方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369839A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 文件关联性判定系统与方法
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369839A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 文件关联性判定系统与方法
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法

Also Published As

Publication number Publication date
CN1845134A (zh) 2006-10-11

Similar Documents

Publication Publication Date Title
US10642937B2 (en) Interactive addition of semantic concepts to a document
US8095547B2 (en) Method and apparatus for detecting spam user created content
US9165085B2 (en) System and method for publishing aggregated content on mobile devices
US7702681B2 (en) Query-by-image search and retrieval system
CN103177075A (zh) 基于知识的实体检测和消歧
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
WO2014056337A1 (zh) 搜索词获取方法、服务器、搜索词推荐系统
CN109726280B (zh) 一种针对同名学者的排歧方法及装置
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
WO2006132793A2 (en) Learning facts from semi-structured text
CN102426591A (zh) 一种操作用于内容输入的语料库的方法和设备
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN108475320A (zh) 在搜索查询当中识别查询模式及相关联的聚合统计
CN113297457B (zh) 一种高精准性的信息资源智能推送系统及推送方法
CN102164186A (zh) 一种实现云搜索服务的方法及系统
CN1845134B (zh) 基于计算机网络的防转载或/和反剽窃监控方法
CN103064842A (zh) 信息订阅处理装置和信息订阅处理方法
KR20080078930A (ko) 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN108399224A (zh) 一种网络购物信息的推送的方法
JP2003016082A (ja) リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム
CN113448983A (zh) 知识点处理方法、装置、服务器、介质及产品
KR101124213B1 (ko) 온톨로지를 이용한 맞춤형 뉴스레터 제공 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100512

Termination date: 20110516