CN107169011A - 基于人工智能的网页原创性识别方法、装置及存储介质 - Google Patents

基于人工智能的网页原创性识别方法、装置及存储介质 Download PDF

Info

Publication number
CN107169011A
CN107169011A CN201710209215.8A CN201710209215A CN107169011A CN 107169011 A CN107169011 A CN 107169011A CN 201710209215 A CN201710209215 A CN 201710209215A CN 107169011 A CN107169011 A CN 107169011A
Authority
CN
China
Prior art keywords
sentence
webpage
slide fastener
row
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710209215.8A
Other languages
English (en)
Other versions
CN107169011B (zh
Inventor
马晋
程刚
张晋
周志奋
李田赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710209215.8A priority Critical patent/CN107169011B/zh
Publication of CN107169011A publication Critical patent/CN107169011A/zh
Application granted granted Critical
Publication of CN107169011B publication Critical patent/CN107169011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于人工智能的网页原创性识别方法、装置及存储介质,其中方法包括:分别对保存在数据库中的各网页进行句子提取;根据提取出的句子生成句子级的原创查找词典;根据原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子;根据识别结果确定出待识别的网页的原创性。应用本发明所述方案,能够提高识别结果的准确性等。

Description

基于人工智能的网页原创性识别方法、装置及存储介质
【技术领域】
本发明涉及互联网技术,特别涉及基于人工智能的网页原创性识别方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着近年来互联网数据的爆炸性增长,搜索引擎公司开始检索千亿级别的网页资源。在海量网页资源的背后,存在相当一部分数量的站长或资源产生方,为了减少网页制作的成本,或是利用其它的优质网页为自己的网站吸取点击增加流量等,转载甚至抄袭其它的优质原创网页。
这种现象虽然在一定程度上有利于网络资源的快速传播,但由于原创内容的作者花费了一定的时间和精力创作内容,上述的转载或抄袭行为会削减甚至消除原创作者的创作价值;另外,对于搜索引擎而言,如果搜录了大量重复的资源,会消耗掉更多的成本如储存和检索时间等。
因此,需要对网页的原创性进行识别,一方面可以保护原创作者的权益,另一方面,搜索引擎可以利用节省出来的成本去搜录更多的原创网页,从而促进高价值内容的成长以及内容生态的建设。
现有技术中,主要采用以下方式来进行网页的原创性识别:从整个网页中,提取出一个最长句子,根据提取出的最长句子的签名进行分组,同组内根据title的皮尔逊距离(计算网页内容的相似度)和链接发现时间进行原创性网页的识别,即判断同组内谁是真正的原创。
但是,这种方式在实际应用中会存在一定的问题,即识别结果的准确性较低,比如,网页中的句子有细微的变化,或者最长句子的提取发生小的变化等,都会造成签名的变化,进而影响后续的分组等处理。
【发明内容】
有鉴于此,本发明提供了基于人工智能的网页原创性识别方法、装置及存储介质,能够提高识别结果的准确性。
具体技术方案如下:
一种基于人工智能的网页原创性识别方法,包括:
分别对保存在数据库中的各网页进行句子提取;
根据提取出的句子生成句子级的原创查找词典;
根据所述原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子;
根据识别结果确定出所述待识别的网页的原创性。
一种基于人工智能的网页原创性识别装置,包括:处理单元以及识别单元;
所述处理单元,用于分别对保存在数据库中的各网页进行句子提取,并根据提取出的句子生成句子级的原创查找词典;
所述识别单元,用于根据所述原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子,根据识别结果确定出所述待识别的网页的原创性。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可分别对保存在数据库中的各网页进行句子提取,并根据提取出的句子生成句子级的原创查找词典,这样,后续针对待识别的网页,即可根据原创查找词典,分别识别出从中提取出的各句子是否为原创句子,进而根据识别结果确定出待识别的网页的原创性,这样,即便个别句子的提取等略有变化,也不会影响整个网页的识别结果,从而提高了识别结果的准确性。
【附图说明】
图1为本发明所述基于人工智能的网页原创性识别方法实施例的流程图。
图2为本发明所述基于人工智能的网页原创性识别装置实施例的组成结构示意图。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
图1为本发明所述基于人工智能的网页原创性识别方法实施例的流程图,如图1所示,包括以下具体实现方式:
在101中,分别对保存在数据库中的各网页进行句子提取;
在102中,根据提取出的句子生成句子级的原创查找词典;
在103中,根据原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子;
在104中,根据识别结果确定出待识别的网页的原创性。
即可根据数据库中保存的网页生成句子级的原创查找词典,进而可通过查询所述原创查找词典,确定出待识别的网页的原创性。
以下分别对上述各部分内容的具体实现进行详细说明。
一)句子提取
在实际应用中,为便于搜索引擎的搜索等,可收集/采集大量的网页,保存在数据库中。
对于保存在数据库中的每个网页,可分别通过页面解析等,获取该网页的标题(title)以及正文内容(page域),另外还可进一步获取该网页的统一资源定位符(URL,Uniform Resoure Locator)签名以及入库时间等。
针对获取到的正文内容,可对其进行句子切分,如可根据自然语言中具有句子完结意义的结束符及网页源码标签来切分句子,并可过滤掉过短的句子,自然语言中具有句子完结意义的结束符可包括“。”、“?”、“!”等。
之后,可分别计算出每个句子的权值,具体地,可针对每个句子分别进行以下处理:按照基础粒度对该句子进行切词及去停用词处理,之后,根据处理结果计算该句子的权值,如将该句子中各切分出的词(term)的逆文本频率(IDF,Inverse Document Frequency)值相加,将相加之和作为该句子的权值,如何获取IDF值为现有技术。
对于每个网页,可按照权值由大到小的顺序对从该网页的正文内容中切分出的各句子进行排序,并选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及该网页的标题作为从该网页中提取出的句子。
M的具体取值可根据实际需要而定,比如可为30,标题作为特殊句子进行保留并标识。
对于提取出的每个句子,可在切词和去停用词处理的基础上计算出该句子的句子签名,如simhash值,simhash是一种常用的字符串hash算法,如果两个句子相同,那么这两个句子的simhash值也会相同,如果两个句子相似,那么这两个句子的simhash值的海明距离会很近。
二)原创查找词典
按照一)中的方式,可分别从每个网页中提取出多个句子,之后,可根据提取出的句子生成句子级的原创查找词典,即将千亿级的网页资源建成句子—>网页的倒排拉链表,并可利用倒排拉链表进行网页的原创性识别。
相应地,可首先对提取出的各句子进行去重处理,之后,针对去重处理后的每个句子,可分别生成一个倒排拉链表。
倒排拉链表中可包括:句子签名以及入库时间,还可进一步包括:原创时间,还可进一步包括:原创url签名、拉链长度、邻近拉链总长度、采集者列表等。
其中,句子签名、原创url签名、入库时间、原创时间、拉链长度、邻近拉链总长度共同组成倒排拉链表中的拉链头数据,即倒排拉链表可由拉链头数据以及采集者列表两部分组成。
其中,原创url表示包含倒排拉链表对应的句子的网页中入库时间最早的网页的url。
入库时间表示包含倒排拉链表对应的句子的网页中入库时间最早的网页的入库时间,即原创url对应的入库时间。
拉链长度表示包含倒排拉链表对应的句子的网页数。
邻近拉链总长度表示倒排拉链表对应的句子的拉链长度以及倒排拉链表对应的句子的邻近句子的拉链长度之和。邻近句子为与倒排拉链表对应的句子的句子签名之间的海明距离小于预定阈值的句子,所述阈值的具体取值可根据实际需要而定,比如3。
相应地,原创时间表示:确定出倒排拉链表对应的句子的邻近句子,从包含所述邻近句子或倒排拉链表对应的句子的网页中选出入库时间最早的网页,该选出的网页的入库时间即为所述原创时间。
倒排拉链表中的采集者列表中可包括:按照入库时间由先到后的顺序,包含倒排拉链表对应的句子的网页中前N个入库的网页的url签名及入库时间。
即采集者列表中保存有包含倒排拉链表对应的句子的网页中前N个入库的网页的url签名及入库时间,并按照入库时间升序排列,N的具体取值可根据实际需要而定,比如10。
假设句子A和句子B的句子签名之间的海明距离小于预定阈值,那么句子B则为句子A的邻近句子,同样,句子A也为句子B的邻近句子。
针对原创查找词典,还可根据实际需要,对其执行插入、删除或更新等操作,以下分别对各操作的具体实现进行说明。
1)插入操作
即指将待插入的网页的句子级数据插入倒排拉链表中。
所述待插入的网页可以是指新进且有原创识别需求的网页。
具体地,可首先对待插入的网页进行句子提取等。
之后,可针对从待插入的网页中提取出的每个句子,分别进行以下处理:
确定是否存在该句子对应的倒排拉链表;
如果否,则建立该句子对应的倒排拉链表,并对该句子的邻近句子对应的倒排拉链表进行更新;
如果是,则对该句子对应的倒排拉链表以及该句子的邻近句子对应的倒排拉链表进行更新。
在建立该句子对应的倒排拉链表时,入库时间即为待插入的网页的入库时间,其它信息可参照前述说明,不再赘述。
对该句子对应的倒排拉链表进行更新可包括:如果待插入的网页的入库时间早于倒排拉链表中的入库时间,则将倒排拉链表中的入库时间更新为待插入的网页的入库时间,将原创url签名更新为待插入的网页的url签名,将拉链长度加一,并将待插入的网页的url签名及入库时间加入到采集者列表中等。
对该句子的邻近句子对应的倒排拉链表进行更新可包括:将邻近句子对应的倒排拉链表中的邻近拉链总长度加一,如果待插入的网页的入库时间早于邻近句子对应的倒排拉链表中的原创时间,则将邻近句子对应的倒排拉链表中的原创时间更新为待插入的网页的入库时间等。
2)删除操作
即指将待删除的网页的句子级数据从倒排拉链表中删除。
具体地,可针对从待删除的网页中提取出的每个句子,分别对该句子对应的倒排拉链表以及该句子的邻近句子对应的倒排拉链表进行更新。
其中,对该句子对应的倒排拉链表进行更新可包括:如果倒排拉链表中的入库时间为待删除的网页的入库时间,那么则选出采集者列表中除待删除的网页之外的其它各网页中入库时间最早的网页,用选出的网页的url签名和入库时间替代倒排拉链表中的原创url签名及入库时间,并且,将倒排拉链表中的拉链长度减一,将待删除的网页的url签名及入库时间从采集者列表中删除等。
对该句子的邻近句子对应的倒排拉链表进行更新可包括:将邻近句子对应的倒排拉链表中的邻近拉链总长度减一,如果邻近句子对应的倒排拉链表中的原创时间为待删除的网页的入库时间,则更新邻近句子对应的倒排拉链表中的原创时间等。
3)更新操作
比如,对于已经存在于倒排拉链表中的网页,如果其内容发生了变更,那么则可执行更新操作。
更新操作可由删除操作和插入操作组成,即先执行删除操作,再执行插入操作,不再赘述。
除上述插入、删除和更新操作外,在实际应用中,还可能会涉及到一些其它操作,比如人工干预以及天级例行的原创url填充等。
人工干预:一个可能的场景是,某个url的站长投诉,该url才是原创,这种情况,经核实后,可更新该url的入库时间,并执行更新操作。
天级例行的原创url填充:存在这样的场景,对于某个句子对应的倒排拉链表,其采集者列表中的全部url签名及入库时间均被删除,这样会导致倒排拉链表中的原创url签名及入库时间为空,那么则需要对倒排拉链表中的原创url签名及入库时间进行填充,如利用包含倒排拉链表对应的句子的网页中除删除的网页之外的其它网页中入库时间最早的网页的url签名及入库时间进行填充。
三)原创性识别
通过上述操作,即可维护一个可随时访问的句子级的原创查找词典,基于该原创查找词典,即可对所有建到倒排拉链表中即保存在数据库中的网页的原创性进行识别/评估。
具体地,针对待识别的网页,可首先识别出从中提取出的各句子是否为原创句子。
本发明中支持精确识别和模糊识别两种方式,倒排拉链表的结构和操作上均支持这两种识别方式,系统的可扩展性很高。
其中,精确识别的方式可为:
针对从待识别的网页中提取出的每个句子,分别进行以下处理:
根据该句子的句子签名确定出该句子对应的倒排拉链表;
将待识别的网页的入库时间与对应的倒排拉链表中的入库时间进行比较,若待识别的网页的入库时间早于或等于对应的倒排拉链表中的入库时间,则确定该句子为原创句子。
模糊识别的方式可为:
针对从待识别的网页中提取出的每个句子,分别进行以下处理:
根据该句子的句子签名确定出该句子对应的倒排拉链表;
将待识别的网页的入库时间与对应的倒排拉链表中的原创时间进行比较,若待识别的网页的入库时间早于或等于对应的倒排拉链表中的原创时间,则确定该句子为原创句子。
在分别识别出待识别的网页中的各句子是否为原创句子之后,即可根据识别结果确定出待识别的网页的原创性。
比如,可首先计算出从待识别的网页中提取出的各句子的权值之和,从而得到第一相加结果,如何获取句子的权值可参照一)中的说明。
之后,可进一步计算出从待识别的网页中提取出的各句子中的原创句子的权值之和,从而得到第二相加结果。
最后,用第二相加结果除以第一相加结果,将得到的商作为待识别的网页的原创性评价结果。
对于一个网页来说,原创性评估结果的取值越大,说明其中的原创内容的比例越大,相应地,该网页的原创性也就越高。
进一步地,可设置一个阈值,具体取值可根据实际需要而定,当某一网页的原创性评估结果大于所述阈值时,则可判定该网页为原创网页。
通过上述介绍可以看出,采用本发明所述方案,即便个别句子的提取等略有变化,也不会影响整个网页的识别结果,从而相比于现有技术提高了识别结果的准确性。
对于原创性越高的网页,在实际应用中如在进行资源筛选和召回排序时越应该受到优待,对于站长和资源产生方来说,他们的创作的价值得到了认可和保护,对于搜索引擎来说,能够鼓励站长去创作更多的优质资源,而不是转载或剽窃他人的成果,经过一定时间的积累,搜索引擎就能够收录更多的有价值的资源,繁荣搜索生态。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述基于人工智能的网页原创性识别装置实施例的组成结构示意图,如图2所示,包括:处理单元201以及识别单元202。
处理单元201,用于分别对保存在数据库中的各网页进行句子提取,并根据提取出的句子生成句子级的原创查找词典。
识别单元202,用于根据原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子,根据识别结果确定出待识别的网页的原创性。
其中,处理单元201可按照以下方式分别对每个网页进行句子提取:
获取网页的标题以及正文内容;
对正文内容进行句子切分,并分别计算切分出的每个句子的权值;
按照权值由大到小的顺序对切分出的各句子进行排序;
选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及标题作为提取出的句子。
在完成句子提取之后,处理单元201可进一步对提取出的句子进行去重处理,并针对去重处理后的每个句子,分别生成一个倒排拉链表。
倒排拉链表中包括:句子签名以及入库时间,入库时间表示包含倒排拉链表对应的句子的网页中入库时间最早的网页的入库时间。
待识别的网页通常为保存在数据库中的网页,识别单元202可针对从待识别的网页中提取出的每个句子,分别进行以下处理:
根据该句子的句子签名确定出该句子对应的倒排拉链表;
将待识别的网页的入库时间与对应的倒排拉链表中的入库时间进行比较,若待识别的网页的入库时间早于或等于对应的倒排拉链表中的入库时间,则确定该句子为原创句子。
倒排拉链表中还可进一步包括:原创时间。
处理单元201可按照以下方式来获取原创时间:
确定出倒排拉链表对应的句子的邻近句子,邻近句子为与倒排拉链表对应的句子的句子签名之间的海明距离小于预定阈值的句子;
从包含邻近句子或倒排拉链表对应的句子的网页中选出入库时间最早的网页;
将选出的网页的入库时间作为原创时间。
相应地,识别单元202可针对从待识别的网页中提取出的每个句子,分别进行以下处理:
根据该句子的句子签名确定出该句子对应的倒排拉链表;
将待识别的网页的入库时间与对应的倒排拉链表中的原创时间进行比较,若待识别的网页的入库时间早于或等于对应的倒排拉链表中的原创时间,则确定该句子为原创句子。
之后,识别单元202可计算从待识别的网页中提取出的各句子的权值之和,得到第一相加结果,并计算从待识别的网页中提取出的各句子中的原创句子的权值之和,得到第二相加结果,用第二相加结果除以第一相加结果,将得到的商作为待识别的网页的原创性评价结果。
除上述介绍外,处理单元201还可进一步用于,对原创查找词典执行插入、删除或更新操作,其中,更新操作包括:依次执行删除操作和插入操作。
倒排拉链表中还可进一步包括:原创url签名、拉链长度、邻近拉链总长度。
其中,原创url表示包含倒排拉链表对应的句子的网页中入库时间最早的网页的url。
拉链长度表示包含倒排拉链表对应的句子的网页数。
邻近拉链总长度表示倒排拉链表对应的句子的拉链长度以及倒排拉链表对应的句子的邻近句子的拉链长度之和。
句子签名、原创url签名、入库时间、原创时间、拉链长度、邻近拉链总长度共同组成倒排拉链表中的拉链头数据。
倒排拉链表中还可进一步包括:采集者列表。
采集者列表中可包括:包含倒排拉链表对应的句子的网页中前N个入库的网页的url签名及入库时间,N为大于一的正整数。
相应地,处理单元202可按照以下方式执行插入操作:
对待插入的网页进行句子提取,并针对从待插入的网页中提取出的每个句子,分别进行以下处理:
确定是否存在该句子对应的倒排拉链表;
如果否,则建立该句子对应的倒排拉链表,并对该句子的邻近句子对应的倒排拉链表进行更新;
如果是,则对该句子对应的倒排拉链表以及该句子的邻近句子对应的倒排拉链表进行更新。
处理单元202可按照以下方式执行删除操作:针对从待删除的网页中提取出的每个句子,分别对该句子对应的倒排拉链表以及该句子的邻近句子对应的倒排拉链表进行更新。
图2所示装置实施例的具体工作流程等请参照前述方法实施例中的相应说明,此处不再赘述。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,即分别对保存在数据库中的各网页进行句子提取,根据提取出的句子生成句子级的原创查找词典,根据原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子,根据识别结果确定出待识别的网页的原创性等。具体实现请参照前述方法实施例中的相应说明,此处不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种基于人工智能的网页原创性识别方法,其特征在于,包括:
分别对保存在数据库中的各网页进行句子提取;
根据提取出的句子生成句子级的原创查找词典;
根据所述原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子;
根据识别结果确定出所述待识别的网页的原创性。
2.根据权利要求1所述的方法,其特征在于,
对网页进行句子提取包括:
获取所述网页的标题以及正文内容;
对所述正文内容进行句子切分,并分别计算切分出的每个句子的权值;
按照权值由大到小的顺序对切分出的各句子进行排序;
选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及所述标题作为提取出的句子。
3.根据权利要求1所述的方法,其特征在于,
所述根据提取出的句子生成句子级的原创查找词典包括:
对提取出的句子进行去重处理,针对去重处理后的每个句子,分别生成一个倒排拉链表;
所述倒排拉链表中包括:句子签名以及入库时间,所述入库时间表示包含所述倒排拉链表对应的句子的网页中入库时间最早的网页的入库时间;
所述待识别的网页为保存在数据库中的网页,所述分别识别出从所述待识别的网页中提取出的各句子是否为原创句子包括:
针对从所述待识别的网页中提取出的每个句子,分别进行以下处理:
根据所述句子的句子签名确定出所述句子对应的倒排拉链表;
将所述待识别的网页的入库时间与所述对应的倒排拉链表中的入库时间进行比较,若所述待识别的网页的入库时间早于或等于所述对应的倒排拉链表中的入库时间,则确定所述句子为原创句子。
4.根据权利要求3所述的方法,其特征在于,
所述倒排拉链表中进一步包括:原创时间;
获取所述原创时间的方式包括:
确定出所述倒排拉链表对应的句子的邻近句子,所述邻近句子为与所述倒排拉链表对应的句子的句子签名之间的海明距离小于预定阈值的句子;
从包含所述邻近句子或所述倒排拉链表对应的句子的网页中选出入库时间最早的网页;
将选出的网页的入库时间作为所述原创时间;
所述待识别的网页为保存在数据库中的网页,所述分别识别出从所述待识别的网页中提取出的各句子是否为原创句子包括:
针对从所述待识别的网页中提取出的每个句子,分别进行以下处理:
根据所述句子的句子签名确定出所述句子对应的倒排拉链表;
将所述待识别的网页的入库时间与所述对应的倒排拉链表中的原创时间进行比较,若所述待识别的网页的入库时间早于或等于所述对应的倒排拉链表中的原创时间,则确定所述句子为原创句子。
5.根据权利要求2所述的方法,其特征在于,
所述根据识别结果确定出所述待识别的网页的原创性包括:
计算从所述待识别的网页中提取出的各句子的权值之和,得到第一相加结果;
计算从所述待识别的网页中提取出的各句子中的原创句子的权值之和,得到第二相加结果;
用所述第二相加结果除以所述第一相加结果,将得到的商作为所述待识别的网页的原创性评价结果。
6.根据权利要求4所述的方法,其特征在于,
该方法进一步包括:对所述原创查找词典执行插入、删除或更新操作,其中,所述更新操作包括:依次执行所述删除操作和插入操作。
7.根据权利要求6所述的方法,其特征在于,
所述倒排拉链表中进一步包括:原创统一资源定位符url签名、拉链长度、邻近拉链总长度;
其中,所述原创url表示包含所述倒排拉链表对应的句子的网页中入库时间最早的网页的url;
所述拉链长度表示包含所述倒排拉链表对应的句子的网页数;
所述邻近拉链总长度表示所述倒排拉链表对应的句子的拉链长度以及所述倒排拉链表对应的句子的邻近句子的拉链长度之和;
所述句子签名、原创url签名、入库时间、原创时间、拉链长度、邻近拉链总长度共同组成所述倒排拉链表中的拉链头数据;
所述倒排拉链表中进一步包括:采集者列表;
所述采集者列表中包括:包含所述倒排拉链表对应的句子的网页中前N个入库的网页的url签名及入库时间,N为大于一的正整数。
8.根据权利要求7所述的方法,其特征在于,
所述插入操作包括:
对待插入的网页进行句子提取;
针对从所述待插入的网页中提取出的每个句子,分别进行以下处理:
确定是否存在所述句子对应的倒排拉链表;
如果否,则建立所述句子对应的倒排拉链表,并对所述句子的邻近句子对应的倒排拉链表进行更新;
如果是,则对所述句子对应的倒排拉链表以及所述句子的邻近句子对应的倒排拉链表进行更新。
9.根据权利要求7所述的方法,其特征在于,
所述删除操作包括:
针对从所述待删除的网页中提取出的每个句子,分别对所述句子对应的倒排拉链表以及所述句子的邻近句子对应的倒排拉链表进行更新。
10.一种基于人工智能的网页原创性识别装置,其特征在于,包括:处理单元以及识别单元;
所述处理单元,用于分别对保存在数据库中的各网页进行句子提取,并根据提取出的句子生成句子级的原创查找词典;
所述识别单元,用于根据所述原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子,根据识别结果确定出所述待识别的网页的原创性。
11.根据权利要求10所述的装置,其特征在于,
所述处理单元按照以下方式分别对每个网页进行句子提取:
获取所述网页的标题以及正文内容;
对所述正文内容进行句子切分,并分别计算切分出的每个句子的权值;
按照权值由大到小的顺序对切分出的各句子进行排序;
选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及所述标题作为提取出的句子。
12.根据权利要求10所述的装置,其特征在于,
所述处理单元对提取出的句子进行去重处理,并针对去重处理后的每个句子,分别生成一个倒排拉链表;
所述倒排拉链表中包括:句子签名以及入库时间,所述入库时间表示包含所述倒排拉链表对应的句子的网页中入库时间最早的网页的入库时间;
所述待识别的网页为保存在数据库中的网页,所述识别单元针对从所述待识别的网页中提取出的每个句子,分别进行以下处理:
根据所述句子的句子签名确定出所述句子对应的倒排拉链表;
将所述待识别的网页的入库时间与所述对应的倒排拉链表中的入库时间进行比较,若所述待识别的网页的入库时间早于或等于所述对应的倒排拉链表中的入库时间,则确定所述句子为原创句子。
13.根据权利要求12所述的装置,其特征在于,
所述倒排拉链表中进一步包括:原创时间;
所述处理单元进一步用于,按照以下方式获取所述原创时间:
确定出所述倒排拉链表对应的句子的邻近句子,所述邻近句子为与所述倒排拉链表对应的句子的句子签名之间的海明距离小于预定阈值的句子;
从包含所述邻近句子或所述倒排拉链表对应的句子的网页中选出入库时间最早的网页;
将选出的网页的入库时间作为所述原创时间;
所述待识别的网页为保存在数据库中的网页,所述识别单元进一步用于,
针对从所述待识别的网页中提取出的每个句子,分别进行以下处理:
根据所述句子的句子签名确定出所述句子对应的倒排拉链表;
将所述待识别的网页的入库时间与所述对应的倒排拉链表中的原创时间进行比较,若所述待识别的网页的入库时间早于或等于所述对应的倒排拉链表中的原创时间,则确定所述句子为原创句子。
14.根据权利要求11所述的装置,其特征在于,
所述识别单元计算从所述待识别的网页中提取出的各句子的权值之和,得到第一相加结果,并计算从所述待识别的网页中提取出的各句子中的原创句子的权值之和,得到第二相加结果,用所述第二相加结果除以所述第一相加结果,将得到的商作为所述待识别的网页的原创性评价结果。
15.根据权利要求13所述的装置,其特征在于,
所述处理单元进一步用于,
对所述原创查找词典执行插入、删除或更新操作,其中,所述更新操作包括:依次执行所述删除操作和插入操作。
16.根据权利要求15所述的装置,其特征在于,
所述倒排拉链表中进一步包括:原创统一资源定位符url签名、拉链长度、邻近拉链总长度;
其中,所述原创url表示包含所述倒排拉链表对应的句子的网页中入库时间最早的网页的url;
所述拉链长度表示包含所述倒排拉链表对应的句子的网页数;
所述邻近拉链总长度表示所述倒排拉链表对应的句子的拉链长度以及所述倒排拉链表对应的句子的邻近句子的拉链长度之和;
所述句子签名、原创url签名、入库时间、原创时间、拉链长度、邻近拉链总长度共同组成所述倒排拉链表中的拉链头数据;
所述倒排拉链表中进一步包括:采集者列表;
所述采集者列表中包括:包含所述倒排拉链表对应的句子的网页中前N个入库的网页的url签名及入库时间,N为大于一的正整数。
17.根据权利要求16所述的装置,其特征在于,
所述处理单元对待插入的网页进行句子提取,并针对从所述待插入的网页中提取出的每个句子,分别进行以下处理:
确定是否存在所述句子对应的倒排拉链表;
如果否,则建立所述句子对应的倒排拉链表,并对所述句子的邻近句子对应的倒排拉链表进行更新;
如果是,则对所述句子对应的倒排拉链表以及所述句子的邻近句子对应的倒排拉链表进行更新。
18.根据权利要求16所述的装置,其特征在于,
所述处理单元针对从所述待删除的网页中提取出的每个句子,分别对所述句子对应的倒排拉链表以及所述句子的邻近句子对应的倒排拉链表进行更新。
19.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~9中任一项所述的方法。
CN201710209215.8A 2017-03-31 2017-03-31 基于人工智能的网页原创性识别方法、装置及存储介质 Active CN107169011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710209215.8A CN107169011B (zh) 2017-03-31 2017-03-31 基于人工智能的网页原创性识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710209215.8A CN107169011B (zh) 2017-03-31 2017-03-31 基于人工智能的网页原创性识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107169011A true CN107169011A (zh) 2017-09-15
CN107169011B CN107169011B (zh) 2021-06-11

Family

ID=59849611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710209215.8A Active CN107169011B (zh) 2017-03-31 2017-03-31 基于人工智能的网页原创性识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN107169011B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN109271614A (zh) * 2018-10-30 2019-01-25 中译语通科技股份有限公司 一种数据查重方法
CN110096509A (zh) * 2019-05-16 2019-08-06 普元信息技术股份有限公司 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN110633993A (zh) * 2018-06-01 2019-12-31 厦门本能管家科技有限公司 一种可追溯的信息发布方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984429A (zh) * 2010-11-04 2011-03-09 百度在线网络技术(北京)有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN105893478A (zh) * 2016-03-29 2016-08-24 广州华多网络科技有限公司 一种标签提取方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984429A (zh) * 2010-11-04 2011-03-09 百度在线网络技术(北京)有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN105893478A (zh) * 2016-03-29 2016-08-24 广州华多网络科技有限公司 一种标签提取方法及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN108595439B (zh) * 2018-05-04 2022-04-12 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN110633993A (zh) * 2018-06-01 2019-12-31 厦门本能管家科技有限公司 一种可追溯的信息发布方法及系统
CN109271614A (zh) * 2018-10-30 2019-01-25 中译语通科技股份有限公司 一种数据查重方法
CN109271614B (zh) * 2018-10-30 2022-12-13 中译语通科技股份有限公司 一种数据查重方法
CN110096509A (zh) * 2019-05-16 2019-08-06 普元信息技术股份有限公司 大数据环境下实现历史数据拉链表存储建模处理的系统及方法

Also Published As

Publication number Publication date
CN107169011B (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US10095690B2 (en) Automated ontology building
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
CN103914494B (zh) 一种微博用户身份识别方法及系统
CN104991899B (zh) 用户属性的识别方法及装置
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN107220352A (zh) 基于人工智能构建评论图谱的方法和装置
CN109087135A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN107943839A (zh) 基于图片和文字生成视频的方法、装置、设备及存储介质
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN107169011A (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
CN107145482A (zh) 基于人工智能的文章生成方法及装置、设备与可读介质
CN107977363A (zh) 标题生成方法、装置和电子设备
Lou et al. Multilabel subject-based classification of poetry
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
WO2022116435A1 (zh) 标题生成方法、装置、电子设备及存储介质
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN106294473B (zh) 一种实体词挖掘方法、信息推荐方法及装置
CN107203574A (zh) 数据管理和数据分析的聚合
CN109214417A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN106528896A (zh) 一种数据库优化方法和装置
CN102959538A (zh) 给文档编索引
CN107885717A (zh) 一种关键词提取方法及装置
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN103246642B (zh) 信息处理装置以及信息处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant