CN102314454A - 自动添加内链的方法及系统 - Google Patents

自动添加内链的方法及系统 Download PDF

Info

Publication number
CN102314454A
CN102314454A CN2010102221477A CN201010222147A CN102314454A CN 102314454 A CN102314454 A CN 102314454A CN 2010102221477 A CN2010102221477 A CN 2010102221477A CN 201010222147 A CN201010222147 A CN 201010222147A CN 102314454 A CN102314454 A CN 102314454A
Authority
CN
China
Prior art keywords
chain
vocabulary
entry information
entry
added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102221477A
Other languages
English (en)
Inventor
支静
耿磊
王坤
张东进
贺翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2010102221477A priority Critical patent/CN102314454A/zh
Publication of CN102314454A publication Critical patent/CN102314454A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种自动添加内链的方法及系统,该方法包括:对接收的词条信息进行切词以获取关键词;根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇;对待添加内链的词汇自动添加内链。本发明通过系统自动添加策略,减少人工投入,在一定程度上丰富百科词条的内链的同时,大幅度提高百科词条的内链量和准确率。对浏览用户而言,无需花费大量的时间和经历去检索查找相关疑难术语,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省了为相关词条添加内链所花费的人力成本,同时避免了人工添加内链的主观随意性,提高了内链的针对性和有效性;对管理团队而言,极大地降低了对增加内链的编辑版本进行人工审核所花费的成本。

Description

自动添加内链的方法及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种自动添加内链的方法及系统。
背景技术
随着互联网的普及,每天都有大量的新闻、事件等消息通过网络被迅速传播,人们对于各种信息的传播热情与共享程度达到了空前的高度,为方便人类不断积累知识,沉淀并传承文明,一种通过电子大百科全书记录信息的方式应运而生。人们可以对已有知识或刚刚形成的智力成果进行梳理和积累,或者自己感兴趣的领域,凭借自身的知识能力对相关知识主题进行编辑和完善。不断完善的电子大百科全书不仅对知识体系进行了有效的梳理和保存,还有利于人们进行知识检索与查阅。
人们在阅读一个主题知识时,需要对文中所遇到的陌生字汇或问题进行查询;知识体系的建立为用户检索提供大量的信息供用户阅读参考,但是即时是检索到相关主题知识,通过大量浏览找到自身所需要的背景知识仍然需要花费用户大量的时间和精力。为满足人们获取更多知识的需要,改善浏览用户的延展阅读的体验,在主题词条中添加内部链接(简称“内链”),用以对被添加内链的主题词进行注解或知识扩展,用户在遇到该添加内链的主题词后通过点击该内链给出的链接可以获得自动的答疑解惑,极大地方便了用户的阅读;同时具有内链的电子大百科全书在知识体系结构上也更加完善,也有利于减少对同一较为生僻或热点事件的重复注解,提供系统的资源利用率。此外,研究发现通过内链途径,还能够有效提高词条的总页面浏览率(PV,Page View),在方便用户阅读的同时,提供用户的忠诚度。
但是,现有的设置内链的方式主要包括由人工添加和由系统自动添加。对于人工添加的方式,由于其添加内链是凭借自身的知识能力/经验来决定对什么词汇添加内链的,主观任意性较强,会存在需要添加内链的没有添加内链,而无需内链注解的主题词又被添加了内链,造成内链遗漏和内链闲置等问题。此外,对于人工添加的方式,需要耗费大量的人力物力,尤其是在知识爆炸的时代,大量信息的瞬时爆发对于设置内链的及时性和有效性提出了更高的要求,但传统的人工添加的方式效率低下,远不能满足需要。对于机器自动添加的方式,由于其对目标主题词的内链的必需性不作严格的判断,几乎是对主题词都进行内链,针对性和选择性都比较差,造成大量无用的内链最终处于闲置状态,而未被有效的利用,从而造成系统资源的浪费。
如何能够有效地对网页中的知识体系设置内链,在丰富大百科全书词条的内链的同时,还能避免机器自动添加内链的盲目性,以及克服人工添加内链效率低下等技术问题成为本领于亟待解决的技术问题。
发明内容
本发明要解决的一个技术问题是提供一种自动添加内链的方法及系统,其能够在减少人工投入的前提下,提高内链添加的效率和针对性,从而有效地丰富百科词条的内链。
本发明的一个方面提供了一种自动添加内链的方法,该方法包括:对接收的词条信息进行切词以获取关键词;根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇;对待添加内链的词汇自动添加内链。
本发明提供的自动添加内链的方法的一个实施例中,根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇的步骤进一步包括:如果词条信息设置有相关词条信息,且词条正文中获取的关键词提及相关词条信息的词条名,则抓取关键词为待添加内链的词汇,以便随后在词条名出现的正文位置,增加词汇的内链。
本发明提供的自动添加内链的方法的一个实施例中,根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇的步骤进一步包括:如果在第一词条信息的正文中获取的关键词中,出现了第二词条信息的词条名,且第二词条信息的正文中所获取的关键词同样出现第一词条信息的词条名时,确认第一词条信息和第二词条信息之间存在较高关联性,则抓取第一词条信息和第二词条信息作为待添加内链的互链词汇,以便随后在词条名出现的正文位置,增加词汇的内链。
本发明提供的自动添加内链的方法的一个实施例中,该方法还包括:在确定待添加内链的互链词汇后,对互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。
本发明提供的自动添加内链的方法的一个实施例中,对待添加内链的词汇自动添加内链进一步包括:使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
本发明的另一个方面提供了一种自动添加内链的系统,该系统包括:切词模块,用于对接收的词条信息进行切词以获取关键词;抓取模块,用于根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇;添加内链模块,用于对待添加内链的词汇自动添加内链。
本发明提供的自动添加内链的系统的一个实施例中,抓取模块进一步包括相关词条内链子模块,用于如果词条信息设置有相关词条信息,且词条正文中获取的关键词提及相关词条信息的词条名,则关键词为待添加内链的词汇,以便随后在词条名出现的正文位置,增加词汇的内链。
本发明提供的自动添加内链的系统的一个实施例中,抓取模块进一步包括互链词内链子模块,用于如果在第一词条信息的正文中获取的关键词中,出现了第二词条信息的词条名,且第二词条信息的正文中所获取的关键词同样出现第一词条信息的词条名时,确认第一词条信息和第二词条信息之间存在较高关联性,则第一词条信息和第二词条信息互为待添加内链的互链词汇,以便随后在词条名出现的正文位置,增加词汇的内链。
本发明提供的自动添加内链的系统的一个实施例中,该系统还包括过滤模块,用于在互链词内链子模块确定待添加内链的互链词汇后,对互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。
本发明提供的自动添加内链的系统的一个实施例中,添加内链模块进一步用于使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
本发明提供的自动添加内链的方法及系统,通过对现有百科词条,进行系统抓取和关联性分析,自动添加内链,在短时间内大幅度提高百科词条的内链量和准确率。并在以下三方面都获得良好的技术效果:对浏览用户而言,无需花费大量的时间和经历去检索查找相关疑难术语,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省了为相关词条添加内链所花费的人力成本,同时避免了人工添加内链的主观随意性,提高了内链的针对性和有效性;对管理团队而言,极大地降低了对增加内链的编辑版本进行人工审核所花费的成本。
附图说明
图1示出本发明实施例提供的一种自动添加内链的方法的流程图;
图2示出本发明提供的自动添加内链的方法的另一个实施例的流程图;
图3示出本发明提供的自动添加内链的方法的另一个实施例的流程图;
图4示出本发明提供的自动添加内链的方法的另一个实施例的流程图;
图5示出本发明实施例提供的一种自动添加内链的系统的结构示意图;
图6示出本发明提供的自动添加内链的系统的另一个实施例的结构示意图;
图7示出本发明提供的自动添加内链的系统的另一个实施例的结构示意图;
图8示出本发明提供的自动添加内链的系统的另一个实施例的结构示意图;
图9示出本发明提供的自动添加内链的系统的一个具体实施方的结构示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
图1示出本发明实施例提供的一种自动添加内链的方法的流程图。
如图1所示,自动添加内链的方法流程100包括步骤102,对接收的词条信息进行切词以获取关键词。例如,用户完成对某词条信息的创建、编辑后,将该此修改的版本进行提交上传,新生成版本审核通过后,系统可根据现有的切词方法对该版本的词条信息(包括该词条信息的词条名和正文部分)进行切词,从而获取具有实际意义的实体词等构成的关键词;如古典小说“红楼梦”的词条内,正文中关于新版电影的拍摄主角人选中林黛玉扮演者“蒋梦婕”的描述中,可以通过切词的方式获取关键词“蒋梦婕”。
步骤104,根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇。例如,对于切词所获取的实体词等构成的关键词,根据预先设置的抓取策略,选取符合抓取条件的关键词作为待添加内链的词汇,如前述的林黛玉扮演者“蒋梦婕”,当人们在阅读词条“红楼梦”时,对关键词“蒋梦婕”生平、特质等均不了解,希望获取进一步阅读的扩展知识,因此,符合预先设置的条件,将被抓取归为待添加内链的词汇。稍后的其它实施例还将对抓取策略作进一步的简要介绍。
步骤106,对待添加内链的词汇自动添加内链。例如,对前述所抓取的待添加内链的词汇,采用系统自动导入内链的方式;具体来说,可以使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
本发明提供的自动添加内链的一个实施例中,可以在夜间对用户编辑上传的词条版本停止审核阶段,对待添加内链的词汇自动添加内链。进一步地,新生成版本通过自动审核,进入词条已审核区;另备数据接口,便于后续线上局部调整增删互链词。
本发明提供的自动添加内链的方法一个实施例中,在完成自动添加内链后,可以通过质量评审标准,进一步验证内链的有效性,从而完善自动添加内链的处理机制。
具体来说,可以引入内链覆盖面评审方法;例如,在按照前述方法完成自动添加内链操作后,统计自动内链所覆盖的现有词条总数以及对百科词条的覆盖率;具体操作时可以分别选取上线前日均PV达到10万以上、1万~10万、1万以下的词条分别进行内链所覆盖的词条总数统计及其覆盖率的统计等。还可以引入内链收益评审方法,例如,上线前后被覆盖词条的7日PV量对比,被覆盖词条内链点击率对比等。以上分析方法如果在全系统层面进行统计存在困难时,可以分领域进行比较,甚至可按被覆盖词条PV分档(10万以上、1万~10万、1万以下)分别进行随机抽样统计,评估自动添加内链的效果。
本发明提供的自动添加内链的方法,通过编审收益测算,能够估算采用自动添加内链,通过降低人力成本所带来的收益;具体来说,统计正常情况下(非活动期间),编辑原因包含“内链”关键字的编辑版本中,在7日内每个版本内链增量均值。按此均值以及自动内链添加总量,折算人工添加达到同样效果所需要的编辑版本数。再按折算版本数与审核平均时间(5~12秒)乘积,就能够估算审核人力成本缩减收益。统计结果显示,采用本发明提供的自动添加内链的方法,能够极大地提高添加内链的效率,降低人工添加内链的主观随意性,保证添加内链的有效性,同时降低人工审核自动添加内链是否恰当所付出的审核成本。
本发明提供的自动添加内链的方法,通过系统自动抓取策略并添加内链,减少人工投入,在丰富百科词条内链的同时,也避免了盲目添加内链所造成的内链缺乏有效针对性,从而占用并浪费系统资源的问题。
图2示出本发明提供的自动添加内链的方法的另一个实施例的流程图。
如图2所示,自动添加内链的方法流程200包括:步骤202、204和206,其中步骤202可以执行与图1所示的步骤102相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图2所示,在步骤202后,依次执行步骤204和206;其中,步骤204,如果词条信息设置有相关词条信息、且词条正文中获取的关键词提及相关词条信息的词条名,则抓取关键词为待添加内链的词汇。例如,在“中华美食”的词条信息中,可以设置“川菜大全”、“粤菜大全”等相关词条信息,在“川菜大全”的词条信息中,又可以设置“水煮鱼”、“夫妻肺片”等相关词条信息;当词条“中华美食”的正文中提及“川菜大全”这一词条名时,可以自动认定“中华美食”词条信息中的关键词“川菜大全”即为待添加内链的词汇;同样的,关键词“水煮鱼”、“夫妻肺片”为词条信息“川菜大全”中待添加内链的词汇。
步骤206,在词条名出现的正文位置,对待添加内链的词汇自动添加内链。例如,根据前述举例分析可知,在词条信息名“中华美食”的正文中,所述词条名“川菜大全”出现的位置,对该“川菜大全”词汇添加内链。当用户在阅读“中华美食”词条信息看到关键词汇“川菜大全”时,想要了解川菜时,通过点击该词汇的内链即可进入“川菜大全”所对应的词条信息,从而满足用户扩展阅读的需要。
本发明提供的自动添加内链的方法,对现有百科词条,进行系统抓取和关联性分析,自动添加内链,在短时间内大幅度提高百科词条的内链量和准确率,对浏览用户而言,提高延伸阅读体验,降低搜索成本。
图3示出本发明提供的自动添加内链的方法的另一个实施例的流程图。
如图3所示,自动添加内链的方法流程300包括:步骤302、304和306,其中步骤302可以执行与图1所示的步骤102相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图3所示,在步骤302后,依次执行步骤304和306;其中,步骤304,如果在第一词条信息的正文中获取的关键词中,出现了第二词条信息的词条名、且第二词条信息的正文中所获取的关键词同样出现第一词条信息的词条名时,确认第一词条信息和第二词条信息之间存在较高关联性,则抓取第一词条信息和第二词条信息作为待添加内链的互链词汇。例如,对于介绍“TDS-CDMA”的词条信息,其正文中会提及“WCDMA”和“CDMA2000”,同样的,在介绍“WCDMA”或“CDMA2000”的词条信息的正文中会提及另外两种CDMA技术标准;因此,词条信息“TDS-CDMA”、“WCDMA”和“CDMA2000”之间存在较大的关联性,互相为对方的“互链词汇”。同样的,对于当前兴起的电子书阅读器,在“汉王电纸书”的词条信息的正文中会提及苹果公司的“ipad”和亚马逊公司的电纸书“Kindle”,在“ipad”和“Kindle”的词条信息的正文中会提及其它两种电子书阅读器;因此,词条信息“汉王电纸书”、“ipad”和“Kindle”之间存在较大的关联性,互相为对方的“互链词汇”。基于此种高频率的关联程度,系统抓取所述词汇作为待添加内链的对象。
步骤306,在词条名出现的正文位置,对待添加内链的词汇自动添加内链。例如,根据前述举例分析可知,以电子书阅读器为例,在词条信息名“汉王电纸书”的正文中,所述词条名“ipad”出现的位置,对该“ipad”词汇添加内链。当用户在阅读“汉王电纸书”词条信息看到关键词汇“ipad”时,想要了解苹果公司的该款电子书阅读器时,通过点击该词汇的内链即可进入“ipad”所对应的词条信息,从而满足用户扩展阅读的需要。同样的,对于词条信息“ipad”正文中的“汉王电纸书”作同样的内链处理。
本发明提供的自动添加内链的方法的一个实施例中,在步骤302后,步骤304之前,还可以执行相关词条内链抓取步骤,即如果词条信息设置有相关词条信息,且词条正文中获取的关键词提及相关词条信息的词条名,则抓取关键词为待添加内链的词汇,以便随后在词条名出现的正文位置,增加词汇的内链。
本发明提供的自动添加内链的方法,通过对词条信息进行系统抓取和关联性分析,自动添加内链,在短时间内大幅度提高百科词条的内链量和准确率。所述方法对浏览用户而言,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省对应词条内链的增添操作所花费的时间。
图4示出本发明提供的自动添加内链的方法的另一个实施例的流程图。
如图4所示,自动添加内链的方法流程400包括:步骤402、404、405和406,其中步骤402、404可以执行与图3所示的步骤302、304相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图4所示,在步骤404后,依次执行步骤405和406;其中,步骤405,对互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。例如,对前述步骤404所确定的互链词汇,如电子书阅读器主题的词条信息中,“汉王电纸书”、“ipad”和“Kindle”互为“互链词汇”,在词条信息“汉王电纸书”的正文中,系统抓取所述“ipad”和“Kindle”词汇作为待添加内链的对象。但是并非所有的出现在词条信息“汉王电纸书”正文中的词汇“ipad”和“Kindle”都需要被添加内链,为避免重复添加内链等问题,需要对抓取的互链词汇进行筛选;具体来说,当所抓取的互链词汇并非在该词条信息正文首次出现的位置时,不再添加内链,如“汉王电纸书”词条信息正文中除首次出现的“ipad”被保留待添加内链,其它在后出现的“ipad”均可以被过滤掉;当互链词与词条名存在同义词关系时,如在“汉王电纸书”词条信息正文中互链词汇“ipad”和“苹果电子书阅读器”属于同义指代的关系,如果对“苹果电子书阅读器”作为在前需要添加内链的词汇,那么在后的“ipad”可以被过滤掉;当互链词汇比邻,形成长词汇词组,且长词汇与现有另一互链词汇的名称完全匹配时,过滤较短互链词汇;如存在互链词汇“苹果”公司和“电子书阅读器”,而且所述两个互链词汇比邻形成长词汇词组“苹果电子书阅读器”,如果该长词汇词组恰巧是另一互链词汇,则此时以该长词汇词组为待添加内链的互链词汇,而过滤掉两个较短互链词汇;当两个或以上互链词交接切词,彼此含有相同词素,过滤掉该互链词汇,如互链词汇“苹果电子书阅读器”和“苹果ipad”切词后都含有相同词素“苹果”,“电子书阅读器”和“ipad”属于同义词素;此外,对于由纯数字、特殊符号(包括百科编辑器中所有特殊符号列表中的内容,如拼音、罗马字符、日文片假名)等构成的互链词汇,其本身并不具备扩展阅读的需要,因此可以对此类互链词汇进行筛选过滤掉;同样的,对于互链词汇具备时间表述特征,如X年、X月X日等构成的互链词汇(X包括中文繁/简体数字、全/半角阿拉伯数字),其本身并不具备扩展阅读的需要,因此可以对此类互链词汇进行筛选过滤掉。
步骤406,在词条名出现的正文位置,对筛选后的待添加内链的词汇自动添加内链。例如,根据前述举例分析可知,在词条信息名“汉王电纸书”的正文中,所述词条名“ipad”出现的位置,对该“ipad”词汇添加内链。当用户在阅读“汉王电纸书”词条信息看到关键词汇“ipad”时,想要了解苹果公司的该款电子书阅读器时,通过点击该词汇的内链即可进入“ipad”所对应的词条信息,从而满足用户扩展阅读的需要。同样的,对于词条信息“ipad”正文中的“汉王电纸书”作同样的内链处理。
本发明提供的自动添加内链的方法的一个实施例中,对于抓取的互链词汇属于前接成分、后接成分、拟声词、介词、连词、叹词、助词、标点符号、非语素字、语气词、语素、量词、代词、形容词、形语素、副词、副语素、名形词、方位、处所、数词、时语素、动词、动语素、副动词、名动词、状态词、名语素、区别词等情形时,执行互链词汇筛选过滤处理,不作后续的自动添加内链处理。
本发明提供的自动添加内链的方法的一个实施例中,对待添加内链的词汇自动添加内链进一步包括:使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
本发明提供的自动添加内链的方法,通过对词条信息进行系统抓取和关联性分析,自动添加内链,在短时间内大幅度提高百科词条的内链量和准确率。所述方法对浏览用户而言,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省对应词条内链的增添操作所花费的时间;对管理团队而言,降低增加内链的简单编辑版本审核成本。
图5示出本发明实施例提供的一种自动添加内链的系统的结构示意图。
如图5所示,一种自动添加内链的系统500包括:切词模块502,抓取模块504和添加内链模块506。其中
切词模块502,用于对接收的词条信息进行切词以获取关键词。例如,当用户完成对某词条信息的创建、编辑后,将该此修改的版本进行提交上传,新生成版本审核通过后,系统中的切词模块502可根据现有的切词方法对该版本的词条信息(包括该词条信息的词条名和正文部分)进行切词,从而获取具有实际意义的实体词等构成的关键词;如古典小说“红楼梦”的词条内,正文中关于新版电影的拍摄主角人选中林黛玉扮演者“蒋梦婕”的描述中,可以通过切词模块502获取关键词“蒋梦婕”。
抓取模块504,用于根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇。例如,对于切词模块502所获取的实体词等构成的关键词,根据预先设置的抓取策略,由抓取模块504选取符合抓取条件的关键词作为待添加内链的词汇,如前述的林黛玉扮演者“蒋梦婕”,当人们在阅读词条“红楼梦”时,对关键词“蒋梦婕”生平、特质等均不了解,希望获取进一步阅读的扩展知识,因此,符合预先设置的条件,将被抓取归为待添加内链的词汇。
添加内链模块506,用于对待添加内链的词汇自动添加内链。例如,对前述抓取模块504所抓取的待添加内链的词汇,由添加内链模块506自动导入内链;具体来说,其可以使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
本发明提供的自动添加内链的系统,通过抓取模块自动抓取待添加内链的关键词汇并由添加内链模块添加内链,减少人工投入,在丰富百科词条内链的同时,也避免了盲目添加内链所造成的内链缺乏有效针对性,从而占用并浪费系统资源的问题。
图6示出本发明提供的自动添加内链的系统的另一个实施例的结构示意图。
如图6所示,一种自动添加内链的系统600包括:切词模块602,抓取模块604和添加内链模块606。其中切词模块602和添加内链模块606可以是与图5所示切词模块502和添加内链模块506具有相同或相似的功能模块。为简洁起见,这里不再赘述。
如图6所示,抓取模块604进一步包括相关词条内链子模块6042,用于如果词条信息设置有相关词条信息,且词条正文中获取的关键词提及相关词条信息的词条名,则关键词为待添加内链的词汇,以便随后在词条名出现的正文位置,增加词汇的内链。例如,在“中华美食”的词条信息中,可以设置“川菜大全”、“粤菜大全”等相关词条信息,在“川菜大全”的词条信息中,又可以设置“水煮鱼”、“夫妻肺片”等相关词条信息;当词条“中华美食”的正文中提及“川菜大全”这一词条名时,可以自动认定“中华美食”词条信息中的关键词“川菜大全”即为待添加内链的词汇;同样的,关键词“水煮鱼”、“夫妻肺片”为词条信息“川菜大全”中待添加内链的词汇。
图7示出本发明提供的自动添加内链的系统的另一个实施例的结构示意图。
如图7所示,一种自动添加内链的系统700包括:切词模块702,抓取模块704和添加内链模块707。其中切词模块702和添加内链模块707可以是与图5所示切词模块502和添加内链模块507具有相同或相似的功能模块。为简洁起见,这里不再赘述。
如图7所示,抓取模块704进一步包括互链词内链子模块7042,用于如果在第一词条信息的正文中获取的关键词中,出现了第二词条信息的词条名,且第二词条信息的正文中所获取的关键词同样出现第一词条信息的词条名时,确认第一词条信息和第二词条信息之间存在较高关联性,则第一词条信息和第二词条信息互为待添加内链的互链词汇,以便随后在词条名出现的正文位置,增加词汇的内链。例如,对于当前兴起的电子书阅读器,在“汉王电纸书”的词条信息的正文中会提及苹果公司的“ipad”和亚马逊公司的电纸书“Kindle”,在“ipad”和“Kindle”的词条信息的正文中会提及其它两种电子书阅读器;因此,词条信息“汉王电纸书”、“ipad”和“Kindle”之间存在较大的关联性,互相为对方的“互链词汇”。基于此种高频率的关联程度,系统抓取所述词汇作为待添加内链的对象。
图8示出本发明提供的自动添加内链的系统的另一个实施例的结构示意图。
如图8所示,一种自动添加内链的系统800包括:切词模块802,抓取模块804、过滤模块805和添加内链模块806。其中切词模块802,抓取模块804和添加内链模块806可以是与图5所示切词模块502,抓取模块504和添加内链模块506具有相同或相似的功能模块。为简洁起见,这里不再赘述。
如图8所示,自动添加内链的系统800还包括过滤模块805,用于在互链词内链子模块确定待添加内链的互链词汇后,对互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。例如,对前述抓取模块804所确定的互链词汇,如电子书阅读器主题的词条信息中,“汉王电纸书”、“ipad”和“Kindle”互为“互链词汇”,在词条信息“汉王电纸书”的正文中,系统抓取所述“ipad”和“Kindle”词汇作为待添加内链的对象。但是并非所有的出现在词条信息“汉王电纸书”正文中的词汇“ipad”和“Kindle”都需要被添加内链,为避免重复添加内链等问题,需要对抓取的互链词汇进行筛选;具体来说,当所抓取的互链词汇并非在该词条信息正文首次出现的位置时,不再添加内链,如“汉王电纸书”词条信息正文中除首次出现的“ipad”被保留待添加内链,其它在后出现的“ipad”均可以被过滤掉;当互链词与词条名存在同义词关系时,如在“汉王电纸书”词条信息正文中互链词汇“ipad”和“苹果电子书阅读器”属于同义指代的关系,如果对“苹果电子书阅读器”作为在前需要添加内链的词汇,那么在后的“ipad”可以被过滤掉;当互链词汇比邻,形成长词汇词组,且长词汇与现有另一互链词汇的名称完全匹配时,过滤较短互链词汇;如存在互链词汇“苹果”公司和“电子书阅读器”,而且所述两个互链词汇比邻形成长词汇词组“苹果电子书阅读器”,如果该长词汇词组恰巧是另一互链词汇,则此时以该长词汇词组为待添加内链的互链词汇,而过滤掉两个较短互链词汇;当两个或以上互链词交接切词,彼此含有相同词素,过滤掉该互链词汇,如互链词汇“苹果电子书阅读器”和“苹果ipad”切词后都含有相同词素“苹果”,“电子书阅读器”和“ipad”属于同义词素;此外,对于由纯数字、特殊符号(包括百科编辑器中所有特殊符号列表中的内容,如拼音、罗马字符、日文片假名)等构成的互链词汇,其本身并不具备扩展阅读的需要,因此可以对此类互链词汇进行筛选过滤掉;同样的,对于互链词汇具备时间表述特征,如X年、X月X日等构成的互链词汇(X包括中文繁/简体数字、全/半角阿拉伯数字),其本身并不具备扩展阅读的需要,因此可以对此类互链词汇进行筛选过滤掉。
图9示出本发明提供的自动添加内链的系统的一个具体实施方的结构示意图。
如图9所示,一种自动添加内链的系统900包括:切词模块902,抓取模块904、过滤模块905和添加内链模块906;其中,所述抓取模块904进一步包括相关词条内链子模块9042和互链词内链子模块9044。
切词模块902,用于对接收的词条信息进行切词以获取关键词。例如,当用户完成对某词条信息的创建、编辑后,将该此修改的版本进行提交上传,新生成版本审核通过后,系统中的切词模块902可根据现有的切词方法对该版本的词条信息(包括该词条信息的词条名和正文部分)进行切词,从而获取具有实际意义的实体词等构成的关键词;如古典小说“红楼梦”的词条内,正文中关于新版电影的拍摄主角人选中林黛玉扮演者“蒋梦婕”的描述中,可以通过切词模块902获取关键词“蒋梦婕”。
相关词条内链子模块9042,用于如果词条信息设置有相关词条信息,且词条正文中获取的关键词提及相关词条信息的词条名,则关键词为待添加内链的词汇,以便随后在词条名出现的正文位置,增加词汇的内链。
互链词内链子模块9044,用于如果在第一词条信息的正文中获取的关键词中,出现了第二词条信息的词条名,且第二词条信息的正文中所获取的关键词同样出现第一词条信息的词条名时,确认第一词条信息和第二词条信息之间存在较高关联性,则第一词条信息和第二词条信息互为待添加内链的互链词汇,以便随后在词条名出现的正文位置,增加词汇的内链。
过滤模块905,用于在互链词内链子模块确定待添加内链的互链词汇后,对互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。
添加内链模块906,用于使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
本发明提供的自动添加内链的系统,通过相关词条内链子模块和互链词内链子模块对词条信息进行系统抓取和关联性分析,由添加内链模块自动添加内链,在短时间内大幅度提高百科词条的内链量和准确率。所述方法对浏览用户而言,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省对应词条内链的增添操作所花费的时间;对管理团队而言,降低增加内链的简单编辑版本审核成本。
参考前述本发明示例性的描述,本领域技术人员可以清楚的知晓本发明提供的自动添加内链的方法及系统所具有的前述优点,本发明通过分析调研,找出合适的内链逻辑,通过系统自动添加策略,减少人工投入,在一定程度上丰富百科词条的内链的同时,大幅度提高百科词条的内链量和准确率。对浏览用户而言,无需花费大量的时间和经历去检索查找相关疑难术语,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省了为相关词条添加内链所花费的人力成本,同时避免了人工添加内链的主观随意性,提高了内链的针对性和有效性;对管理团队而言,极大地降低了对增加内链的编辑版本进行人工审核所花费的成本。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种自动添加内链的方法,其特征在于,所述方法包括:
对接收的词条信息进行切词以获取关键词;
根据预先设置的抓取策略,从所述关键词中抓取待添加内链的词汇;
对所述待添加内链的词汇自动添加内链。
2.根据权利要求1所述的方法,其特征在于,所述根据预先设置的抓取策略,从所述关键词中抓取待添加内链的词汇的步骤进一步包括:
如果所述词条信息设置有相关词条信息,且所述词条正文中获取的关键词提及所述相关词条信息的词条名,则抓取所述关键词作为待添加内链的词汇,以便随后在所述词条名出现的正文位置,增加所述词汇的内链。
3.根据权利要求1所述的方法,其特征在于,所述根据预先设置的抓取策略,从所述关键词中抓取待添加内链的词汇的步骤进一步包括:
如果在第一词条信息的正文中获取的所述关键词中,出现了第二词条信息的词条名,且所述第二词条信息的正文中所获取的关键词同样出现所述第一词条信息的词条名时,确认所述第一词条信息和所述第二词条信息之间存在较高关联性,则抓取所述第一词条信息和所述第二词条信息作为待添加内链的互链词汇,以便随后在所述词条名出现的正文位置,增加所述词汇的内链。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在确定待添加内链的互链词汇后,对所述互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。
5.根据权利要求1所述的方法,其特征在于,所述对所述待添加内链的词汇自动添加内链进一步包括:使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
6.一种自动添加内链的系统,其特征在于,所述系统包括:
切词模块,用于对接收的词条信息进行切词以获取关键词;
抓取模块,用于根据预先设置的抓取策略,从所述关键词中抓取待添加内链的词汇;
添加内链模块,用于对所述待添加内链的词汇自动添加内链。
7.根据权利要求6所述的系统,其特征在于,所述抓取模块进一步包括相关词条内链子模块,用于如果所述词条信息设置有相关词条信息,且所述词条正文中获取的关键词提及所述相关词条信息的词条名,则抓取所述关键词作为待添加内链的词汇,以便随后在所述词条名出现的正文位置,增加所述词汇的内链。
8.根据权利要求6所述的系统,其特征在于,所述抓取模块进一步包括互链词内链子模块,用于如果在第一词条信息的正文中获取的所述关键词中,出现了第二词条信息的词条名,且所述第二词条信息的正文中所获取的关键词同样出现所述第一词条信息的词条名时,确认所述第一词条信息和所述第二词条信息之间存在较高关联性,则抓取所述第一词条信息和所述第二词条信息作为待添加内链的互链词汇,以便随后在所述词条名出现的正文位置,增加所述词汇的内链。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括过滤模块,用于在所述互链词内链子模块确定待添加内链的互链词汇后,对所述互链词汇进行筛选,以过滤不作自动添加内链处理的互链词汇。
10.根据权利要求6所述的系统,其特征在于,所述添加内链模块进一步用于使用“百科机器人”作为系统的编辑ID,使用“添加内链”作为编辑原因,分批进行内链导入添加。
CN2010102221477A 2010-06-30 2010-06-30 自动添加内链的方法及系统 Pending CN102314454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102221477A CN102314454A (zh) 2010-06-30 2010-06-30 自动添加内链的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102221477A CN102314454A (zh) 2010-06-30 2010-06-30 自动添加内链的方法及系统

Publications (1)

Publication Number Publication Date
CN102314454A true CN102314454A (zh) 2012-01-11

Family

ID=45427632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102221477A Pending CN102314454A (zh) 2010-06-30 2010-06-30 自动添加内链的方法及系统

Country Status (1)

Country Link
CN (1) CN102314454A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156359A (zh) * 2013-05-13 2014-11-19 腾讯科技(深圳)有限公司 内链信息推荐方法及装置
CN106250411A (zh) * 2016-07-22 2016-12-21 广西防城港核电有限公司 一种基于微软SharePoint平台的智能内链实现方法
CN106528861A (zh) * 2016-11-30 2017-03-22 福建中金在线信息科技有限公司 一种添加内链的方法及装置
CN106776937A (zh) * 2016-12-01 2017-05-31 腾讯科技(深圳)有限公司 一种确定内链关键词的方法和装置
CN110647637A (zh) * 2019-09-25 2020-01-03 掌阅科技股份有限公司 基于电子书的关联内容展示方法及电子设备
CN110716991A (zh) * 2019-10-11 2020-01-21 掌阅科技股份有限公司 基于电子书的实体关联信息的展示方法及电子设备
CN110717066A (zh) * 2019-10-11 2020-01-21 掌阅科技股份有限公司 基于有声电子书的智能搜索方法及电子设备
CN115438145A (zh) * 2022-04-13 2022-12-06 盐城金堤科技有限公司 企业详情内链的添加方法及装置
WO2023174101A1 (zh) * 2022-03-18 2023-09-21 北京字节跳动网络技术有限公司 一种文本编辑方法、装置、电子设备和存储介质
CN115438145B (zh) * 2022-04-13 2024-05-14 盐城天眼察微科技有限公司 企业详情内链的添加方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050172296A1 (en) * 2004-02-04 2005-08-04 Microsoft Corporation Cross-pollination of multiple sync sources
CN1801142A (zh) * 2004-12-31 2006-07-12 北京联动在线通讯科技有限公司 对屏幕显示的特定匹配词语实现快速链接的方法
CN1845545A (zh) * 2006-03-14 2006-10-11 武汉大学 直接共享私密通讯信息的方法
CN101079894A (zh) * 2006-12-21 2007-11-28 腾讯科技(深圳)有限公司 一种推送网络信息的系统及方法
CN101615193A (zh) * 2009-07-07 2009-12-30 北京大学 一种基于百科数据提取集成的查询系统
CN101667187A (zh) * 2009-09-23 2010-03-10 南京邮电大学 一种基于对等计算技术的复合知识云方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050172296A1 (en) * 2004-02-04 2005-08-04 Microsoft Corporation Cross-pollination of multiple sync sources
CN1801142A (zh) * 2004-12-31 2006-07-12 北京联动在线通讯科技有限公司 对屏幕显示的特定匹配词语实现快速链接的方法
CN1845545A (zh) * 2006-03-14 2006-10-11 武汉大学 直接共享私密通讯信息的方法
CN101079894A (zh) * 2006-12-21 2007-11-28 腾讯科技(深圳)有限公司 一种推送网络信息的系统及方法
CN101615193A (zh) * 2009-07-07 2009-12-30 北京大学 一种基于百科数据提取集成的查询系统
CN101667187A (zh) * 2009-09-23 2010-03-10 南京邮电大学 一种基于对等计算技术的复合知识云方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余旸 等: "开放内容中的知识发现——基于WIKIPEDIA链接分析", 《情报杂志》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156359B (zh) * 2013-05-13 2018-10-30 腾讯科技(深圳)有限公司 内链信息推荐方法及装置
CN104156359A (zh) * 2013-05-13 2014-11-19 腾讯科技(深圳)有限公司 内链信息推荐方法及装置
CN106250411A (zh) * 2016-07-22 2016-12-21 广西防城港核电有限公司 一种基于微软SharePoint平台的智能内链实现方法
CN106528861A (zh) * 2016-11-30 2017-03-22 福建中金在线信息科技有限公司 一种添加内链的方法及装置
CN106776937B (zh) * 2016-12-01 2020-09-29 腾讯科技(深圳)有限公司 一种确定内链关键词的方法和装置
CN106776937A (zh) * 2016-12-01 2017-05-31 腾讯科技(深圳)有限公司 一种确定内链关键词的方法和装置
CN110647637A (zh) * 2019-09-25 2020-01-03 掌阅科技股份有限公司 基于电子书的关联内容展示方法及电子设备
CN110647637B (zh) * 2019-09-25 2020-10-30 掌阅科技股份有限公司 基于电子书的关联内容展示方法及电子设备
CN110716991A (zh) * 2019-10-11 2020-01-21 掌阅科技股份有限公司 基于电子书的实体关联信息的展示方法及电子设备
CN110716991B (zh) * 2019-10-11 2020-10-27 掌阅科技股份有限公司 基于电子书的实体关联信息的展示方法及电子设备
CN110717066A (zh) * 2019-10-11 2020-01-21 掌阅科技股份有限公司 基于有声电子书的智能搜索方法及电子设备
WO2021068932A1 (zh) * 2019-10-11 2021-04-15 掌阅科技股份有限公司 基于电子书的实体关联信息的展示方法及电子设备
WO2023174101A1 (zh) * 2022-03-18 2023-09-21 北京字节跳动网络技术有限公司 一种文本编辑方法、装置、电子设备和存储介质
CN115438145A (zh) * 2022-04-13 2022-12-06 盐城金堤科技有限公司 企业详情内链的添加方法及装置
CN115438145B (zh) * 2022-04-13 2024-05-14 盐城天眼察微科技有限公司 企业详情内链的添加方法及装置

Similar Documents

Publication Publication Date Title
CN102314454A (zh) 自动添加内链的方法及系统
CN105843795A (zh) 基于主题模型的文档关键词抽取方法及其系统
CN103514213B (zh) 词语提取方法及装置
McIntosh et al. Evaluating the church growth movement: 5 views
Kallimani et al. Information extraction by an abstractive text summarization for an Indian regional language
CN104063382B (zh) 面向油气管道领域的多策略融合的标准术语处理方法
Kishore et al. Document Summarization in Malayalam with sentence framing
Mitchell Origen and the Text-Critical Dilemma: An Illustration from One of His Newly Discovered Greek Homilies on the Psalms
Travers et al. RSS feeds behavior analysis, structure and vocabulary
Jadeja et al. Comparative Analysis of Transformer Models on WikiHow Dataset
Xu et al. Dependency parsing based Chinese open relation extraction
Topcuoglu et al. Heavy metal concentrations in marine algae from the Turkish Coast of the, Black Sea, during 1979-2001
Quarles Meta Tēn Egersin Autou
Huang et al. TREC 2018 News Track.
Liu et al. Automatic searching of tables in digital libraries
Song A Narrative Inquiry of the Corporate Governance Model of Shanghai Rural Revitalization: A Case Study of Cloud City Company
Xu et al. Full-Text Search Engine Technology Research Based on Lucene
Soko A mounting East-West tension: Buddhist-Christian dialogue on human rights, social justice & a global ethic
Rafiei Asl et al. GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction
Marquard et al. Focused Crawling for Automated IsiXhosa Corpus Building
Smith Selderhuis, Herman J., ed. Psalms 1-72.
Ferguson SEPARATING SPEAKING IN TONGUES FROM GLOSSOLALIA USING A SACRAMENTAL VIEW.
Jia et al. Research on Portrait of Online Public Opinion Subject Based on Big Data of Public Opinion—A Case Study of Notre Dame
Ernest Homeostasis
Kinunda Listening to rural voices in Tanzania: the Zacchaeus episode, Luke 19: 1-10

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120111