CN106528861A - 一种添加内链的方法及装置 - Google Patents

一种添加内链的方法及装置 Download PDF

Info

Publication number
CN106528861A
CN106528861A CN201611085119.9A CN201611085119A CN106528861A CN 106528861 A CN106528861 A CN 106528861A CN 201611085119 A CN201611085119 A CN 201611085119A CN 106528861 A CN106528861 A CN 106528861A
Authority
CN
China
Prior art keywords
key word
document
chain
weights
addition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611085119.9A
Other languages
English (en)
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Cnfol Information Technology Co Ltd
Original Assignee
Fujian Cnfol Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Cnfol Information Technology Co Ltd filed Critical Fujian Cnfol Information Technology Co Ltd
Priority to CN201611085119.9A priority Critical patent/CN106528861A/zh
Publication of CN106528861A publication Critical patent/CN106528861A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种添加内链的方法及装置,该方法包括:获取待更新至文档数据库的第一文档,使用关键词库中的关键词对第一文档进行关键词分析,得到至少一个关键词;统计至少一个关键词在第一文档中出现的次数,计算至少一个关键词在第一文档中的权值,并根据权值由大到小的顺序生成关键词列表;根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,对至少一个关键词和与至少一个关键词对应的第二文档添加内链,得到添加内链后的第一文档;将添加内链后的第一文档与关键词列表更新至文档数据库中。通过本发明实施例,能够实现在自动添加内链时,降低服务器处理难度,提高服务器处理速度。

Description

一种添加内链的方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种添加内链的方法及装置。
背景技术
随着互联网的广泛应用,互联网信息的增长呈现爆炸式增长,各种各样的信息可以通过互联网快速传播,例如:有关经济的、政治的、娱乐的、教育的、生活的、科技的信息,而互联网的应用,可以使人们轻易地获取到这些信息,人们在获取这些信息的时候,除了采用主动查找的方式获取想要的信息外,还可以通过被动推荐的方式获取这些信息。
目前,针对被动推荐的方式,较为普遍采用的方法是:通过对网页文本中出现的关键词给予一个指向另一个网页的链接;用户在阅读网页文本时,若对该关键词感兴趣,可以通过点击该关键词,获取与该关键词有关的内容,而不待采用主动查找方式寻找感兴趣的内容。这种位于同一个网站下的一个网页文本与一个关键词之间的链接,也被成为内链。
但是,现有的设置内链的方式主要包括由人工添加和由系统自动添加。对于人工添加的方式,由于其添加内链是凭借自身的知识能力/经验来决定如何添加内链的,主观任意性较强,造成内链遗漏和内链闲置等问题,而且人工添加的方式,待耗费大量的人力物力,且人工添加的方式效率低下。对于系统自动添加的方式,首先对待添加内链的文档进行分词处理,获取待添加内链的文档关键词,再对关键词添加内链,分词处理使得服务器处理速度降低,增加了处理复杂度。
发明内容
本发明实施例的目的在于提供一种添加内链的方法及装置,以实现在将文档更新至文档数据库时,通过关键词库统计待添加内链的文档的关键词,实现自动添加内链,降低服务器处理难度,提高服务器处理速度。具体技术方案如下:
第一方面,本发明实施例提供了一种添加内链的方法,包括:
获取待更新至文档数据库的第一文档,使用关键词库中的关键词对第一文档进行关键词分析,得到至少一个关键词;
统计至少一个关键词在第一文档中出现的次数,计算至少一个关键词在第一文档中的权值,并根据权值由大到小的顺序生成关键词列表,其中,权值用于表示至少一个关键词在第一文档中所占的比例;
根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,对至少一个关键词和与至少一个关键词对应的第二文档添加内链,得到添加内链后的第一文档,其中,至少一个关键词与第二文档一一对应;
将添加内链后的第一文档与关键词列表更新至文档数据库中。
可选的,所述根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,包括:
根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的多个文档;
获取至少一个关键词在对应的多个文档的每个文档中的权值,并选择与至少一个关键词对应的关键词权值最高的第二文档。
可选的,在所述根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的多个文档之后,本发明实施例的添加内链的方法还包括:
获取至少一个关键词在对应的多个文档的每个文档的权值,并判断权值是否大于或等于预设阈值;
在权值大于或等于预设阈值时,将与至少一个关键词对应的多个文档按权值由大到小的顺序进行排序,并生成与至少一个关键词对应的文档列表。
可选的,在所述根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,对至少一个关键词和与至少一个关键词对应的第二文档添加内链,得到添加内链后的第一文档之后,本发明实施例的添加内链的方法还包括:
对至少一个关键词添加标识,以与第一文档中的其他文字进行区分。
可选的,本发明实施例的添加内链的方法还包括:
在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档,并返回给第一客户端。
可选的,本发明实施例的添加内链的方法还包括:
在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档和与至少一个关键词对应的文档列表在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档及文档列表中包含的文档,并返回给所述第一客户端。
另一方面,本发明实施例还提供了一种添加内链的装置,包括:
关键词分析模块,用于获取待更新至文档数据库的第一文档,通过关键词库中的关键词对第一文档进行关键词分析,得到至少一个关键词;
权值计算模块,用于统计至少一个关键词在第一文档中出现的次数,计算至少一个关键词在第一文档中的权值,并根据权值由大到小的顺序生成关键词列表,其中,权值用于表示至少一个关键词在第一文档中所占的比例;
内链添加模块,用于根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,对至少一个关键词和与至少一个关键词对应的第二文档添加内链,得到添加内链后的第一文档,其中至少一个关键词与第二文档一一对应;
更新模块,用于将添加内链后的第一文档与关键词列表更新至文档数据库中。
可选的,本发明实施例的内链添加模块包括:
查找子模块,用于根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的多个文档;
选择子模块,用于获取至少一个关键词在对应的多个文档的每个文档中的权值,并选择与至少一个关键词对应的关键词权值最高的第二文档。
可选的,本发明实施例的内链添加模块还包括:
阈值判断子模块,用于获取至少一个关键词在对应的多个文档的每个文档的权值,并判断权值是否大于或等于预设阈值;
文档列表生成子模块,用于在权值大于或等于预设阈值时,将与至少一个关键词对应的多个文档按权值由大到小的顺序进行排序,并生成与至少一个关键词对应的文档列表。
可选的,本发明实施例的添加内链的装置还包括:
标识添加模块,用于对至少一个关键词添加标识,以区分至少一个关键词和第一文档中的其他文字。
可选的,本发明实施例的添加内链的装置还包括:
页面返回模块,用于在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档,并返回给第一客户端。
可选的,所述页面返回模块,还用于在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档和与至少一个关键词对应的文档列表在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档及文档列表中包含的文档,并返回给第一客户端。
本发明实施例提供的一种添加内链的方法及装置,可以通过使用关键词库对待更新至文档数据库的第一文档进行关键词分析,计算每个关键词的权重,然后在文档数据库中进行查找,得到关键词权值最高的第二文档,对每个关键词和与每个关键词对应的权值最高的第二文档添加内链,得到添加内链后的第一文档,并将添加内链后的第一文档更新至文档数据库中,在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档,并返回给第一客户端。通过本发明实施例,能够在将待更新至文档数据库的文档更新至文档数据库时,通过关键词库统计待添加内链的文档的关键词,实现自动添加内链,降低服务器处理难度,提高服务器处理速度,在第一客户端获取所述文档时,能够快速获得所述文档,提高用户体验。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种添加内链的方法的第一种实施例的流程图;
图2为本发明实施例的一种添加内链的方法的第二种实施例的流程图;
图3为本发明实施例的一种添加内链的方法的第三种实施例的流程图;
图4为本发明实施例的一种添加内链的方法的第四种实施例的流程图;
图5为本发明实施例的一种添加内链的装置的第一种实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术问题,本发明实施例提供了一种添加内链的方法及装置,以实现在将文档更新至文档数据库时,通过关键词库统计待添加内链的文档的关键词,实现自动添加内链,降低服务器处理难度,提高服务器处理速度。
下面,首先对本发明实施例提供的一种添加内链的方法进行介绍。如图1所示,为本发明实施例提供的一种添加内链的方法的第一种实施例的流程图,所述的方法可以包括:
S101,获取待更新至文档数据库的第一文档,使用关键词库中的关键词对第一文档进行关键词分析,得到至少一个关键词;
在本步骤中,可以通过逐一使用关键词遍历该第一文档的方式检索该第一文档中是否存在关键词库中的关键词;还可以通过使用多个关键词同时遍历该第一文档的方式检索该文档中是否存在关键词库中的关键词。
需要说明的是,上述方式在这里仅仅是为了更清楚说明得到关键词的方式,并不是用于限定本步骤中获取关键词的方式,通过其他方式获取关键词的方式也应当是被允许的。
例如关键词数据库中包含:关键词A、关键词B、关键词C和关键词D,对上述的文档进行关键词分析后,得到该文档中含有关键词A、关键词B和关键词D。
与现有技术的添加内链的方法中对第一文档进行分词处理不同,本发明实施例的添加内链的方法通过预设的关键词库对第一文档进行关键词分析,不需要分词处理,缩短了分析文档的时间,降低了服务器处理难度。
其中,关键词库可以是根据实际需要设置的关键词库,还可以是对文档数据库中的文档进行分词处理得到的关键词数据库,所述的关键词库可以进行周期更新,以使关键词库能够更好的对待更新至文档数据库的文档进行关键词分析,所述的更新周期是根据实际需要进行设置的。
例如:从第三方获取含有关键词的excel文件,通过PHPexcel扩展程序把excel文件中的关键词存储至关键词库,在存储时,通过对每个关键词赋一个键值的方式进行存储。
S102,统计至少一个关键词在第一文档中出现的次数,计算至少一个关键词在第一文档中的权值,并根据权值由大到小的顺序生成关键词列表,其中,权值用于表示至少一个关键词在第一文档中所占的比例;
在进行关键词分析时,得到多个关键词,记录每一个关键词在该第一文档中出现的次数,并统计所有关键词在该第一文档中出现的次数,根据每一个关键词在该第一文档中出现的次数和所有关键词在该第一文档中出现的次数,得到每一个关键词在该第一文档中的权值,然后根据权值由大到小的顺序,生成关键词列表。
在本步骤中,通过生成关键词列表,在其他文档更新至该文档数据库时,通过获取该关键词列表,能够快速得到该第一文档的关键词,并且得到该文档中关键词的排序,缩短对其他文档添加内链的时间,提高服务器处理速度,其中,该第一文档为待更新至上述文档数据库的任一文档。
假设,关键词A在该第一文档中出现的次数为40次,关键词B在该第一文档中出现的次数为25次,关键词D在该第一文档中出现的次数为35次,则关键词A在该第一文档中的权值为0.4,关键词B在该第一文档中的权值为0.25,关键词D在该第一文档中的权值为0.35,因此可以得到关键词列表为:关键词A、关键词D、关键词B。
S103,根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,对至少一个关键词和与至少一个关键词对应的第二文档添加内链,得到添加内链后的第一文档,其中至少一个关键词与第二文档一一对应;
在本步骤中,首先使用一个关键词,查找文档数据库中各个文档的关键词列表,获取含有该关键词的多个关键词列表,并获取该关键词在各个关键词列表中的权值,选择含有该关键词的权值最高的关键词列表,再根据该关键词列表得到含有该关键词的权值最高的第二文档。
在得到含有该关键词的权值最高的第二文档后,对该关键词和与该关键词对应的权值最高的第二文档添加内链,得到添加内链后的第一文档。
例如,在步骤S101中得到该第一文档中含有关键词A、关键词B和关键词D,分别用关键词A、关键词B和关键词D在文档数据库中进行查找,得到含有关键词A的关键词列表10个,含有关键词B的关键词列表20个,含有关键词D的关键词列表25个;
分别获取关键词A在与关键词A对应的10个关键词列表中的权值,选择含有关键词A权重最高的关键词列表,然后获取与该关键词列表对应的权值最高的第二文档,对关键词A和与关键词A对应的权值最高的第二文档添加内链;
分别获取关键词B在与关键词B对应的20个关键词列表中的权值,选择含有关键词A权重最高的关键词列表,然后获取与该关键词列表对应的权值最高的第二文档,对关键词B和与关键词B对应的权值最高的第二文档添加内链;
分别获取关键词D在与关键词D对应的10个关键词列表中的权值,选择含有关键词A权重最高的关键词列表,然后获取与该关键词列表对应的权值最高的第二文档,对关键词D和与关键词D对应的权值最高的第二文档添加内链;
通过上述步骤,能够得到与每一个关键词相关度最高的第二文档,通过对每一个关键词和与每一个关键词对应的权值最高的第二文档添加内链,能够提供相关度最高的文档,提高用户体验。
S104,将添加内链后的第一文档与关键词列表更新至文档数据库中。
在本步骤中,通过将添加内链后的第一文档与关键词列表更新至文档数据库中,能够实现在将其他文档更新至文档数据库时,首先获取该文档的关键词列表,减少访问文档数据库中文档的次数,提高服务器处理速度。
本发明实施例提供的一种添加内链的方法,通过使用关键词库对待更新至文档数据库的第一文档进行关键词分析,计算每个关键词的权重,然后在文档数据库中进行查找,得到关键词权值最高的第二文档,对每个关键词和与每个关键词对应的权值最高的第二文档添加内链,得到添加内链后的第一文档,并将添加内链后的第一文档更新至文档数据库中。能够在将待更新至文档数据库的文档更新至文档数据库时,通过关键词库统计待添加内链的文档的关键词,实现自动添加内链,降低服务器处理难度,提高服务器处理速度。
具体地,在所述根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,对至少一个关键词和与至少一个关键词对应的第二文档添加内链,得到添加内链后的第一文档之后,本发明实施例的添加内链的方法还包括:
对所述至少一个关键词添加标识,以区分所述至少一个关键词和所述第一文档中的其他文字。
通过添加标识,能够使关键词与该文档的其他文字具有差异,使第一客户端用户能够更清楚的看到该关键词,提高用户体验。
其中,所述的标识可以是改变关键词的颜色,也可以是对关键词添加下划线,还可以是改变关键词的字体,这里不作限定。
参见图2,图2为本发明实施例的一种添加内链的方法的第二种实施例的流程图,该方法还可以包括:
S203,根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的多个文档;
在得到多个关键词后,首先使用一个关键词,查找文档数据库中各个文档的关键词列表,获取含有该关键词的多个关键词列表,通过含有该关键词的多个关键词列表查询与多个关键词列表对应的文档,最后得到与该关键词对应的多个文档。
例如,该第一文档中含有关键词A、关键词B和关键词D,分别用关键词A、关键词B和关键词D在文档数据库中进行查找,得到含有关键词A的关键词列表10个,含有关键词B的关键词列表20个,含有关键词D的关键词列表25个;
然后通过含有关键词A的关键词列表进行查询,得到与10个含有关键词A的关键词列表一一对应的10个文档;通过含有关键词B的关键词列表进行查询,得到与20个含有关键词B的关键词列表一一对应的20个文档;通过含有关键词D的关键词列表进行查询,得到与25个含有关键词D的关键词列表一一对应的25个文档;
因此得到与待更新至文档数据库的第一文档相关的55个文档。
通过本步骤,能够检索到较多的文档,为后面步骤“选择与至少一个关键词对应的关键词权值最高的第二文档”的实施提供了方便。
S204,获取至少一个关键词在对应的多个文档的每个文档中的权值,并选择与至少一个关键词对应的关键词权值最高的第二文档。
在本步骤中,每个关键词通过在与该关键词对应的多个文档中查询,得到与每个关键词对应的关键词权值最高的第二文档。
例如,在步骤S203中,得到10个含有关键词A的文档,20个含有关键词B的文档,25个含有关键词D的文档,
然后分别查询关键词A在含有关键词A的10个文档中的权值,并选择含有关键词A的权值最高的文档;分别查询关键词B在含有关键词B的20个文档中的权值,并选择含有关键词B的权值最高的文档;分别查询关键词D在含有关键词D的25个文档中的权值,并选择含有关键词D的权值最高的文档;最后,分别得到分别含有关键词A、关键词B、关键词D的文档各一篇。
参见图3,图3为本发明实施例的一种添加内链的方法的第三种实施例的流程图,该方法还可以包括:
S307,在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档,并返回给第一客户端。
在第一客户端需要查阅文档时,发送获取该文档的请求,服务器在获取到查阅该文档的请求指令后,首先从文档数据库中获取该文档,生成包含有该文档的网页,经过缓存后返回给第一客户端,其中,上述的网页还可以包含其他内容,比如,相关文档标题列表、推荐文档列表、文档搜索框等内容,这里不作限定。
通过缓存与至少一个关键词对应的关键词权值最高的第二文档,能够使得第一客户端在点击该第一文档中的任一关键词后,能够快速获取与该关键词添加内链的第二文档,提高用户体验。
应当理解的是,上述的第一客户端是与服务器进行通信的任一客户端,可以是台式电脑、还可以是笔记本电脑、手机、平板电脑,第一客户端可以通过网页发送获取该文档的请求,还可以通过安装在第一客户端上的应用软件程序发送获取该文档的请求,这里不作限定,只要是能够实现上述功能的方法都应当是被允许的。
参见图4,图4为本发明实施例的一种添加内链的方法的第四种实施例的流程图,该方法还可以包括:
S404,获取至少一个关键词在对应的多个文档的每个文档的权值,并判断权值是否大于或等于预设阈值;
S405,在权值大于或等于所述预设阈值时,将与至少一个关键词对应的多个文档按权值由大到小的顺序进行排序,并生成与至少一个关键词对应的文档列表。
在本步骤中,首先获取与每个关键词对应的多个文档的每个文档的权值,然后将每个文档的权值与预设阈值进行对比,并选择权值大于预设阈值的文档,在对比时,可以通过使用预设阈值在多个文档中进行一一筛选的方式来获得权值大于预设阈值的文档,也可以通过使用预设阈值同时对各个文档的关键词权值进行对比的方式来获得权值大于预设阈值的文档,其中,预设阈值是在根据实际需要设置的阈值。
其中,文档列表至少包括文档标题和文档作者。
例如,含有关键词A的10个文档的关键词A的权值分别为:0.91、0.88、0.93、0.82、0.76、0.58、0.44、0.63、0.32、0.69,预设阈值为0.65,那么,获取大于预设阈值0.65的含有关键词A的文档,并按权值由大到小的顺序排序,排序为:0.93、0.91、0.88、0.82、0.76、0.69,生成含有关键词A的文档列表,
通过设置预设阈值,能够在生成文档列表时,限定需要展示的文档与该文档的相关度,并且可以限定需要展示的文档的个数,提高用户的体验。
相应的,该方法还包括:
S409,在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档和与至少一个关键词对应的文档列表在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档及文档列表中包含的文档,并返回给所述第一客户端。
通过本步骤,能够在第一客户端用户获取第一文档时,同时给用户推荐与该文档相关的文档,给第一客户端用户提供更多的阅读选择,提高用户体验。
相应于上述方法实施例,本发明实施例提供了一种添加内链的装置,如图5所示,图5为本发明实施例的添加内链的装置的第一种实施例的结构图,所述的装置可以包括:
关键词分析模块501,用于获取待更新至文档数据库的第一文档,使用关键词库中的关键词对第一文档进行关键词分析,得到至少一个关键词;
权值计算模块502,用于统计至少一个关键词在第一文档中出现的次数,计算至少一个关键词在第一文档中的权值,并根据权值由大到小的顺序生成关键词列表,其中,权值用于表示至少一个关键词在第一文档中所占的比例;
内链添加模块503,用于根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的关键词权值最高的第二文档,对至少一个关键词和与至少一个关键词对应的第二文档添加内链,得到添加内链后的第一文档,其中至少一个关键词与第二文档一一对应;
更新模块504,用于将添加内链后的第一文档与关键词列表更新至文档数据库中。
本发明实施例提供的一种添加内链的装置,通过使用关键词库对待更新至文档数据库的第一文档进行关键词分析,计算每个关键词的权重,然后在文档数据库中进行查找,得到关键词权值最高的第二文档,对每个关键词和与每个关键词对应的权值最高的第二文档添加内链,得到添加内链后的第一文档,并将添加内链后的第一文档更新至文档数据库中。能够在将待更新至文档数据库的文档更新至文档数据库时,通过关键词库统计待添加内链的文档的关键词,实现自动添加内链,降低服务器处理难度,提高服务器处理速度。
需要说明的是,本发明实施例的装置是应用上述添加内链的方法的装置,则上述添加内链的方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
具体地,本发明实施例的添加内链的装置还包括:
标识添加模块,用于对第一文档的每一个关键词添加标识,以区分至少一个关键词和第一文档中的其他文字。
具体地,内链添加模块503还包括:
查找子模块,用于根据至少一个关键词在文档数据库中进行查找,得到与至少一个关键词对应的多个文档;
选择子模块,用于获取至少一个关键词在对应的多个文档的每个文档中的权值,并选择与至少一个关键词对应的关键词权值最高的第二文档。
具体地,本发明实施例的添加内链的装置还包括:
页面返回模块,用于在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档,并返回给第一客户端。
具体地,本发明实施例的内链添加模块503还包括:
阈值判断子模块,用于获取至少一个关键词在对应的多个文档的每个文档的权值,并判断权值是否大于或等于预设阈值;
文档列表生成子模块,用于在权值大于或等于预设阈值时,将与至少一个关键词对应的多个文档按权值由大到小的顺序进行排序,并生成与至少一个关键词对应的文档列表。
具体地,所述页面返回模块,还用于在接收到第一客户端发送的获取添加内链后的第一文档的请求指令后,生成包含添加内链后的第一文档和与至少一个关键词对应的文档列表在内的网页,缓存与至少一个关键词对应的关键词权值最高的第二文档及文档列表中包含的文档,并返回给所述第一客户端。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台服务端设备(可以是计算机、服务器或者网络设备等)执行本发明各个实施例所述的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种添加内链的方法,其特征在于,包括:
获取待更新至文档数据库的第一文档,通过关键词库中的关键词对所述第一文档进行关键词分析,得到至少一个关键词;
统计所述至少一个关键词在所述第一文档中出现的次数,计算所述至少一个关键词在所述第一文档中的权值,并根据权值由大到小的顺序生成关键词列表,其中,所述权值用于表示所述至少一个关键词在所述第一文档中所占的比例;
根据所述至少一个关键词在所述文档数据库中进行查找,得到与所述至少一个关键词对应的关键词权值最高的第二文档,对所述至少一个关键词和与所述至少一个关键词对应的所述第二文档添加内链,得到添加内链后的第一文档,其中,所述至少一个关键词与所述第二文档一一对应;
将所述添加内链后的第一文档与所述关键词列表更新至所述文档数据库中。
2.根据权利要求1所述的添加内链的方法,其特征在于,所述根据所述至少一个关键词在所述文档数据库中进行查找,得到与所述至少一个关键词对应的关键词权值最高的第二文档,包括:
根据所述至少一个关键词在所述文档数据库中进行查找,得到与所述至少一个关键词对应的多个文档;
获取所述至少一个关键词在所述对应的多个文档的每个文档中的权值,并选择与所述至少一个关键词对应的关键词权值最高的第二文档。
3.根据权利要求2所述的添加内链的方法,其特征在于,在所述根据所述至少一个关键词在所述文档数据库中进行查找,得到与所述至少一个关键词对应的多个文档之后,所述的添加内链的方法还包括:
获取所述至少一个关键词在所述对应的多个文档的每个文档的权值,并判断所述权值是否大于或等于预设阈值;
在所述权值大于或等于所述预设阈值时,将与所述至少一个关键词对应的多个文档按权值由大到小的顺序进行排序,并生成与所述至少一个关键词对应的文档列表。
4.根据权利要求1所述的添加内链的方法,其特征在于,在所述根据所述至少一个关键词在所述文档数据库中进行查找,得到与所述至少一个关键词对应的关键词权值最高的第二文档,对所述至少一个关键词和与所述至少一个关键词对应的所述第二文档添加内链,得到添加内链后的第一文档之后,所述的添加内链的方法还包括:
对所述至少一个关键词添加标识,以区分所述至少一个关键词和所述第一文档中的其他文字。
5.根据权利要求1或2所述的添加内链的方法,其特征在于,所述的添加内链的方法还包括:
在接收到第一客户端发送的获取所述添加内链后的第一文档的请求指令后,生成包含所述添加内链后的第一文档在内的网页,缓存所述与所述至少一个关键词对应的关键词权值最高的第二文档,并返回给所述第一客户端。
6.根据权利要求3所述的添加内链的方法,其特征在于,所述的添加内链的方法还包括:
在接收到第一客户端发送的获取所述添加内链后的第一文档的请求指令后,生成包含所述添加内链后的第一文档和与所述至少一个关键词对应的文档列表在内的网页,缓存所述与所述至少一个关键词对应的关键词权值最高的第二文档及所述文档列表中包含的文档,并返回给所述第一客户端。
7.一种添加内链的装置,其特征在于,包括:
关键词分析模块,用于获取待更新至文档数据库的第一文档,通过关键词库中的关键词对所述第一文档进行关键词分析,得到至少一个关键词;
权值计算模块,用于统计所述至少一个关键词在所述第一文档中出现的次数,计算所述至少一个关键词在所述第一文档中的权值,并根据权值由大到小的顺序生成关键词列表,其中,所述权值用于表示所述至少一个关键词在所述第一文档中所占的比例;
内链添加模块,用于根据所述至少一个关键词在所述文档数据库中进行查找,得到与所述至少一个关键词对应的关键词权值最高的第二文档,对所述至少一个关键词和与所述至少一个关键词对应的所述第二文档添加内链,得到添加内链后的第一文档,其中所述至少一个关键词与所述第二文档一一对应;
更新模块,用于将所述添加内链后的第一文档与所述关键词列表更新至所述文档数据库中。
8.根据权利要求7所述的添加内链的装置,其特征在于,所述内链添加模块包括:
查找子模块,用于根据所述至少一个关键词在所述文档数据库中进行查找,得到与所述至少一个关键词对应的多个文档;
选择子模块,用于获取所述至少一个关键词在所述对应的多个文档的每个文档中的权值,并选择与所述至少一个关键词对应的关键词权值最高的第二文档。
9.根据权利要求8所述的添加内链的装置,其特征在于,所述内链添加模块还包括:
阈值判断子模块,用于获取所述至少一个关键词在所述对应的多个文档的每个文档的权值,并判断所述权值是否大于或等于预设阈值;
文档列表生成子模块,用于在所述权值大于或等于所述预设阈值时,将与所述至少一个关键词对应的多个文档按权值由大到小的顺序进行排序,并生成与所述至少一个关键词对应的文档列表。
10.根据权利要求7所述的添加内链的装置,其特征在于,所述添加内链的装置还包括:
标识添加模块,用于对所述至少一个关键词添加标识,以区分所述至少一个关键词和所述第一文档中的其他文字。
CN201611085119.9A 2016-11-30 2016-11-30 一种添加内链的方法及装置 Pending CN106528861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611085119.9A CN106528861A (zh) 2016-11-30 2016-11-30 一种添加内链的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611085119.9A CN106528861A (zh) 2016-11-30 2016-11-30 一种添加内链的方法及装置

Publications (1)

Publication Number Publication Date
CN106528861A true CN106528861A (zh) 2017-03-22

Family

ID=58353807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611085119.9A Pending CN106528861A (zh) 2016-11-30 2016-11-30 一种添加内链的方法及装置

Country Status (1)

Country Link
CN (1) CN106528861A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572942A (zh) * 2018-04-20 2018-09-25 北京深度智耀科技有限公司 一种创建超链接的方法和装置
CN109582846A (zh) * 2018-11-21 2019-04-05 百度在线网络技术(北京)有限公司 通过文章进行搜索的方法、装置、电子设备及存储介质
CN110321533A (zh) * 2019-07-11 2019-10-11 北京年管家信息科技有限公司 一种知识产权编码关键字系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI253572B (en) * 2004-03-08 2006-04-21 Unipattern Co Webpage searching system and method based on virtual links
CN1869978A (zh) * 2005-05-24 2006-11-29 国际商业机器公司 用于链接文档的方法、设备和系统
CN101097574A (zh) * 2006-06-27 2008-01-02 国际商业机器公司 一种建立文档间关联关系的方法和装置
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
US8086601B2 (en) * 2001-01-10 2011-12-27 Looksmart, Ltd. Systems and methods of retrieving relevant information
CN102314454A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 自动添加内链的方法及系统
CN104217031A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
US20150058358A1 (en) * 2013-08-21 2015-02-26 Google Inc. Providing contextual data for selected link units
CN106156230A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 一种生成内链的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086601B2 (en) * 2001-01-10 2011-12-27 Looksmart, Ltd. Systems and methods of retrieving relevant information
TWI253572B (en) * 2004-03-08 2006-04-21 Unipattern Co Webpage searching system and method based on virtual links
CN1869978A (zh) * 2005-05-24 2006-11-29 国际商业机器公司 用于链接文档的方法、设备和系统
CN101097574A (zh) * 2006-06-27 2008-01-02 国际商业机器公司 一种建立文档间关联关系的方法和装置
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
CN102314454A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 自动添加内链的方法及系统
US20150058358A1 (en) * 2013-08-21 2015-02-26 Google Inc. Providing contextual data for selected link units
CN104217031A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN106156230A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 一种生成内链的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572942A (zh) * 2018-04-20 2018-09-25 北京深度智耀科技有限公司 一种创建超链接的方法和装置
CN109582846A (zh) * 2018-11-21 2019-04-05 百度在线网络技术(北京)有限公司 通过文章进行搜索的方法、装置、电子设备及存储介质
CN110321533A (zh) * 2019-07-11 2019-10-11 北京年管家信息科技有限公司 一种知识产权编码关键字系统

Similar Documents

Publication Publication Date Title
CN113673262B (zh) 使用统计流数据进行不同语言之间的机器翻译
US8024333B1 (en) System and method for providing information navigation and filtration
CN1755678B (zh) 在排序搜索结果时引入锚文本用的系统和方法
Henzinger Search technologies for the Internet
CN1741017B (zh) 用于索引和搜索数据库的方法和装置
Thelwall A history of webometrics
US8984398B2 (en) Generation of search result abstracts
US20070033218A1 (en) User-context-based search engine
Zong et al. The impact of video abstract on citation counts: evidence from a retrospective cohort study of New Journal of Physics
US20080215564A1 (en) Query rewrite
JP2012160201A (ja) レビュー処理方法およびシステム
US20100191758A1 (en) System and method for improved search relevance using proximity boosting
CN101501630A (zh) 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法
US10678820B2 (en) System and method for computerized semantic indexing and searching
US20080168053A1 (en) Method for improving quality of search results by avoiding indexing sections of pages
Wilkinson et al. Search markets and search results: The case of Bing
CN106528861A (zh) 一种添加内链的方法及装置
JP2011103075A (ja) 抜粋文抽出方法
US7836108B1 (en) Clustering by previous representative
WO2017001529A1 (en) Job search engine
CN110110184B (zh) 信息查询方法、系统、计算机系统及存储介质
US20140164349A1 (en) Determining characteristic parameters for web pages
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
Setia et al. A novel approach for semantic prefetching using semantic information and semantic association
KR20120020558A (ko) 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170322