CN111831878B

CN111831878B - 构建价值索引关系的方法、索引系统及索引装置

Info

Publication number: CN111831878B
Application number: CN201910322043.4A
Authority: CN
Inventors: 胡元元; 邢智慧; 李硕; 王海威; 张博
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2023-09-15
Anticipated expiration: 2039-04-22
Also published as: CN111831878A

Abstract

本发明提供一种构建索引关系的方法，属于互联网内容索引技术领域。该方法包括：获取对象的对象类，并选取部分的对象类为目标对象类，获取对象的数字内容和按不同范围方式获取数字内容的不同层级的标识符，再将对应目标对象类中对象的标识符索引于对应剩余对象类中对象的标识符之前；将标识符进行分类，获得标识符类并选取部分的标识符类为目标标识符类，接着将处于剩余标识符类中且属于与目标对象类中对象对应的标识符加入至目标标识符类中，然后将属于目标标识符类中的标识符索引于属于剩余标识符类中的标识符之前；通过目标标识符类中的标识符和对应在目标标识符类中标识符的数字内容映射生成索引关系。

Description

构建价值索引关系的方法、索引系统及索引装置

技术领域

本发明涉及互联网内容索引技术领域，具体地涉及一种构建索引关系的方法、一种索引系统、一种索引装置及一种计算机可读存储介质。

背景技术

互联网有万亿级可被用户访问的网页资源，搜索引擎要做的第一件事是尽可能快、尽可能全、尽可能高效地获取这些有价值资源，也就是实现资源收录。

事实上，互联网上网站、网页浩如烟海，分散在全球大量未知的服务器上，没有人通知搜索引擎，搜索引擎需要自己能把这些海量信息收集起来并及时抓取入库。

另一方面，互联网资源每天在飞速增长地产生新的网页，这些都是由站长控制；搜索引擎并不知道会在什么时间、什么位置、出现什么样的网页。而且随着数据规模不断扩大，所需的计算存储资源会越来越多，同时还会有大量无效的资源产生(资源被废弃、网页变乱码、数据丢失等等)，这些都是当前行业面临的巨大挑战。

因此，搜索引擎(还包括各种垂直产品)需要有一种可持续、可满足用户搜索需求的方法来收录这些有价值的资源。

传统的网页资源收录包括了3大环节：资源发现、调度抓取、筛选。

1.资源发现环节主要有以下两种方法：

(1)给定(或者让站长提交)一批网页url(Uniform Resource Locator，统一资源定位符)我们加入待抓链接集合；

(2)从种子网页url开始，每次抓取后得到网页上提供的新的链接并加入待抓链接集合；

2.调度抓取主要通过模型对全部待抓取的链接进行打分按照可承受的资源量分配抓取；

3.筛选同样对全部抓取回来的网页进行模型打分识别出价值较低的网页进行丢弃和删除处理。

例如，现有技术CN100378713C，公开了基于分层分类实现的自动聚类学习搜索引擎，主要揭示了使用分类器实现分层分类过程，但并未对分层分类输入数据或结果进行优化，属于典型的先抓取链接、再扁平评价和分析，最后完成索引；由于没有对对象进行分类处理，低信誉对象很容易对目标对象的内容进行伪造并使得低信誉对象获得相对当前搜索目标靠前的位置，该方案所收录覆盖内容不准确、质量很差，不具有高准召率。

再例如，现有技术CN102236691A，公开了一种精确导向搜索工具系统，主要揭示了具有预设分层分类数据库的搜索人机交互工具，通过人为主动选择分类进行精准搜索。考虑互联网内容是不断更新的，预设分层分类的数据库不具有现实可行性或者通过人工提交和标注也是难以实现的浩大工程，并且明显还具有的缺陷是需要人工干预才能让搜索引擎实现高准召率。

那么现有技术一般还存在以下问题：

1.资源发现环节，站长提交链接需要站长来配合，并不是所有站长都愿意或者有时间提交全部资源给搜索引擎，而从种子开始一层层的提链加入待抓集合的方式，丢失了很多关于网页访问路径、组织结构等方面的信息。都会导致无法获取到部分有价值资源，同时把无效资源加入集合浪费存储和抓取资源；

2.调度抓取和价值筛选环节，都是扁平的，对全部链接进行打分，同样由于丢失资源链接、组织结构等信息导致效果问题；

3.抗搜索引擎优化(Search Engine Optimization，SEO)欺骗能力较差，比如某些低信誉对象通过网页提供类似于目标的词频内容或类似于目标的链接文本信息，来获得竞争排位，容易欺骗搜索引擎进一步导致用户获取到低信誉对象提供的不良信息。

发明内容

本发明实施例的目的是提供一种具有准确的覆盖范围、高准召率、高度区分性和分层分类信息结构的价值索引方法及其系统。

为了实现上述目的，本发明实施例提供一种构建索引关系的方法，该方法包括以下步骤：

S1)获取对象的对象类，并选取部分的所述对象类为目标对象类，获取所述对象的数字内容和按不同范围方式获取所述数字内容的不同层级的标识符，所述不同范围方式为用于在所述目标对象类中获取所述数字内容的标识符的请求层级范围大于用于在剩余对象类中获取所述数字内容的标识符的请求层级范围的方式，再将对应所述目标对象类中对象的标识符索引于对应所述剩余对象类中对象的标识符之前；

S2)将所述标识符进行分类，获得标识符类并选取部分的所述标识符类为目标标识符类，接着将处于剩余标识符类中且属于与所述目标对象类中对象对应的标识符加入至所述目标标识符类中，然后将属于所述目标标识符类中的标识符索引于属于所述剩余标识符类中的标识符之前；

S3)通过所述目标标识符类中的标识符和对应在所述目标标识符类中标识符的数字内容映射生成索引关系。

具体的，还包括：

S4)选取在所述目标对象类中的当前对象；

S5)在与所述当前对象对应的标识符的后层级标识符数量远大于与所述当前对象对应的标识符数量，且在所述后层级标识符中存在与所述目标对象类中对象对应的标识符、与所述目标对象类中对象对应的标识符处于所述剩余标识符类之内时，增加与所述目标对象类中对象对应的标识符至所述目标标识符类中，并将与所述目标对象类中对象对应的标识符映射至所述索引关系内所述目标对象类中对象的数字内容。

或者，具体的，还包括：

S4)选取在所述剩余标识符类中的当前标识符；

S5)在存在与所述当前标识符对应的同一数字内容条件下，在所述当前标识符的前层级或后层级标识符数量远大于所述当前标识符数量时，增加所述目标标识符类中且与所述当前标识符有所述同一数字内容的标识符至所述当前标识符的指向关系，并更新所述指向关系至所述索引关系。

具体的，还包括：

S6)在与所述目标标识符类中标识符对应的数字内容中，选取当前数字内容；

S7)按所述当前数字内容的特征更新所述当前数字内容对应的标识符在所述索引关系内的层次关系。

具体的，还包括：

S8)选取在所述索引关系内层次关系中末层邻域内的当前尾端标识符；

S9)当与所述当前尾端标识符对应的数字内容和在末层邻域内的剩余尾端标识符所对应的数字内容的关联程度大于或等于预设阈值时，增加所述当前尾端标识符至所述剩余尾端标识符的指向关系至所述索引关系中，同时更新所述索引关系。

或者，具体的，还包括：

S9)当与所述当前尾端标识符对应的数字内容和在末层邻域内的剩余尾端标识符所对应的数字内容的关联程度小于预设阈值时，将所述当前尾端标识符和所述剩余尾端标识符所存在的指向关系从所述索引关系中去除，或者将所述当前尾端标识符从所述索引关系中去除，同时更新所述索引关系。

具体的，还包括：

S10)提取所述索引关系内的标识符特征，和提取所述标识符特征对应的标识符类、层次关系，并通过所述标识符特征、所述标识符类和所述层次关系构建验证向量集；

S11)将所述验证向量集用于步骤S2)内将所述标识符进行分类的过程。

具体的，还包括：

S12)跳转至步骤1)，当出现相对在所述索引关系内标识符对应的对象的新数字内容和所述新数字内容的新标识符时，进行步骤S13)；

S13)选取在所述索引关系内层次关系中当前层邻域内的当前匹配标识符，当与所述当前匹配标识符对应的数字内容和所述新数字内容符合预设规则时，增加所述新标识符和所述新数字内容的映射关系，并置所述映射关系于所述当前匹配标识符和所述当前匹配标识符对应的数字内容的映射关系之后，同时更新所述索引关系。

具体的，步骤S1)还包括：

S101)提取所述标识符的链接描述符和页面描述符；

S102)利用分类器通过所述链接描述符和所述页面描述符分类所述标识符；

S103)将符合预设条件的所述标识符所对应的对象归为补偿对象类，将属于补偿对象类和属于所述剩余对象类的对象移至所述目标对象类中，同时更新所述目标对象类，更新地，再将对应所述目标对象类中对象的标识符索引于对应所述剩余对象类中对象的标识符之前，进行步骤S2)。

具体的，步骤S2)中在将所述标识符进行分类之后且直到获得标识符类并选取部分的所述标识符类为目标标识符类完成时还包括：

S201)提取所述标识符的链接描述符；

S202)利用基础评分模型对所述链接描述符进行评分，获得附值链接描述符；

S203)将所述附值链接描述符进行聚类，统计符合预设占比规则的所述附值链接描述，获得标识符类；

S204)根据预设目标评价参数集，选取部分的所述标识符类为目标标识符类。

本发明实施例还提供一种索引系统，包括：

分类系统，接收对象的对象类数据、选取部分的所述对象类数据为目标对象类数据且生成用于分类抓取的执行信号；

抓取引擎，接收所述执行信号并根据所述执行信号生成请求信号、通过所述请求信号获取所述对象的数字内容数据和获取所述数字内容数据的标识符；其中，所述请求信号包括用于获取不同范围和获取不同层级的标识符的信息，所述获取不同范围为在所述目标对象类数据中获取所述数字内容数据的标识符的请求层级范围大于在剩余对象类数据中获取所述数字内容数据的标识符的请求层级范围；

索引引擎，接收由所述抓取引擎发出的索引生成信号并根据所述索引生成信号将对应所述目标对象类数据中对象的标识符索引于对应所述剩余对象类数据中对象的标识符之前，生成关于所述标识符的第一索引。

可选的，所述分类系统对所述标识符进行分类、输出标识符类数据并选取部分的所述标识符类数据为目标标识符类数据；

其中，所述分类系统将处于剩余标识符类数据中且属于与所述目标对象类数据中对象对应的标识符加入至所述目标标识符类数据中。

可选的，所述索引引擎接收由所述分类系统发出的索引更新信号并根据所述索引更新信号将属于所述目标标识符类数据中的标识符索引于属于所述剩余标识符类数据中的标识符之前，更新所述第一索引为关于所述标识符的第二索引。

可选的，还包括：

对象映射关系引擎，按照所述第二索引的内容生成关于所述目标标识符类数据中的标识符和对应在所述目标标识符类数据中标识符的数字内容的映射关系；

数据库，接收并存储所述映射关系，且通过所述映射关系和所述第二索引生成索引关系。

可选的，还包括：

召回引擎，选取在所述目标对象类数据中的当前对象；

其中，所述召回引擎在与所述当前对象对应的标识符的后层级标识符数量远大于与所述当前对象对应的标识符数量，且在所述后层级标识符中存在与所述目标对象类数据中对象对应的标识符、与所述目标对象类数据中对象对应的标识符处于所述剩余标识符类数据之内时，生成第一增加执行信号和第二增加执行信号；

所述分类系统接收所述第一增加执行信号并根据所述第一增加执行信号增加与所述目标对象类数据中对象对应的标识符至所述目标标识符类数据中；

所述对象映射关系引擎，接收所述第二增加执行信号并根据所述第二增加执行信号将与所述目标对象类数据中对象对应的标识符映射至所述索引关系内所述目标对象类数据中对象的数字内容数据。

可选的，还包括：

召回引擎，选取在所述剩余标识符类数据中的当前标识符；

所述召回引擎在存在与所述当前标识符对应的同一数字内容数据条件下，在所述当前标识符的前层级或后层级标识符数量远大于所述当前标识符数量时，生成第一增加执行信号；

所述索引引擎接收所述第一增加执行信号并根据所述第一增加执行信号增加在所述目标标识符类数据中且与所述当前标识符有所述同一数字内容数据的标识符至所述当前标识符的指向关系，并生成第二增加执行信号；

所述索引引擎发送所述第二增加执行信号至所述数据库；

所述数据库根据所述第二增加执行信号更新所述指向关系至所述索引关系。

可选的，还包括：解析引擎；

所述解析引擎在与所述目标标识符类数据中标识符对应的数字内容数据中选取当前数字内容数据；

其中，所述索引引擎接收由所述解析引擎输出所述当前数字内容数据的特征信号并根据所述特征信号更新所述当前数字内容数据对应的标识符在所述数据库中所述索引关系内的层次关系。

可选的，所述召回引擎选取在所述索引关系内层次关系中末层邻域内的当前尾端标识符；

所述召回引擎当与所述当前尾端标识符对应的数字内容数据和在末层邻域内的剩余尾端标识符所对应的数字内容数据的关联程度小于预设阈值时，生成指向去除信号；

所述索引引擎接收所述指向去除信号并根据所述指向去除信号将所述当前尾端标识符和所述剩余尾端标识符所存在的指向关系从所述数据库中索引关系内去除，或者将所述当前尾端标识符从所述数据库中索引关系内去除，同时更新所述数据库中的所述索引关系。

另一方面，本发明实施例还提供一种索引装置，包括：

至少一个处理器；

存储器，与所述至少一个处理器连接；

其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现前述的方法。

再一方面，本发明实施例还提供一种计算机可读存储介质，存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前述的方法。

又一方面，本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述的方法。

本发明相对于现有技术有以下技术效果：

在获取数字内容之前独创地分类评价了对象，有目标范围地获取了数字内容和标识符，并且有另一目标范围地对标识符进行分层分类的结构索引；

通过在目标对象类的标识符中发现是否有属于目标对象类但未收录的标识符，通过指向召回关系将该目标对象类的遗漏标识符补上，实现了价值对象类各个对象的标识符相互补充和关系建立；

在优质的目标标识符类中对标识符对应的数字内容进行了特征评价，可以进一步优化索引关系；

对于末层的尾端标识符，进一步进行了关联性判断，根据具体判断结果分别实现了索引去冗余或者索引增量关系回补；

在有一定价值索引基础上，将当前价值索引作为验证集合通过神经网络学习模型，可以不断地反馈优化本方案的分层分类过程；

在循环运行过程中，对于已经收录索引的目标对象，发现该目标对的新数字内容和新数字内容的标识符时，只要符合属于非冗余和属于增量关系，就可以直接将新标识符加入到该目标对象的当前标识符的后层，从而实时保持了索引关系为新颖的、有价值的。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1为本发明实施例的系统架构示意图；

图2为本发明实施例的方法流程示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

实施例1

本实施例相对其他索引引擎有很独特的主权性收录特点，抗SEO引擎优化欺骗能力很强。如图1和图2，一种构建索引关系的方法，该方法包括以下步骤：

S1)获取对象的对象类，并选取部分的所述对象类为目标对象类，获取所述对象的数字内容和获取所述数字内容的不同层级的标识符，再将对应所述目标对象类中对象的标识符索引于对应所述剩余对象类中对象的标识符之前；

一个对象可以有很多数字内容，数字内容可以有很多标识符，不同对象也可以有相同的数字内容(克隆内容，比如通过nginx反向代理实现的网站或者通过代码克隆实现的网站),但是不同数字内容无法同时通过同一个标识符实现；

数字内容代表对象的在互联网发布的所有数字信息和数字信息的各类载体，包括网络地址、域名、路由服务、物理服务器、网站本身和网站提供的内容等各类数字信息和数字信息的载体；

标识符包括链接、页面、网络地址等可以用于定位某一个数字内容的特征标记，那么对于标识符，通常均存在层级关系，比如中国气象局的官方网站链接为http://www.cma.gov.cn，该链接所指向网页为主页，则视http://www.cma.gov.cn为最前面的层级(即第一层)，而天气预报页所在链接为http://www.cma.gov.cn/2011qxfw/2011qtqyb/，该链接层级为第三层，即数字内容包括天气预报页面，该天气预报页面所对应标识符包括该第三层链接；一般地，层级增加一层，链接上特征体现为多一个“/”；

对于标识符中链接的获取，抓取引擎的爬虫机器人会根据内容提供者服务器内.htaccess文件中nofollow,noindex等条件限定进行一定层级链接爬虫，本申请在此基础上设定了新的抓取策略，选择地对目标对象类内的链接或网络地址进行更后层级的爬虫，即请求层级可用范围更大(实际的请求所执行到的最后层级可能并不大)，直到没有返回层级为止；目标对象类的最后层级的标识符层级(比如仅有主页)不一定大于剩余对象类(信誉较低、质量较差的数字内容提供者)的最后层级的标识符层级，这种策略体现了“尽可能地”覆盖目标对象类对象的标识符；

请求层级范围(即到底对一个站能抓取多少层的链接)为能够开展抓取层级的预定权限的范围；

请求执行后实际的返回层级的层级数是小于等于请求层级范围的；

目标对象类可以是国家行政机关、事业单位、实体品牌企业、普通企业等有政法特性或一般官网的高信誉目标类，也可以扩大至包括门户站、内容站、平台站或其他站群类等站点范围，其他站群类例如使用分类器得到的站点分类，但是对于门户站、内容站、平台站或其他站群类等站点进行限制，比如设定标识符层级优选为四层以内；

对象的对象分类可以通过多分类器进行实现，并选取部分的目标对象类，所选取的部分大小可以称为第一目标范围，第一目标范围可以根据需要重点突出的方面、实际资源承受能力和所要求的价值水平进行考虑，或者特别设定参数条件进行评价选择范围。

目标标识符类可以具有高质量、符合评分规则、内容独创等特点，选取部分的所述标识符类为目标标识符类，所选取的部分大小可以称为第二目标范围，第二目标范围大小可以根据需要重点突出的方面、实际资源承受能力和所要求的价值水平等特征进行控制，或者特别设定参数条件进行评价选择范围，第二目标范围内标识符与第一目标范围内对象不一定是对应的，也即是说第二目标范围内标识符的选取是不基于第一目标范围的选取，但是标识符的索引是基于步骤S1)已确定的索引，这一过程可以称为“价值筛选”。

S3)通过所述目标标识符类中的标识符和对应在所述目标标识符类中标识符的数字内容映射生成索引关系；

如果第一目标范围和第二目标范围选取的条件很苛刻且选取的范围很小，那么至此，能够得到具有最核心、最稳定的骨干索引关系，通过增大第一目标范围和/或第二目标范围，按照骨干索引关系内各个关系树的延伸方向，每次增长十万倍于索引关系内当前标识符数量(此时可以直接是链接)的标识符，三层后就能够实现百万亿的链接对，可以称这一过程为“扩散”。

具体的，还包括：

S4)选取在所述目标对象类中的当前对象；

S5)在与所述当前对象对应的标识符的后层级标识符数量远大于与所述当前对象对应的标识符数量，且在所述后层级标识符中存在与所述目标对象类中对象对应的标识符、与所述目标对象类中对象对应的标识符处于所述剩余标识符类之内时，增加与所述目标对象类中对象对应的标识符至所述目标标识符类中，并将与所述目标对象类中对象对应的标识符映射至所述索引关系内所述目标对象类中对象的数字内容；

例如目标对象类中的国家行政机关站点，通过抓取引擎发现某个国家行政机关站点当前页面是否存在很多后层链接，并且这些后层链接中存在没有被纳入索引关系的且属于目标对象类内对象所对应的，此时抓取引擎就会将该后层链接增加至索引关系，这一过程可以称为“特殊站点召回”；

又例如，某个国家行政机关站点即时发布的考试信息，该考试信息所对应链接一般处于靠后层级的链接并且一般该链接模式或数字内容特征无法通过价值筛选，抓取引擎、第一目标范围和第二目标范围都很难进行收录，但目标对象类中的与该考试信息相关的分类站点通常会很快发布靠前层级的链接，而该靠前层级的链接正是考试信息所对应链接，抓取引擎可以很快对其发现并收录至索引关系，这一过程可以称为“分类站点召回”；

对于品牌官网，可以从从品牌名、机构名在搜索引擎中竞品得到主页，进而从主页开始跟踪抓取、迭代收录。

或者，具体的，还包括：

S4)选取在所述剩余标识符类中的当前标识符；

S5)在存在与所述当前标识符对应的同一数字内容条件下，在所述当前标识符的前层级或后层级标识符数量远大于所述当前标识符数量时，增加所述目标标识符类中且与所述当前标识符有所述同一数字内容的标识符至所述当前标识符的指向关系，并更新所述指向关系至所述索引关系；

例如，当前标识符的所对应页面为搜索页，搜索页特征就是本页存在少量标识符，后页有其他或当前对象的巨大数量的标识符，然而很多站点的搜索页是无法通过用户访问达到(如首页没有搜索栏等)、只能发起搜索才能触发出现的，这样会丧失大量搜索页到内容页的指向关系，那么可以增加一条主页至搜索页的指向关系，该主页至搜索页的指向关系会进一步关联搜索页到内容页的指向关系，从而实现了优质内容收录，并且指向关系对物理资源的占用很小，实现了少量物理资源的更充分地利用；

再例如，对于翻页，翻页的特征就是本页存在少量标识符，而前页或后页有当前对象的巨大数量的标识符，一般地，现有搜索引擎均视其是非目标资源；与搜索页需要被索引的原因类似，翻页也存在大量与内容页的指向关系，需要将翻页对应的标识符增加至目标标识符类中，或增加翻页对应的标识符与翻页对应对象的、在目标标识符类中标识符的指向关系(指向关系可以定义为与溯回该内容的方向相同，也可以定义相反)，这一过程可以称为“指向关系召回”，特殊站点召回、分类站点召回和指向关系召回可以统称为“扩大召回”，在完成扩大召回之后，如果有支持可视化内容的硬件，例如用于本申请的显示设备，则可以构成关于索引关系的索引图，该索引图中越靠前的层次部分对最后扩散形成整体的影响越大，索引图中能够直观发现标识符均是关联的、有层次的，不再是传统扁平评分方案所具有的无层次索引关系。

具体的，还包括：

S7)按所述当前数字内容的特征更新所述当前数字内容对应的标识符在所述索引关系内的层次关系；

在前面所建立的索引关系的基础之上，此处对索引关系内各个标识符层次进行了优化，对于某个对象的网站(数字内容)和网站内所有链接(标识符)，从首页开始建立链接层次关系、逐层深入，对于网站页面存在“我的位置”(mypos)特征的网页，例如中国政府网的国务院页面内存在“首页>国务院”，则直接获取该mypos特征所在当前链接的前面链接作为当前链接的父路径；其次，利用辅助手段，辅助手段例如未更新、失效链接的识别方法，结合链接数据库，考虑链接数据库内曾经优先抓取的链接、已有的前链和已删除的链接，确定当前链接的数据库内索引关系中层次位置，实现当前链接对应对象的索引关系的层次关系优化，如此可以提升链接层次关系的准确度，并让链接层次关系更合理，这一过程可以称为“路径择优”。

具体的，还包括：

S9)当与所述当前尾端标识符对应的数字内容和在末层邻域内的剩余尾端标识符所对应的数字内容的关联程度大于或等于预设阈值时，增加所述当前尾端标识符至所述剩余尾端标识符的指向关系至所述索引关系中，同时更新所述索引关系；

或者，具体的，还包括：

S9)当与所述当前尾端标识符对应的数字内容和在末层邻域内的剩余尾端标识符所对应的数字内容的关联程度小于预设阈值时，将所述当前尾端标识符和所述剩余尾端标识符所存在的指向关系从所述索引关系中去除，或者将所述当前尾端标识符从所述索引关系中去除，同时更新所述索引关系；

前面环节是一个粗粒度的优化和选择，此处进行数字内容中页面的判断，对索引图上价值较低的链接进行删除，比如一篇网站新闻可以从网站首页、频道页、其他新闻页等很多地方跟踪抓取(follow)出来，而其他新闻页与当前网站新闻的这条链接没有直接关系(此时关联程度可以是页面解析内容差异程度，例如关键词词频差异程度、近义词数量差异程度等)，则根据页面类型(核心索引页、普通索引页、内容页)对索引图进行优化，例如删除指向关系、在层次关系中删除链接，对平台站等容易泛滥的资源进行层次控制(例如控制在四层以内)，避免太多冗余内容，这一过程相对索引图可以形象地称为“剪枝优化”；

本方案具有优质站点的高召回控制特点，对于官网类站点更注重召回(也即具有不错的低质链接识别、判断和筛除的准确率)避免遗漏重要链接；对于新资源或新链接，会对抓取后新产出的链接补充到索引图，进一步扩充现有索引关系；同时通过各种链接关系的扩充召回，将有价值新资源、新链接尽可能覆盖到当前索引关系；特别地，本申请对于低信誉对象却有相似的高质量数字内容和数字内容的相似的标识符这一类对象，能够显著限制这一类对象的索引。

具体的，还包括：

S11)将所述验证向量集用于步骤S2)内将所述标识符进行分类的过程；

分类过程可以借助深度学习模型完成，例如卷积神经网络学习模型，可以设计信号计算，信号计算包括链接的层次信号、类型信号、质量信号(质量信号可以有基础模型的评分信息)等，卷积神经网络学习模型输入是链接集合，特征包括长相、统计、外部数据(所属数字内容的特征)等，对于长相，可以相对同一主域，主页为第一长相，该主域的栏目页为第二长相(例如具有两个“/”)，该主域的内容页为第三长相(例如具有三个“/”)，对于各个长相，统计可以是各个长相的页面浏览量等；该卷积神经网络学习模型输出为特征数值，或者类别值，用于分类标识符，分类至少为低质类别和非低质类别；每当该卷积神经网络学习模型识别到属于低质类别的链接时，会生成低质信号，该低质信号会反馈给价值筛选，在价值筛选中对识别为低质的链接及其泛化链接进行筛除。

具体的，还包括：

S13)选取在所述索引关系内层次关系中当前层邻域内的当前匹配标识符，当与所述当前匹配标识符对应的数字内容和所述新数字内容符合预设规则时，增加所述新标识符和所述新数字内容的映射关系，并置所述映射关系于所述当前匹配标识符和所述当前匹配标识符对应的数字内容的映射关系之后，同时更新所述索引关系；

对召回或自然调度抓取后发现的新链接，加入到前一个链接的后链上，同样基于路径择优和剪枝优化的策略，保留有价值的链接，从而保持索引图为最新的全网有价值资源，这一过程可以称为选择地“增量扩充”。

具体的，步骤S1)还包括：

S101)提取所述标识符的链接描述符和页面描述符；

S103)将符合预设条件的所述标识符所对应的对象归为补偿对象类，将属于补偿对象类和属于所述剩余对象类的对象移至所述目标对象类中，同时更新所述目标对象类，更新地，再将对应所述目标对象类中对象的标识符索引于对应所述剩余对象类中对象的标识符之前，进行步骤S2)；

此时的预设条件，可以根据已有索引关系中的指向关系和对象对应的标识符质量进行构建，例如指向关系中第一端对象对应的标识符处于索引关系内，第一端对象与第二端对象存在指向关系，第二端对象对应的标识符未处于索引关系内(未收录)，并且第二端对象或第二端对象对应的标识符能够通过价值筛选，那么，将该第二端对象对应的标识符索引至索引关系、将第二端对象划入目标对象类中。

S201)提取所述标识符的链接描述符；

S204)根据预设目标评价参数集，选取部分的所述标识符类为目标标识符类；

对象分类可以包括站点级别分类(站点级)，目标标识符分类可以包括链接模式识别分类(url级)、数字内容特征或标识符特征分类(pattern级)；pattern级：同长相(同站点同目录下同类页面)的网页如果大部分被判定有低质倾向那么这个簇(例如同一个主域)整体是低质，这里可以引入相似度，相似度可以基于有相同链接前缀、id归一化、低频词替代等特征构建，pattern级判断过程会进行一定的限制，包括同类链接量不少于5条、点击量不能大于50、当前待判断链接集合相对数据库内有价值的比例不能超过30％等，以避免将需要索引的标识符错误地去除；url级的模型打分，对url进行聚类，统计同类url中低质和非低质的占比情况，超过一定阈值(例如大于90％)会认为该类url都有低质倾向，实践表明确实如此。

本发明实施例存在以下有益效果：

(1)对于资源发现环节，可以自动化构建索引图，图上包含全网有价值资源，由于利用链接之间的连通路径和索引层次，更有选择性地(而不是全部链接用模型打分，模型打分不可避免地有存在召回问题)保留关键节点，对关键站点、目录更容易保护不受误伤，从而达到更全的覆盖率，同时，由于对不同的索引页进行区分，能有效优先保证权威资源的调度发新资源；

(2)对于调度抓取环节，结合链接所处的层次、类型(是否官网、是否骨干索引页等)、对其他链接的贡献能力等，更容易保证优质资源的抓取；

(3)在每个环节都会结合站点、前链等的类型、重要性等进行价值区分，而不是全部同等地用一个模型打分，模型打分获得的结果没有足够区分度，从而实现有区分度的价值筛选，保证最后收录的覆盖率、覆盖准确性和有效性；

(4)显著减少了通过伪造链接和仿冒数字内容的对象的索引，模型打分存在容易受到欺骗问题。

实施例2

本申请存在第一目标范围和第二目标范围，特别地，选取第一目标范围为低信誉或者具有低质类别标识符的对象，第二目标范围也选取低质类别的标识符，那么本实施例将进行索引低质类别的对象的数字内容和标识符，这样的特定实施例可用于深度研究低质类别的对象的数字内容和标识符特征，研究结果可以辅助实施例1的分类过程。

实施例3

本申请存在第一目标范围和第二目标范围，特别地，选取第一目标范围为高信誉或者具有非低质类别标识符的对象，第二目标范围选取低质类别的标识符，这样的特定实施例可用于深度挖掘高信誉或者具有非低质类别标识符的对象对应的标识符，这些标识符通常未处于实施例1中索引关系内，统计、分类挖掘结果可以用于改善实施例1的扩大召回、路径择优和剪枝优化的策略，以增大索引关系的覆盖范围、保证收录有效性和提高覆盖准确性。

实施例4

本申请存在第一目标范围和第二目标范围，特别地，选取第一目标范围为低信誉或者具有低质类别标识符的对象，第二目标范围非低质类别的标识符，这样的特定实施例可用于深度挖掘低信誉或者具有低质类别标识符的对象对应的标识符，这些标识符通常未处于实施例1中索引关系内，统计、分类挖掘结果可以用于改善实施例1的扩大召回、路径择优和剪枝优化的策略，以增大索引关系的覆盖范围、保证收录有效性和提高覆盖准确性。

实施例5

本发明实施例还提供一种索引系统，包括：分类系统、抓取引擎、索引引擎、对象映射关系引擎、数据库和召回引擎；索引系统可以设置于同一个服务器，也可以设置于服务器集群；分类系统、抓取引擎、索引引擎、对象映射关系引擎和召回引擎可以通过具有读写功能的缓存和计算设备实现；数据库可以是键值数据库和关系数据库等，也可以是具有限权篡改特性的数据库，例如在具有审计特性的、主权的节点网络中，该数据库是节点网络中任意一节点的历史共识数据库；该索引系统可以进一步包括输入设备和输出设备，输出设备包括显示设备和根据索引系统的信号发声的声学设备，该显示设备可用于实施例1中索引图的显示和该索引系统其他信息的呈现，其他信息可以是条件、状态、待处理的决策和反馈等信息，该输入设备可以用于设置索引系统的参数设置和用于根据输出设备的输出信息设计的调整操作。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种构建索引关系的方法，其特征在于，该方法包括以下步骤：

S1）获取对象的对象类，并选取部分的所述对象类为目标对象类，获取所述对象的数字内容和按不同范围方式获取所述数字内容的不同层级的标识符，再将对应所述目标对象类中对象的标识符索引于对应剩余对象类中对象的标识符之前，其中，步骤S1）还包括：S101）提取所述标识符的链接描述符和页面描述符；S102）利用分类器通过所述链接描述符和所述页面描述符分类所述标识符；S103）将符合预设条件的所述标识符所对应的对象归为补偿对象类，将属于补偿对象类和属于所述剩余对象类的对象移至所述目标对象类中，同时更新所述目标对象类，更新地，再将对应所述目标对象类中对象的标识符索引于对应所述剩余对象类中对象的标识符之前；

S2）将所述标识符进行分类，获得标识符类并选取部分的所述标识符类为目标标识符类，接着将处于剩余标识符类中且属于与所述目标对象类中对象对应的标识符加入至所述目标标识符类中，然后将属于所述目标标识符类中的标识符索引于属于所述剩余标识符类中的标识符之前，其中，步骤S2）中在将所述标识符进行分类之后且直到获得标识符类并选取部分的所述标识符类为目标标识符类完成时还包括：S201）提取所述标识符的链接描述符；S202）利用基础评分模型对所述链接描述符进行评分，获得附值链接描述符；S203）将所述附值链接描述符进行聚类，统计符合预设占比规则的所述附值链接描述，获得标识符类；S204）根据预设目标评价参数集，选取部分的所述标识符类为目标标识符类；

S3）通过所述目标标识符类中的标识符和对应在所述目标标识符类中标识符的数字内容映射生成索引关系。

2.根据权利要求1所述的构建索引关系的方法，其特征在于，还包括：

S4）选取在所述目标对象类中的当前对象；

S5）在与所述当前对象对应的标识符的后层级标识符数量远大于与所述当前对象对应的标识符数量，且在所述后层级标识符中存在与所述目标对象类中对象对应的标识符、与所述目标对象类中对象对应的标识符处于所述剩余标识符类之内时，增加与所述目标对象类中对象对应的标识符至所述目标标识符类中，并将与所述目标对象类中对象对应的标识符映射至所述索引关系内所述目标对象类中对象的数字内容。

3.根据权利要求1所述的构建索引关系的方法，其特征在于，还包括：

S4）选取在所述剩余标识符类中的当前标识符；

S5）在存在与所述当前标识符对应的同一数字内容条件下，在所述当前标识符的前层级或后层级标识符数量远大于所述当前标识符数量时，增加所述目标标识符类中且与所述当前标识符有所述同一数字内容的标识符至所述当前标识符的指向关系，并更新所述指向关系至所述索引关系。

4.根据权利要求2或3所述的构建索引关系的方法，其特征在于，还包括：

S6）在与所述目标标识符类中标识符对应的数字内容中，选取当前数字内容；

S7）按所述当前数字内容的特征更新所述当前数字内容对应的标识符在所述索引关系内的层次关系。

5.根据权利要求4所述的构建索引关系的方法，其特征在于，还包括：

S8）选取在所述索引关系内层次关系中末层邻域内的当前尾端标识符；

S9）当与所述当前尾端标识符对应的数字内容和在末层邻域内的剩余尾端标识符所对应的数字内容的关联程度大于或等于预设阈值时，增加所述当前尾端标识符至所述剩余尾端标识符的指向关系至所述索引关系中，同时更新所述索引关系。

6.根据权利要求4所述的构建索引关系的方法，其特征在于，还包括：

S9）当与所述当前尾端标识符对应的数字内容和在末层邻域内的剩余尾端标识符所对应的数字内容的关联程度小于预设阈值时，将所述当前尾端标识符和所述剩余尾端标识符所存在的指向关系从所述索引关系中去除，或者将所述当前尾端标识符从所述索引关系中去除，同时更新所述索引关系。

7.根据权利要求6所述的构建索引关系的方法，其特征在于，还包括：

S10）提取所述索引关系内的标识符特征，和提取所述标识符特征对应的标识符类、层次关系，并通过所述标识符特征、所述标识符类和所述层次关系构建验证向量集；

S11）将所述验证向量集用于步骤S2）内将所述标识符进行分类的过程。

8.根据权利要求7所述的构建索引关系的方法，其特征在于，还包括：

S12）跳转至步骤1），当出现相对在所述索引关系内标识符对应的对象的新数字内容和所述新数字内容的新标识符时，进行步骤S13）；

S13）选取在所述索引关系内层次关系中当前层邻域内的当前匹配标识符，当与所述当前匹配标识符对应的数字内容和所述新数字内容符合预设规则时，增加所述新标识符和所述新数字内容的映射关系，并置所述映射关系于所述当前匹配标识符和所述当前匹配标识符对应的数字内容的映射关系之后，同时更新所述索引关系。

9.一种索引系统，其特征在于，包括：

分类系统，接收对象的对象类数据、选取部分的所述对象类数据为目标对象类数据且生成用于分类抓取的执行信号；其中，还包括：提取标识符的链接描述符和页面描述符；利用分类器通过所述链接描述符和所述页面描述符分类所述标识符；

抓取引擎，接收所述执行信号并根据所述执行信号生成请求信号、通过所述请求信号获取所述对象的数字内容数据和获取所述数字内容数据的标识符；其中，所述请求信号包括用于获取不同范围和获取不同层级的标识符的信息；

索引引擎，接收由所述抓取引擎发出的索引生成信号并根据所述索引生成信号将对应所述目标对象类数据中对象的标识符索引于对应剩余对象类数据中对象的标识符之前，生成关于所述标识符的第一索引；其中，还包括：将符合预设条件的所述标识符所对应的对象归为补偿对象类，将属于补偿对象类和属于所述剩余对象类的对象移至所述目标对象类中，同时更新所述目标对象类，更新地，再将对应所述目标对象类中对象的标识符索引于对应所述剩余对象类中对象的标识符之前。

10.根据权利要求9所述的索引系统，其特征在于，

所述分类系统对所述标识符进行分类、输出标识符类数据并选取部分的所述标识符类数据为目标标识符类数据；

11.根据权利要求10所述的索引系统，其特征在于，

所述索引引擎接收由所述分类系统发出的索引更新信号并根据所述索引更新信号将属于所述目标标识符类数据中的标识符索引于属于所述剩余标识符类数据中的标识符之前，更新所述第一索引为关于所述标识符的第二索引。

12.根据权利要求11所述的索引系统，其特征在于，还包括：

13.根据权利要求12所述的索引系统，其特征在于，还包括：

召回引擎，选取在所述目标对象类数据中的当前对象；

所述对象映射关系引擎接收所述第二增加执行信号并根据所述第二增加执行信号将与所述目标对象类数据中对象对应的标识符映射至所述索引关系内所述目标对象类数据中对象的数字内容数据。

14.根据权利要求12所述的索引系统，其特征在于，还包括：

召回引擎，选取在所述剩余标识符类数据中的当前标识符；

所述索引引擎发送所述第二增加执行信号至所述数据库；

15.根据权利要求13或14所述的索引系统，其特征在于，还包括：

解析引擎；

16.根据权利要求15所述的索引系统，其特征在于，

所述召回引擎选取在所述索引关系内层次关系中末层邻域内的当前尾端标识符；

17.一种索引装置，其特征在于，包括：

至少一个处理器；

存储器，与所述至少一个处理器连接；

其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现权利要求1至8中任意一项权利要求所述的方法。

18.一种计算机可读存储介质，存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1至8中任意一项权利要求所述的方法。