CN110188422B - 一种基于网络数据提取节点的特征向量的方法及装置 - Google Patents
一种基于网络数据提取节点的特征向量的方法及装置 Download PDFInfo
- Publication number
- CN110188422B CN110188422B CN201910405587.7A CN201910405587A CN110188422B CN 110188422 B CN110188422 B CN 110188422B CN 201910405587 A CN201910405587 A CN 201910405587A CN 110188422 B CN110188422 B CN 110188422B
- Authority
- CN
- China
- Prior art keywords
- node
- feature vector
- evaluation value
- adjacent
- adjacent node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/18—Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Abstract
本发明涉及计算机领域,公开了一种基于网络数据提取节点的特征向量的方法及装置,用于提高特征向量的准确度,该方法为:采用循环迭代过程,不断变化相邻节点集合中选取的相邻节点,通过训练学习过程,不断探索寻找与所述一个节点关联关系最强的相邻节点的组合,这样,可以提高所述一个节点的目标特征向量的计算准确性,即能够在目标特征向量中体现出所述一个节点与相邻节点之间的关联关系,从而让所述一个节点的目标特征向量更能准确的表征所述节点对应的网络元素所描绘的物理特征。
Description
技术领域
本发明计算机技术领域,尤其涉及一种基于网络数据提取节点的特征向量的方法及装置。
背景技术
随着技术的发展,用于构建网络的方法日益增多,其中一种优选的方法是将网络进行节点化描述。所谓节点化描述是指,将网络中的各种网络元素对应为一个个节点,而各个网络元素之间的关系可用于生成节点的特征向量,例如,网络元素可以包括文章读者、文章作者、文章分类、文章标题、出版社、关键字等等,那么基于文章读者这一网络元素生成的节点,其特征向量可以包括文章读者阅读过的文章、此类的文章标题、关键字等等,进一步地,在所述特征向量中还可以包括文章读者自身的属性信息,如性别、年龄、籍贯等等。使用网络节点化技术,不仅可以应用于图书管理领域,还可以应用于金融科技(FinancialTechnology)领域,如,处理大量金融数据。
从上述内容可以看出,节点之间存在关联关系,因此现有技术下,一个节点的特征向量可以通过对其相邻节点的特征向量进行卷积运算获得。以计算网络中的某一节点的特征向量为例,首先,确定所述某一节点的相邻节点构成固定相邻节点集合,通过卷积运算计算所述固定相邻节点集合中各个相邻节点的特征向量,进而获得所述某一节点的特征向量,采用相同方式可以计算网络中全部节点的特征向量,至此第一轮计算结束;其次,采用与第一轮计算相同的方式,采用多轮迭代的方式,不断计算网络中各个节点的最新的特征向量,直至迭代结果收敛,即各节点的特征向量稳定不变;最后,输出最后获得的各个节点的特征向量,作为各个节点的目标特征向量。
然而,采用上述方法计算各个节点的特征向量,会存在以下缺陷:
若固定相邻节点集合中的至少一个相邻节点与所述某一节点的关联度降低,那最终获得的所述某一节点的目标特征向量不准确;
同时,实际应用中,非固定相邻节点集合中的其他节点可能与所述某一节点存在新的关联,那么,若不考虑这些节点对所述某一节点的影响,则也会造成获得的所述某一节点的目标特征向量不准确,进而造成的节点分类准确度低,以及向各个节点推荐的网络数据匹配性差的问题。
有鉴于此,需要设计一种新的方法,以克服上述缺陷。
发明内容
本发明实施例提供一种基于网络数据提取节点的特征向量的方法及装置,用于提高网络元素对应的节点的目标特征向量的计算准确性。
本发明实施例提供的具体方式如下:
一种基于网络数据提取节点的特征向量的方法,包括:
获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系;
采用循环迭代的方式计算各个节点的特征向量,直至各个节点的迭代结果均收敛,其中,在一轮迭代中针对一个节点计算特征向量包括:
确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量;
至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新;
根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果;
将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
可选的,确定所述一个节点的相邻节点集合,包括:
根据与所述一个节点存在关联关系的相邻节点,构建初始相邻节点集合;
采用预设的采样函数对所述初始相邻节点集合进行采样筛选,获得所述一个节点的相邻节点集合。
可选的,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,包括:
分别针对每一个相邻节点执行以下操作:
计算所述一个节点的特征向量与一个相邻节点的特征向量的距离,并基于所述一个节点的特征向量与一个相邻节点的特征向量的距离,采用预设的边预测函数,计算所述一个节点与所述一个相邻节点之间的关联关系的出现概率;
基于获得的各个出现概率,生成所述一个节点的特征向量的第一评估值,所述第一评估值表征所述特征向量是否满足使用需求。
可选的,在生成所述第一评估值之后,在根据所述第一评估值,对所述相邻节点集合进行更新之前,进一步包括:
基于所述一个节点对应的网络标签,确定所述特征向量的第二评估值,具体包括:基于所述一个节点的特征向量,采用预设的标签预测函数,生成相应的标签预测值,并计算所述标签预测值和所述网络标签之间的距离;
基于所述标签预测值和所述网络标签之间的距离,采用预设的分类器,生成所述特征向量的第二评估值,所述第二评估值表征所述特征向量是否准确。
可选的,基于所述第一评估值,对所述相邻节点集合进行更新,包括:
判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,或者,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,并且,所述第二评估值是否表征所述一个节点的特征向量不准确;
若是,则维持所述相邻节点集合;
否则,在所述相邻节点集合中,将所述相邻节点集合中各个相邻节点的相邻节点并入所述相邻节点集合中,并采用预设的采样函数对所述相邻节点集合重新进行采样筛选,获得新的相邻节点集合。
可选的,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出之后,进一步包括:
基于获得的各个节点的目标特征向量,对各个节点进行分类,或者;
基于获得的各个节点的目标特征向量,向各个节点推荐目标特征向量之间相关联的其他节点对应的网络数据。
一种基于网络数据提取节点的特征向量的装置,包括:
获取模块,用于获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系;
处理模块,用于采用循环迭代的方式计算各个节点的特征向量,直至各个节点的迭代结果均收敛,其中,在一轮迭代中针对一个节点计算特征向量包括:
确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量;
至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新;
根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果;
生成模块,用于将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
可选的,确定所述一个节点的相邻节点集合时,所述处理模块用于:
根据与所述一个节点存在关联关系的相邻节点,构建初始相邻节点集合;
采用预设的采样函数对所述初始相邻节点集合进行采样筛选,获得所述一个节点的相邻节点集合。
可选的,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值时,所述处理模块用于:
分别针对每一个相邻节点执行以下操作:
计算所述一个节点的特征向量与一个相邻节点的特征向量的距离,并基于所述一个节点的特征向量与一个相邻节点的特征向量的距离,采用预设的边预测函数,计算所述一个节点与所述一个相邻节点之间的关联关系的出现概率;
基于获得的各个出现概率,生成所述一个节点的特征向量的第一评估值,所述第一评估值表征所述特征向量是否满足使用需求。
可选的,在生成所述第一评估值之后,在根据所述第一评估值,对所述相邻节点集合进行更新之前,所述处理模块进一步用于:
基于所述一个节点对应的网络标签,确定所述特征向量的第二评估值,具体包括:基于所述一个节点的特征向量,采用预设的标签预测函数,生成相应的标签预测值,并计算所述标签预测值和所述网络标签之间的距离;
基于所述标签预测值和所述网络标签之间的距离,采用预设的分类器,生成所述特征向量的第二评估值,所述第二评估值表征所述特征向量是否准确。
可选的,基于所述第一评估值,对所述相邻节点集合进行更新时,所述处理模块用于:
判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,或者,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,并且,所述第二评估值是否表征所述一个节点的特征向量不准确;
若是,则维持所述相邻节点集合;
否则,在所述相邻节点集合中,将所述相邻节点集合中各个相邻节点的相邻节点并入所述相邻节点集合中,并采用预设的采样函数对所述相邻节点集合重新进行采样筛选,获得新的相邻节点集合。
可选的,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出之后,所述处理模块进一步用于:
基于获得的各个节点的目标特征向量,对各个节点进行分类,或者;
基于获得的各个节点的目标特征向量,向各个节点推荐目标特征向量之间相关联的其他节点对应的网络数据。
一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一项方法的步骤。
一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述任一项方法的步骤。
本发明实施例中,采用循环迭代过程,不断变化相邻节点集合中选取的相邻节点,通过训练学习过程,不断探索寻找与所述一个节点关联关系最强的相邻节点的组合,这样,可以提高所述一个节点的目标特征向量的计算准确性,即能够在目标特征向量中体现出所述一个节点与相邻节点之间的关联关系,从而让所述一个节点的目标特征向量更能准确的表征所述节点对应的网络元素所描绘的物理特征。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种生成网络元素对应的节点的目标特征向量的流程示意图;
图2是本发明实施例提供的各个节点连接示意图;
图3是本发明实施例提供的一种基于网络数据提取节点的特征向量装置的结构示意图;
图4是本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
针对网络元素对应的节点的目标特征向量计算准确度低,进而造成的节点分类准确度低,以及向各个节点推荐的网络数据匹配性差的问题,为了提高目标特征向量计算准确性,在本发明实施例中,为计算网络元素对应的节点的目标特征向量提供了一种解决方案。该方案为:采用循环迭代方式计算各个节点的特征向量,在每一轮中分别计算各个节点的特征向量与所述节点的相邻节点集合中的各相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新,直至各个节点的迭代结果均收敛,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
下面结合附图对本发明优选实施方式进行详细说明。
参阅图1所示,本发明实施例中,生成网络元素对应的节点的目标特征向量的详细流程如下:
S101:获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系。
以图书管理网络为例,假设网络数据中包含大量的图书信息与图书借阅信息,那么,可以将图书信息中的书籍名称作为网络元素,以及将图书借阅信息中的借阅人、借阅时间、借阅地点等作为网络元素。
然后,可以采用节点化的方式构建网络,所述网络中至少记录有两个网络元素对应的节点以及节点之间的边;其中,所谓节点,基于网络数据提取出的网络元素,一个节点对应一种网络元素,而所谓边,是指两个节点之间的任何形式的关联关系。例如,借阅人与被借阅图书;又如,同一位书籍作者出版了两本书;又如,两位借阅人分别阅读过同一本书。
在后面流程中,可以采用循环迭代的方式计算各个节点的特征向量,具体地循环迭代过程从S102开始。
S102:选取一个节点,确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量。
具体的,在确定所述一个节点的相邻节点集合时,可以采用但不限于以下方式:
首先,根据与所述一个节点存在关联关系的相邻节点,构建初始相邻节点集合。
例如,参阅图2所示,假设选取的一个节点v,其相邻节点为u1,u2,u3,u4,那么,构建的初始相邻节点集合为{u1,u2,u3,u4}。
其次,采用预设的采样函数对所述初始相邻节点集合进行采样筛选,获得所述一个节点的相邻节点集合。
例如,参阅图2所示,采用预设采样函数f,对初始相邻节点集合中各相邻节点进行采样筛选,从而得到节点v的相邻节点集合{u1,u2,u3}。
进一步地,在获得所述一个节点的相邻节点集合后,可以先确定相邻节点集合中各个相邻节点的特征向量,从而计算所述一个节点的特征向量。
例如,采用预设的采样函数对所述初始相邻节点集合中的各个相邻节点的初始特征向量进行采样,获得所述一个节点的相邻节点集合。如,借阅人节点的初始相邻节点集合包括多个书籍名称节点,以书籍作者高尔基作为筛选条件,对多个书籍名称节点进行采样筛选操作,删除不包含书籍作者高尔基的初始特征向量的相邻节点,获得借阅人节点的相邻节点集合。
另一方面,本发明实施例中,假设相邻节点为初始使用,则可以基于初始特征向量计算所述一个节点的特征向量;其中,若节点表征书籍,则初始特征向量可以包括书籍作者、书籍类型、书籍出版时间等图书基本信息,而若节点表征借阅人,则初始特征向量可以包括读者身份、年龄、籍贯、喜爱阅读的文章等借阅人自身的属性信息。而假设相邻节点非初始使用,即是在迭代过程中已生成了相应的特征向量,则可以根据上一次迭代过程中已生成的特征向量,来执行本次计算,在此不再赘述。
S103,至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率。
具体的,在计算所述一个节点与每一个相邻节点之间的关联关系的出现概率时,可以采用但不限于以下方式:
计算所述一个节点的特征向量与一个相邻节点的特征向量的距离,并基于所述距离,采用预设的边预测函数,计算所述一个节点与所述一个相邻节点之间的关联关系的出现概率。例如,参阅图2所示,针对相邻节点集合{u1,u2,u3},分别计算和和和之间的距离,并基于获得的各个距离,采用预设边预测函数φ,分别计算节点v与相邻节点集合{u1,u2,u3}中各个节点之间的关联关系的出现概率
其中,关联关系的出现概率表示节点之间的边的连接关系的紧密程度,如节点为IP地址,用户经常访问某个网站,那么,用户IP地址和该网站IP地址的连接更紧密,则两个节点之间的关联关系的出现概率也更大,本发明实施例中,两个节点之间的关联关系,也可以称为两个节点之间的边。
S104:基于所述关联关系的出现概率确定所述特征向量的第一评估值。
具体的,基于获得的各个出现概率,生成所述一个节点的特征向量的第一评估值,所述第一评估值表征所述一个节点的特征向量是否满足使用需求时,可以采用但不限于以下方式:
本发明实施例中,可以根据预设的判定规则,对上述各个出现概率的取值进行评判,以生成第一评估值,例如,假设,在获得的N个边的出现概率中,有一个边的出现概率的取值没有达到设定阈值,则表示,最终计算出来的所述一个节点的特征向量不满足需求;如,假设没有达到设定阈值,则说明节点v与节点u3的连接关系的紧密程度低,因此,的准确度低,进而会造成的准确度低,因此,生成的第一评估值表征不满足使用需求。
具体的,在生成所述第一评估值之后,在根据所述第一评估值,对所述相邻节点集合进行更新之前,还可以基于所述一个节点对应的网络标签,确定所述特征向量的第二评估值,具体可采用但不限于以下方式:
首先,基于所述一个节点的特征向量,采用预设的标签预测函数,生成相应的标签预测值,并计算所述标签预测值和所述网络标签之间的距离。
其次,基于所述标签预测值和所述网络标签之间的距离,采用预设的分类器,生成所述特征向量的第二评估值,所述第二评估值表征所述特征向量是否准确。
本发明实施例中,可以根据预设的判定规则,对上述节点标签预测值与实际网络标签之间的欧氏距离的取值进行评判,以生成第二评估值。
例如,假设所述标签预测值和所述网络标签之间的距离达到设定阈值,则生成第二评估值,表征所述一个节点的特征向量不准确。
如,假设节点v的预测标签值为赞,而实际网络标签值为踩,两者之间的距离没有达到设定阈值,则说明预测标签值与实际网络标签的偏差过大,则说明所述一个节点的特征向量的准确度低,因此,生成的第二评估值表征不准确。
本发明实施例中,之所以需要在生成第一评估值之后,继续生成第二评估值,是因为有些节点对应的网络数据中会存在使用过程生成的网络标签,而这些网络标签会真实的反应节点的特征向量的好坏,因此,如果所述一个节点的特征向量的预测标签值与实际获取的网络标签值偏差过大,说明所述一个节点的特征向量计算准确性低。
此外,本发明实施例中,只针对有网络标签的节点,需要生成第二评估值,以便进一步确定所述一个节点的特征向量计算是否准确,并不是全部节点都需要生成第二评估值。
S105:基于所述第一评估值,对所述相邻节点集合进行更新。
具体的,基于所述第一评估值,对所述相邻节点集合进行更新,可以采用但不限于以下方式:
判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求;
若是,则维持所述相邻节点集合;
否则,在所述相邻节点集合中,将所述相邻节点集合中各个相邻节点的相邻节点并入所述相邻节点集合中,并采用预设的采样函数对所述相邻节点集合重新进行采样筛选,获得新的相邻节点集合。
例如,的第一评估值表征为不满足使用需求,参阅图2所示,将相邻节点集合中{u1,u2,u3}中节点u1的相邻节点u10,节点u2的相邻节点u5和相邻节点u6,节点u3的相邻节点u7并入相邻节点集合中,记为{u1,u2,u3,u5,u6,u7,u10},接着,再采用预设的采样函数f对相邻节点集合中各相邻节点进行采样筛选,从而得到节点v的新的相邻节点集合{u2,u3,u5}。如果需要针对所述一个节点进入下一轮迭代重新计算特征向量,则新选定的相邻节点集合即是{u2,u3,u5}。
进一步地,在判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求的同时,实际上还可能参考所述第二评估值,判断所述第二评估值是否表征所述一个节点的特征向量不准确,通过结合所述第一评估值和所述第二评估值,对所述相邻节点集合进行更新。
例如,针对所述一个节点生成了第二评估值,则在确定第一评估值表征所述一个节点的特征向量不满足使用需求时,在更新相邻节点集合之前,还需要进一步确定所述第二评估值表征所述一个节点的特征向量不准确,在此不再赘述。进一步地,也可以仅参考所述第二评估值,对所述相邻节点集合进行更新。
例如,所述特征向量的所述第二评估值表征为不准确,则说明根据相邻节点集合计算生成的所述一个节点的特征向量准确性低,此时,应更新相邻节点集合,重新计算生成所述一个节点的特征向量。
S106,根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果。
例如,针对节点v,在一次迭代过程中,初始使用的相邻节点集合为{u1,u2,u3},而更新后的相邻节点集合依然为{u1,u2,u3},则说明节点v对应的迭代结果收敛;
又例如,针对节点v,在一次迭代过程中,初始使用的相邻节点集合为{u1,u2,u3},更新后的相邻节点集合为{u2,u3,u5},则说明节点v对应的迭代结果不收敛,应根据新的相邻节点集合{u2,u3,u5}重新计算节点v的特征向量
S107:判断在当前一轮迭代中,是否所有节点已轮询完毕;若是,则执行S108,否则,返回步骤S102。
在当前一轮迭代中,在执行步骤106之后,如果已获得了所有节点的判断结果,说明所有节点在当前一轮迭代中已轮询完毕,则执行S108;否则,说明在当前一轮迭代中,仍存在未轮询的节点,则需要继续返回S102,继续针对下一个选取的节点执行S102~S106。
S108:判断在当前一轮轮询结束后,是否所有节点对应的迭代结果全部收敛,若是,则执行S109,否则,返回S102。
所有节点对应的迭代结果均收敛,表示在最后一轮迭代中生成的所有的节点的特征向量,都是根据各个节点对应的当前最优的相邻节点集合计算得到的。
S109:将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
这样生成的各个节点的特征向量,减小了边的预测误差,以及进一步减小节点的标签预测误差,从而提高了网络元素对应的节点的目标特征向量的计算准确性。
基于同一发明构思,参阅图3所示,本发明实施例中,提供一种基于网络数据提取节点的特征向量的装置,至少包括获取模块301,处理模块302和生成模块303,其中,
获取模块301,用于获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系;
处理模块302,用于采用循环迭代的方式计算各个节点的特征向量,直至各个节点的迭代结果均收敛,其中,在一轮迭代中针对一个节点计算特征向量包括:
确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量;
至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新;
根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果;
生成模块303,用于将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
可选的,确定所述一个节点的相邻节点集合时,所述处理模块302用于,根据与所述一个节点存在关联关系的相邻节点,构建初始相邻节点集合;
采用预设的采样函数对所述初始相邻节点集合进行采样筛选,获得所述一个节点的相邻节点集合。
可选的,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值时,所述处理模块302用于,分别针对每一个相邻节点执行以下操作:
计算所述一个节点的特征向量与一个相邻节点的特征向量的距离,并基于所述一个节点的特征向量与一个相邻节点的特征向量的距离,采用预设的边预测函数,计算所述一个节点与所述一个相邻节点之间的关联关系的出现概率;
基于获得的各个出现概率,生成所述一个节点的特征向量的第一评估值,所述第一评估值表征所述特征向量是否满足使用需求。
可选的,在生成所述第一评估值之后,在根据所述第一评估值,对所述相邻节点集合进行更新之前,所述处理模块302进一步用于:
基于所述一个节点对应的网络标签,确定所述特征向量的第二评估值,具体包括:
基于所述一个节点的特征向量,采用预设的标签预测函数,生成相应的标签预测值,并计算所述标签预测值和所述网络标签之间的距离;
基于所述标签预测值和所述网络标签之间的距离,采用预设的分类器,生成所述特征向量的第二评估值,所述第二评估值表征所述特征向量是否准确。
可选的,基于所述第一评估值,对所述相邻节点集合进行更新时,所述处理模块302用于,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,或者,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,并且,所述第二评估值是否表征所述一个节点的特征向量不准确;
若是,则维持所述相邻节点集合;
否则,在所述相邻节点集合中,将所述相邻节点集合中各个相邻节点的相邻节点并入所述相邻节点集合中,并采用预设的采样函数对所述相邻节点集合重新进行采样筛选,获得新的相邻节点集合。
可选的,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出之后,所述处理模块302进一步用于,基于获得的各个节点的目标特征向量,对各个节点进行分类,或者;
基于获得的各个节点的目标特征向量,向各个节点推荐目标特征向量之间相关联的其他节点对应的网络数据。
基于同一发明构思,参阅图4所示,本发明实施例中,提供一种计算设备,至少包括存储器401和处理器402,其中,
存储器401,用于存储程序指令;
处理器402,用于获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系;
采用循环迭代的方式计算各个节点的特征向量,直至各个节点的迭代结果均收敛,其中,在一轮迭代中针对一个节点计算特征向量包括:
确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量;
至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新;
根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果;
以及,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
可选的,确定所述一个节点的相邻节点集合时,所述处理器402用于,根据与所述一个节点存在关联关系的相邻节点,构建初始相邻节点集合;
采用预设的采样函数对所述初始相邻节点集合进行采样筛选,获得所述一个节点的相邻节点集合。
可选的,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值时,所述处理器402用于,分别针对每一个相邻节点执行以下操作:
计算所述一个节点的特征向量与一个相邻节点的特征向量的距离,并基于所述一个节点的特征向量与一个相邻节点的特征向量的距离,采用预设的边预测函数,计算所述一个节点与所述一个相邻节点之间的关联关系的出现概率;
基于获得的各个出现概率,生成所述一个节点的特征向量的第一评估值,所述第一评估值表征所述特征向量是否满足使用需求。
可选的,在生成所述第一评估值之后,在根据所述第一评估值,对所述相邻节点集合进行更新之前,所述处理器402进一步用于:
基于所述一个节点对应的网络标签,确定所述特征向量的第二评估值,具体包括:
基于所述一个节点的特征向量,采用预设的标签预测函数,生成相应的标签预测值,并计算所述标签预测值和所述网络标签之间的距离;
基于所述标签预测值和所述网络标签之间的距离,采用预设的分类器,生成所述特征向量的第二评估值,所述第二评估值表征所述特征向量是否准确。
可选的,基于所述第一评估值,对所述相邻节点集合进行更新时,所述处理器402用于,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,或者,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,并且,所述第二评估值是否表征所述一个节点的特征向量不准确;
若是,则维持所述相邻节点集合;
否则,在所述相邻节点集合中,将所述相邻节点集合中各个相邻节点的相邻节点并入所述相邻节点集合中,并采用预设的采样函数对所述相邻节点集合重新进行采样筛选,获得新的相邻节点集合。
可选的,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出之后,所述处理器402进一步用于,基于获得的各个节点的目标特征向量,对各个节点进行分类,或者;
基于获得的各个节点的目标特征向量,向各个节点推荐目标特征向量之间相关联的其他节点对应的网络数据。
基于同一发明构思,本发明实施例中,提供一种计算机可读非易失性存储介质,至少包括:包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系;
采用循环迭代的方式计算各个节点的特征向量,直至各个节点的迭代结果均收敛,其中,在一轮迭代中针对一个节点计算特征向量包括:
确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量;
至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新;
根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果;
以及,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
基于上述实施例,本发明实施例中,针对从网络数据中提取的指定网络元素对应的各个节点,采用循环迭代方式,在一轮轮迭代过程中,分别采用各个节点的相邻节点集合中各个相邻节点的特征向量的方式,计算相应节点的特征向量,接着,根据基于各个节点的特征向量,分别计算各个节点与各自的相邻节点之间的关联关系的出现概率,从而生成相应节点的第一评估值,并根据各个第一评估值判断是否对相应节点的相邻节点集合进行更新,进而根据更新结果判断所述相应节点对应的迭代结果是否收敛,直至各个节点的迭代结果均收敛时,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
显然,一个节点与相邻节点之间关联关系的强弱,会影响到参考该相邻节点的特征向量计算出的所述一个节点的特征向量是否准确,因此,本发明实施例中,采用循环迭代过程,不断变化相邻节点集合中选取的相邻节点,通过训练学习过程,不断探索寻找与所述一个节点关联关系最强的相邻节点的组合,这样,可以提高所述一个节点的目标特征向量的计算准确性,即能够在目标特征向量中体现出所述一个节点与相邻节点之间的关联关系,从而让所述一个节点的目标特征向量更能准确的表征所述节点对应的网络元素所描绘的物理特征。
进一步地,本发明实施例中,基于各个节点最终输出的目标特征向量,可以用于对各个节点的准确分类,还可以用于向各个节点精准推荐与所述节点的目标特征向量之间相关联的其它节点对应的网络数据,这样,将获取的网络数据中的网络元素抽象化为对应的节点,将所述网络元素的物理特征抽象化为对应节点的特征向量,当所述网络元素有多个物理特征时,所述节点输出的目标特征向量最能表征所述网络元素描绘的物理特征,如,一条读者历史阅读记录包含读者ID、书名等多个网络元素,因此,基于目标特征向量可实现对节点的准确分类,从而提高网络元素分类的准确度,同时,也可以基于目标特征向量之间的关联程度,实现节点之间的相互推荐,从而提高推荐信息的匹配度。这样,可以令各个网络元素得到更为有效的管理和更为合理的使用,进而提升用户体验。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种基于网络数据提取节点的特征向量的方法,其特征在于,包括:
获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系;
采用循环迭代的方式计算各个节点的特征向量,直至各个节点的迭代结果均收敛,其中,在一轮迭代中针对一个节点计算特征向量包括:
确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量;
至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新;
根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果;
将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
2.如权利要求1所述的方法,其特征在于,确定所述一个节点的相邻节点集合包括:
根据与所述一个节点存在关联关系的相邻节点,构建初始相邻节点集合;
采用预设的采样函数对所述初始相邻节点集合进行采样筛选,获得所述一个节点的相邻节点集合。
3.如权利要求1或2所述的方法,其特征在于,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,包括:
分别针对每一个相邻节点执行以下操作:
计算所述一个节点的特征向量与一个相邻节点的特征向量的距离,并基于所述一个节点的特征向量与一个相邻节点的特征向量的距离,采用预设的边预测函数,计算所述一个节点与所述一个相邻节点之间的关联关系的出现概率;
基于获得的各个出现概率,生成所述一个节点的特征向量的第一评估值,所述第一评估值表征所述特征向量是否满足使用需求。
4.如权利要求3所述的方法,其特征在于,在生成所述第一评估值之后,在根据所述第一评估值,对所述相邻节点集合进行更新之前,进一步包括:
基于所述一个节点对应的网络标签,确定所述特征向量的第二评估值,具体包括:基于所述一个节点的特征向量,采用预设的标签预测函数,生成相应的标签预测值,并计算所述标签预测值和所述网络标签之间的距离;
基于所述标签预测值和所述网络标签之间的距离,采用预设的分类器,生成所述特征向量的第二评估值,所述第二评估值表征所述特征向量是否准确。
5.如权利要求4所述的方法,其特征在于,基于所述第一评估值,对所述相邻节点集合进行更新,包括:
判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,或者,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,并且,所述第二评估值是否表征所述一个节点的特征向量不准确;
若是,则维持所述相邻节点集合;
否则,在所述相邻节点集合中,将所述相邻节点集合中各个相邻节点的相邻节点并入所述相邻节点集合中,并采用预设的采样函数对所述相邻节点集合重新进行采样筛选,获得新的相邻节点集合。
6.如权利要求1或2所述的方法,其特征在于,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出之后,进一步包括:
基于获得的各个节点的目标特征向量,对各个节点进行分类,或者;
基于获得的各个节点的目标特征向量,向各个节点推荐目标特征向量之间相关联的其他节点对应的网络数据。
7.一种基于网络数据提取节点的特征向量的装置,其特征在于,包括:
获取模块,用于获取网络数据,基于所述网络数据提取出设定的网络元素,并确定各个网络元素对应的节点及各个节点之间的关联关系;
处理模块,用于采用循环迭代的方式计算各个节点的特征向量,直至各个节点的迭代结果均收敛,其中,在一轮迭代中针对一个节点计算特征向量包括:
确定所述一个节点的相邻节点集合,并根据所述相邻节点集合中各个相邻节点的特征向量,计算所述一个节点的特征向量;
至少根据所述一个节点的特征向量,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值,以及基于所述第一评估值,对所述相邻节点集合进行更新;
根据更新结果判断所述一个节点对应迭代结果是否收敛,获得判断结果;
生成模块,用于将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出。
8.如权利要求7所述的装置,其特征在于,确定所述一个节点的相邻节点集合时,所述处理模块用于:
根据与所述一个节点存在关联关系的相邻节点,构建初始相邻节点集合;
采用预设的采样函数对所述初始相邻节点集合进行采样筛选,获得所述一个节点的相邻节点集合。
9.如权利要求7或8所述的装置,其特征在于,分别计算所述一个节点与每一个相邻节点之间的关联关系的出现概率,基于所述关联关系的出现概率确定所述特征向量的第一评估值时,所述处理模块用于:
分别针对每一个相邻节点执行以下操作:
计算所述一个节点的特征向量与一个相邻节点的特征向量的距离,并基于所述一个节点的特征向量与一个相邻节点的特征向量的距离,采用预设的边预测函数,计算所述一个节点与所述一个相邻节点之间的关联关系的出现概率;
基于获得的各个出现概率,生成所述一个节点的特征向量的第一评估值,所述第一评估值表征所述特征向量是否满足使用需求。
10.如权利要求9所述的装置,其特征在于,在生成所述第一评估值之后,在根据所述第一评估值,对所述相邻节点集合进行更新之前,所述处理模块进一步用于:
基于所述一个节点对应的网络标签,确定所述特征向量的第二评估值,具体包括:基于所述一个节点的特征向量,采用预设的标签预测函数,生成相应的标签预测值,并计算所述标签预测值和所述网络标签之间的距离;
基于所述标签预测值和所述网络标签之间的距离,采用预设的分类器,生成所述特征向量的第二评估值,所述第二评估值表征所述特征向量是否准确。
11.如权利要求10所述的装置,其特征在于,基于所述第一评估值,对所述相邻节点集合进行更新时,所述处理模块用于:
判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,或者,判断所述第一评估值是否表征所述一个节点的特征向量满足使用需求,并且,所述第二评估值是否表征所述一个节点的特征向量不准确;
若是,则维持所述相邻节点集合;
否则,在所述相邻节点集合中,将所述相邻节点集合中各个相邻节点的相邻节点并入所述相邻节点集合中,并采用预设的采样函数对所述相邻节点集合重新进行采样筛选,获得新的相邻节点集合。
12.如权利要求7或8所述的装置,其特征在于,将各个节点在最后一轮迭代中获得的特征向量,作为目标特征向量输出之后,所述处理模块进一步用于:
基于获得的各个节点的目标特征向量,对各个节点进行分类,或者;
基于获得的各个节点的目标特征向量,向各个节点推荐目标特征向量之间相关联的其他节点对应的网络数据。
13.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至6任一项所述的方法。
14.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910405587.7A CN110188422B (zh) | 2019-05-16 | 2019-05-16 | 一种基于网络数据提取节点的特征向量的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910405587.7A CN110188422B (zh) | 2019-05-16 | 2019-05-16 | 一种基于网络数据提取节点的特征向量的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188422A CN110188422A (zh) | 2019-08-30 |
CN110188422B true CN110188422B (zh) | 2022-12-20 |
Family
ID=67716474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910405587.7A Active CN110188422B (zh) | 2019-05-16 | 2019-05-16 | 一种基于网络数据提取节点的特征向量的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188422B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461301B (zh) * | 2020-03-30 | 2021-05-25 | 北京沃东天骏信息技术有限公司 | 序列化数据处理方法和装置、文本处理方法和装置 |
CN112839025B (zh) * | 2020-11-26 | 2022-04-12 | 北京航空航天大学 | 基于节点关注和转发特征的Sybil攻击检测方法和电子设备 |
CN113240505A (zh) * | 2021-05-10 | 2021-08-10 | 深圳前海微众银行股份有限公司 | 图数据的处理方法、装置、设备、存储介质及程序产品 |
CN117349386B (zh) * | 2023-10-12 | 2024-04-12 | 吉玖(天津)技术有限责任公司 | 一种基于数据强弱关联模型的数字人文应用方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355506A (zh) * | 2016-08-15 | 2017-01-25 | 中南大学 | 一种在线社会网络中影响力最大化初始节点选取方法 |
CN109460793A (zh) * | 2018-11-15 | 2019-03-12 | 腾讯科技(深圳)有限公司 | 一种节点分类的方法、模型训练的方法及装置 |
CN109583562A (zh) * | 2017-09-28 | 2019-04-05 | 西门子股份公司 | Sgcnn:结构的基于图的卷积神经网络 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105379186A (zh) * | 2013-01-30 | 2016-03-02 | 惠普发展公司,有限责任合伙企业 | 确定响应类似性邻域 |
US10361926B2 (en) * | 2017-03-03 | 2019-07-23 | Nec Corporation | Link prediction with spatial and temporal consistency in dynamic networks |
-
2019
- 2019-05-16 CN CN201910405587.7A patent/CN110188422B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355506A (zh) * | 2016-08-15 | 2017-01-25 | 中南大学 | 一种在线社会网络中影响力最大化初始节点选取方法 |
CN109583562A (zh) * | 2017-09-28 | 2019-04-05 | 西门子股份公司 | Sgcnn:结构的基于图的卷积神经网络 |
CN109460793A (zh) * | 2018-11-15 | 2019-03-12 | 腾讯科技(深圳)有限公司 | 一种节点分类的方法、模型训练的方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于深度神经网络的社会媒体网络分析;张艳红 等;《计算机科学》;20160415;第43卷(第4期);第252-263页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110188422A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188422B (zh) | 一种基于网络数据提取节点的特征向量的方法及装置 | |
JP6402265B2 (ja) | 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス | |
CN111507419B (zh) | 图像分类模型的训练方法及装置 | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN108959550B (zh) | 用户关注点挖掘方法、装置、设备及计算机可读介质 | |
WO2020063524A1 (zh) | 一种法律文书的确定方法及系统 | |
Bonaccorso | Hands-On Unsupervised Learning with Python: Implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more | |
CN109635004B (zh) | 一种数据库的对象描述提供方法、装置及设备 | |
CN110942090A (zh) | 模型训练、图像处理方法、装置、电子设备及存储介质 | |
CN110807693A (zh) | 专辑的推荐方法、装置、设备和存储介质 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN116433799B (zh) | 一种基于语义相似度和子图匹配的流程图生成方法和装置 | |
CN112328881B (zh) | 文章推荐方法、装置、终端设备及存储介质 | |
CN114996466A (zh) | 一种医学标准映射模型的建立方法、系统及使用方法 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN113469819A (zh) | 基金产品的推荐方法、相关装置及计算机存储介质 | |
CN112232360A (zh) | 图像检索模型优化方法、图像检索方法、装置及存储介质 | |
CN113792132A (zh) | 一种目标答案确定方法、装置、设备及介质 | |
CN112541357A (zh) | 实体识别方法、装置及智能设备 | |
CN110968685B (zh) | 商品名称的归集方法和装置 | |
US20230259564A1 (en) | Memory system using heterogeneous data format and method of controlling the same | |
CN114036302A (zh) | 分类方法与装置、数据交易系统及可读存储介质 | |
Alarcón et al. | Skeptical inferences in multi-label ranking with sets of probabilities | |
CN116186434A (zh) | 用于生成标签集合的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |