CN111274795B

CN111274795B - 向量获取方法、装置、电子设备以及计算机可读存储介质

Info

Publication number: CN111274795B
Application number: CN201811475063.7A
Authority: CN
Inventors: 林宇澄; 杨晓庆
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2023-06-20
Anticipated expiration: 2038-12-04
Also published as: CN111274795A

Abstract

本申请提供了一种向量获取方法、装置、电子设备以及计算机可读存储介质，该方法包括：获取初始向量和投影矩阵，初始向量包括初始主语向量、初始宾语向量和初始关系向量，初始主语向量的数目与初始宾语向量的数目之间的差值大于预设数目阈值，初始主语向量存储于RDD，初始宾语向量、初始关系向量和投影矩阵是通过Spark架构的广播变量获取的；根据投影矩阵和初始数据，对初始向量进行训练，得到目标特征训练向量。通过广播变量获取初始宾语向量、初始关系向量和投影矩阵，避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况，提高了训练包括特征主语向量、特征宾语向量和特征关系向量的目标特征训练向量的灵活性。

Description

向量获取方法、装置、电子设备以及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种向量获取方法、装置、电子设备以及计算机可读存储介质。

背景技术

随着大数据技术的不断发展，用户可以根据获取的大量数据对主语实体、宾语实体和SPO(Subject-Predicate-Object，主语-谓语-宾语)三元组进行提取分析，从而确定各个主语实体和各个宾语实体之间的关系。

相关技术中，可以通过TransR(Translate in Relation Space，基于翻译模型的关系空间中的嵌入学习算法)技术对大量的主语实体、宾语实体以及主语实体和宾语实体之间的关系输入预先设置的数据模型，通过数据模型对主语实体、宾语实体以及主语实体和宾语实体之间的关系进行分析训练，得到主语向量、宾语向量和关系向量。

但是，若主语实体的数量远大于宾语实体的数量，会造成数据量不均衡，导致报错中断的情况，无法训练得到主语向量、宾语向量和关系向量。

发明内容

有鉴于此，本申请实施例的目的在于提供一种向量获取方法、装置、电子设备及计算机可读存储介质，能够通过从RDD获取初始向量中的初始主语向量，并通过Spark架构的广播变量获取投影矩阵和初始向量中的初始宾语向量和初始关系向量，并根据投影矩阵和包括多个SPO三元组的初始数据，对初始向量进行训练，得到目标特征训练向量，避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况，提高了训练包括特征主语向量、特征宾语向量和特征关系向量的目标特征训练向量的灵活性。

第一方面，本申请实施例提供了一种向量获取方法，应用于斯帕克Spark架构中的计算节点，所述Spark架构包括：服务器、管理节点、工作节点和所述计算节点，所述管理节点分别与所述服务器和所述工作节点连接，所述工作节点包括至少一个计算节点；所述方法包括：

获取初始向量和投影矩阵，所述初始向量包括初始主语向量、初始宾语向量和初始关系向量，所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值，其中，所述初始主语向量存储于弹性分布式数据集RDD，所述初始宾语向量、所述初始关系向量和所述投影矩阵是通过所述Spark架构的广播变量获取的；

根据所述投影矩阵和初始数据，对所述初始向量进行训练，得到目标特征训练向量，所述初始数据包括多个主谓宾SPO三元组，所述目标特征训练向量包括：特征主语向量、特征宾语向量和特征关系向量。

可选的，所述根据所述投影矩阵和初始数据，对所述初始向量进行训练，包括：

根据所述投影矩阵和所述初始数据，对所述初始向量进行训练，得到第一训练向量；

若所述第一训练向量的损失函数值不小于预设函数阈值，根据所述投影矩阵和所述初始数据对所述第一训练向量进行训练，得到第二训练向量，直至训练得到的目标特征训练向量的损失函数值小于所述预设函数阈值。

根据SPO三元组正样本，生成SPO三元组负样本；

根据所述SPO三元组正样本、所述SPO三元组负样本和所述投影矩阵，对所述初始向量进行训练。

可选的，所述根据所述SPO三元组正样本、所述SPO三元组负样本和所述投影矩阵，对所述初始向量进行训练之前，还包括：

通过RDD外连接的方式，对所述SPO三元组负样本中的非法负样本进行过滤，得到合法负样本；

所述根据所述SPO三元组正样本、所述SPO三元组负样本和所述投影矩阵，对所述初始向量进行训练，包括：

根据所述SPO三元组正样本、所述合法负样本和所述投影矩阵，对所述初始向量进行训练。

可选的，所述初始主语向量的向量维度和所述初始宾语向量的向量维度，均与所述初始关系向量的向量维度不同；

根据所述投影矩阵对所述初始主语向量和所述初始宾语向量的向量维度进行调整，得到调整后的初始主语向量和调整后的初始宾语向量，所述调整后的初始主语的向量维度、所述调整后的初始宾语向量的向量维度均与所述初始关系向量的向量维度相同；

根据所述SPO三元组正样本、所述SPO三元组负样本，对所述调整后的初始主语向量、所述调整后的初始宾语向量和所述初始关系向量进行训练。

可选的，所述根据所述投影矩阵和所述初始数据对所述第一训练向量进行训练，包括：

对所述第一训练向量进行归一化，得到归一化第一训练向量；

根据所述投影矩阵和所述初始数据对所述归一化第一训练向量进行训练。

可选的，在所述根据所述投影矩阵和初始数据，对所述初始向量进行训练之后，还包括：

将所述目标特征训练向量中的主语实体名、宾语实体名和关系名，由整型数据类型转换为字符串数据类型，得到转换后的目标特征训练向量。

可选的，所述特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式，所述特征宾语向量和所述特征关系向量的格式类型为文本格式。

第二方面，本申请实施例提供了一种向量获取装置，应用于Spark架构中的计算节点，所述Spark架构包括：服务器、管理节点、工作节点和所述计算节点，所述管理节点分别与所述服务器和所述工作节点连接，所述工作节点包括至少一个计算节点；所述装置包括：

获取模块，用于获取初始向量和投影矩阵，所述初始向量包括初始主语向量、初始宾语向量和初始关系向量，所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值，其中，所述初始主语向量存储于弹性分布式数据集RDD，所述初始宾语向量、所述初始关系向量和所述投影矩阵是通过所述Spark架构的广播变量获取的；

训练模块，用于根据所述投影矩阵和初始数据，对所述初始向量进行训练，得到目标特征训练向量，所述初始数据包括多个主谓宾SPO三元组，所述目标特征训练向量包括：特征主语向量、特征宾语向量和特征关系向量。

可选的，所述训练模块，具体用于根据所述投影矩阵和所述初始数据，对所述初始向量进行训练，得到第一训练向量；若所述第一训练向量的损失函数值不小于预设函数阈值，根据所述投影矩阵和所述初始数据对所述第一训练向量进行训练，得到第二训练向量，直至训练得到的目标特征训练向量的损失函数值小于所述预设函数阈值。

可选的，所述训练模块，具体用于根据SPO三元组正样本，生成SPO三元组负样本；根据所述SPO三元组正样本、所述SPO三元组负样本和所述投影矩阵，对所述初始向量进行训练。

可选的，还包括：

过滤模块，用于通过RDD外连接的方式，对所述SPO三元组负样本中的非法负样本进行过滤，得到合法负样本；

所述训练模块，还具体用于根据所述SPO三元组正样本、所述合法负样本和所述投影矩阵，对所述初始向量进行训练。

所述训练模块，还具体用于根据所述投影矩阵对所述初始主语向量和所述初始宾语向量的向量维度进行调整，得到调整后的初始主语向量和调整后的初始宾语向量，所述调整后的初始主语的向量维度、所述调整后的初始宾语向量的向量维度均与所述初始关系向量的向量维度相同；根据所述SPO三元组正样本、所述SPO三元组负样本，对所述调整后的初始主语向量、所述调整后的初始宾语向量和所述初始关系向量进行训练。

可选的，所述训练模块，还具体用于对所述第一训练向量进行归一化，得到归一化第一训练向量；根据所述投影矩阵和所述初始数据对所述归一化第一训练向量进行训练。

可选的，还包括：

转换模块，用于将所述目标特征训练向量中的主语实体名、宾语实体名和关系名，由整型数据类型转换为字符串数据类型，得到转换后的目标特征训练向量。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面中任一所述的向量获取方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面中任一所述的向量获取方法的步骤。

本申请实施例通过从RDD获取初始向量中的初始主语向量，并通过Spark架构的广播变量获取投影矩阵和初始向量中的初始宾语向量和初始关系向量，并根据投影矩阵和包括多个SPO三元组的初始数据，对初始向量进行训练，得到目标特征训练向量，避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况，提高了训练包括特征主语向量、特征宾语向量和特征关系向量的目标特征训练向量的灵活性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请提供的一种向量获取方法所涉及的斯帕克Spark架构的示意图；

图2示出了本申请的一些实施例的电子设备的示例性硬件和软件组件的示意图；

图3示出了本申请实施例所提供的一种向量获取方法流程示意图；

图4示出了本申请实施例所提供的另一种向量获取方法流程示意图；

图5示出了本申请实施例所提供的一种向量获取装置的框图；

图6示出了本申请实施例所提供的另一种向量获取装置的框图；

图7示出了本申请实施例所提供的又一种向量获取装置的框图；

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

图1示出了本申请提供的一种向量获取方法所涉及的斯帕克Spark架构的示意图；如图1所示，该Spark架构可以包括：服务器110、管理节点120、工作节点130和计算节点140。

其中，管理节点120分别与服务器110和工作节点130连接，工作节点130包括至少一个计算节点140。

本申请所提供的向量获取方法可以部署在该Spark架构上，且该向量获取方法可以为基于TransR的向量获取方法。

具体地，服务器110可以先从HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)中获取初始数据，该初始数据可以包括多个SPO三元组，并对初始数据的数据类型进行转换，根据转换后的初始数据构建索引数据，再根据索引数据构建初始向量，初始向量可以包括初始主语向量、初始宾语向量和初始关系向量，最后将初始向量中的初始主语向量存储至RDD(Resilient Distributed Datasets，弹性分布式数据集)，并通过广播变量对初始宾语向量和初始关系向量进行广播共享。

其中，初始主语向量的数目与初始宾语向量的数目之间的差值大于预设数目阈值。

另外，由于初始主语向量和初始宾语向量的向量维度不同，而在训练过程中，需要统一初始主语向量和初始宾语向量的向量维度，因此，可以根据初始主语向量和初始宾语向量的向量维度生成投影矩阵，使得通过投影矩阵的处理后的初始主语向量的向量维度，与初始宾语向量的向量维度相同。

另外，投影矩阵的数目与初始宾语向量的数目类似，也可以采用广播变量对投影矩阵进行广播共享，使得计算节点140在接收初始宾语向量和初始关系向量的同时，还可以接收投影矩阵。

进一步地，服务器110可以根据TransR的配置文件中设置的特征维数N，采用正态分布的方式，根据初始数据构建初始向量，得到N维的初始向量。也可以根据初始数据，结合预置向量，构建初始向量，该预置向量为通过预置算法训练得到向量；还可以采用其他方式构建初始向量，本申请实施例对此不做限定，其中N为正整数。

例如，可以采用TransE(Translate Embedding，基于翻译模型的嵌入学习算法)的方式先对由正态分布生成的初始向量进行训练，得到预置向量，再根据该预置向量初始化由TransR的方式进行训练的初始向量。

相应的，计算节点140可以响应于用户触发的动作，从RDD中获取初始主语向量，并通过广播变量广播共享的方式接收由服务器110广播的初始宾语向量、初始关系向量和投影矩阵，则可以结合投影矩阵，对初始主语向量、初始宾语向量和初始关系向量进行训练，得到目标特征训练向量。

需要说明的是在实际应用中，服务器110用于接收用户提交的工作任务，并向管理节点120申请处理该工作任务的资源，比如计算节点140；管理节点120服务器110分配资源，并监控各工作节点130的资源占用状态，工作节点130所包括的计算节点140用于执行所分配的工作任务。

进一步地，管理节点120可以为Spark原生的Standalone(独立启动)资源管理节点、由Hadoop YARN(Yet Another Resource Negotiator，另一种资源协调者)服务提供的资源管理器等，用于监控Spark架构中各个节点的工作状态，工作节点130可以为用于监控Spark架构中各个节点的工作状态，工作节点130可以为Spark Standalone模式中的Worker(工作)节点、Hadoop YARN模式中的NodeManager(管理节点)节点等，用于控制计算节点140，而计算节点140可以为工作节点130中运行的某个应用程序对应的进程。

图2示出了根据本申请的一些实施例的可以实现本申请思想的服务器110、管理节点120、工作节点130和计算节点140的电子设备200的示例性硬件和软件组件的示意图。例如，处理器可以用于电子设备200上，并且用于执行本申请中的功能。

电子设备200可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的向量获取方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备200中仅描述了一个处理器。然而，应当注意，本申请中的电子设备200还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

图3示出了本申请实施例所提供的一种向量获取方法流程示意图。该方法的执行主体可以是如图1中所示的计算节点等，在此不作限制。如图3所示，该方法包括：

S301、获取初始向量和投影矩阵。

其中，初始向量可以包括初始主语向量、初始宾语向量和初始关系向量，且初始主语向量的数目与初始宾语向量的数目之间的差值大于预设数目阈值。

而且，初始主语向量存储于RDD，初始宾语向量、初始关系向量和投影矩阵是通过Spark架构的广播变量获取的。

为了对初始向量进行训练，避免由于数据量不均衡的情况导致无法训练的情况，可以获取预先存储在RDD中的初始主语向量，而由于初始主语向量的数目远大于初始宾语向量的数目，可以通过Spark架构中服务器采用广播变量的方式对初始宾语向量进行广播共享，从而获取初始宾语向量。

类似的，由于初始关系向量和投影矩阵的数目与初始宾语向量的数目近似，则可以通过上述对初始关系向量和投影矩阵进行广播共享的方式，获取初始关系向量和投影矩阵。

需要说明的是，Spark架构中的服务器可以从预先设置的HDFS中获取初始数据，并根据初始数据中的多个SPO三元组进行初始化，得到包括初始主语向量、初始宾语向量和初始关系向量的初始向量，并将初始主语向量存储在RDD中，再采用广播变量对初始宾语向量和初始关系向量进行广播共享，则计算节点可以接收广播的初始宾语向量和初始关系向量，以便在后续步骤中，训练得到目标特征训练向量。

另外，投影矩阵是根据初始主语向量、初始宾语向量和初始关系向量的向量维度生成的，用于统一初始主语向量、初始宾语向量和初始关系向量的向量维度。

S302、根据投影矩阵和初始数据，对初始向量进行训练，得到目标特征训练向量。

其中，初始数据可以包括多个SPO三元组，目标特征训练向量可以包括：特征主语向量、特征宾语向量和特征关系向量。而且，为了提高计算节点获取SPO三元组中主语实体名、宾语实体名和关系名的效率，可以分别将多个主语实体名作为初始数据，类似的，也可以将多个宾语实体名作为初始数据，还可以将多个关系名作为初始数据。

例如，主语实体名为“乘客甲”，宾语实体名为“数码科技园”，而关系名为“常去”，则对应的SPO三元组为“乘客甲常去数码科技园”。

需要说明的是，SPO三元组、主语实体名、宾语实体名和关系名的数据类型均为string(字符串)类型，而在训练过程中，为了提高训练速度，减少训练所花费的时间，可以将SPO三元组、主语实体名、宾语实体名和关系名的数据类型由string类型转换为int(整型)类型。

计算节点在得到初始向量后，可以根据获取的投影矩阵和初始数据对初始向量进行训练，使得初始向量的梯度下降，相对应的，训练后的初始向量对应的损失函数值不断下降，最后得到满足预设条件的目标特征训练向量。

具体地，计算节点可以将初始向量、初始数据和投影矩阵输入预先设置的数据模型中，并根据初始数据和投影矩阵对初始向量进行训练，得到训练后的初始向量，并判断训练后的初始向量是否满足预设条件。

若满足预设条件，则可以将训练后的初始向量作为目标特征训练向量。但是，若不满足预设条件，则可以再次对训练后的初始向量进行训练，直至训练得到的向量满足预设条件，得到目标特征训练向量。

进一步地，在训练过程中，可以每隔预先设置的预置训练次数向用户展示展示训练后的向量。例如，预置训练次数为10，可以每训练10次向用户展示当前训练得到的初始向量，如果训练36次后得到目标特征训练向量，则可以在第10次、第20次和第30次向用户展示当前训练得到初始向量，并在第36次向用户展示目标特征训练向量。

综上所述，本申请实施例提供的向量获取方法，通过从RDD获取初始向量中的初始主语向量，并通过Spark架构的广播变量获取投影矩阵和初始向量中的初始宾语向量和初始关系向量，并根据投影矩阵和包括多个主谓宾SPO三元组的初始数据，对初始向量进行训练，得到目标特征训练向量，避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况，提高了训练包括特征主语向量、特征宾语向量和特征关系向量的目标特征训练向量的灵活性。

图4示出了本申请实施例所提供的另一种向量获取方法流程示意图。该方法的执行主体可以是如图1中所示的计算节点等，在此不作限制。如图4所示，该方法包括：

S401、获取初始向量和投影矩阵。

需要说明的是，初始主语向量存储于RDD，初始宾语向量、初始关系向量和投影矩阵是通过Spark架构的广播变量获取的。

S402、根据投影矩阵和初始数据，对初始向量进行训练，得到第一训练向量。

其中，初始数据可以包括多个SPO三元组。

计算节点在获取初始向量后，即可对初始向量进行训练，而在训练过程中，不但需要正样本对初始向量进行训练，还需要根据负样本对初始向量进行训练，从而提高训练得到的向量的准确度。

可选的，可以根据SPO三元组正样本，生成SPO三元组负样本，并根据该SPO三元组正样本、该SPO三元组负样本和投影矩阵，对初始向量进行训练。

具体地，可以将初始数据中的SPO三元组作为正样本，从而得到SPO三元组正样本，并将SPO三元组正样本中的主语和宾语进行随机替换，生成SPO三元组负样本，最后根据SPO三元组正样本、该SPO三元组负样本，结合投影矩阵对初始向量进行训练，得到第一训练向量。

例如，与步骤302的举例相对应的，SPO三元组为“乘客甲常去数码科技园”，则根据该SPO三元组生成的SPO三元组负样本可以为“乘客乙常去数码科技园”，也可以为“乘客甲常去丈八四路”。

但是，由于包括大量的SPO三元组正样本，而随机生成的SPO三元组负样本中可能与某个SPO三元组正样本一致，则生成的SPO三元组负样本为SPO三元组正样本，该SPO三元组负样本为非法负样本。

因此，需要SPO三元组负样本进行筛选，滤除非法负样本。

进一步地，可以通过RDD外连接的方式，对SPO三元组负样本中的非法负样本进行过滤，得到合法负样本，相对应的，则可以根据SPO三元组正样本、该合法负样本和投影矩阵，对初始向量进行训练。

具体地，可以将SPO三元组正样本对应的正样本集合与SPO三元组负样本对应的负样本集合进行比较，通过判断某个SPO三元组负样本是否与正样本集合中的每个SPO三元组正样本相同，若相同，则可以确定该SPO三元组负样本为非法负样本，需要在负样本集合中删除该SPO三元组负样本。

类似的，在对负样本集合中的每个SPO三元组负样本进行遍历后，则可以确定负样本集合中的非法负样本，并对确定的非法负样本进行滤除，得到包括合法负样本的负样本集合。

另外，需要说明的是，在实际应用中，初始主语向量的向量维度和初始宾语向量的向量维度，均与初始关系向量的向量维度不同，相对应的，需要通过投影矩阵对初始主语向量、初始宾语向量和初始关系向量的向量维度进行统一，以便对初始向量进行训练。

可选的，可以根据投影矩阵对初始主语向量和初始宾语向量的向量维度进行调整，得到调整后的初始主语向量和调整后的初始宾语向量，并根据SPO三元组正样本、SPO三元组负样本，对调整后的初始主语向量、调整后的初始宾语向量和初始关系向量进行训练。

其中，调整后的初始主语的向量维度、调整后的初始宾语向量的向量维度均与初始关系向量的向量维度相同。

例如，初始主语向量为M*P的矩阵，初始宾语向量为N*P的矩阵，而初始关系向量为R*Q的矩阵，则投影矩阵可以为P*Q的矩阵，使得调整后的初始主语向量为M*Q的矩阵，调整后的初始宾语向量为N*Q的矩阵，则调整后的初始主语向量、调整后的初始宾语向量和初始关系向量的矩阵的每一行向量维度都为Q，保持一致，其中M、N、R、P和Q均为正整数。

S403、若第一训练向量的损失函数值不小于预设函数阈值，根据投影矩阵和初始数据对第一训练向量进行训练，得到第二训练向量，直至训练得到的目标特征训练向量的损失函数值小于预设函数阈值。

其中，该目标特征训练向量可以包括：特征主语向量、特征宾语向量和特征关系向量。

在确定训练得到第一训练向量的损失函数值不满足预设条件，也即是不小于预设函数值时，可以再次对第一训练向量进行训练，直至训练得到损失函数值小于预设函数值的目标特征训练向量。

具体地，可以将第一训练向量再次输入预先设置的数据模型，并结合初始数据和投影矩阵对该第一训练向量进行训练，得到第二训练向量，再判断第二训练向量的损失函数值是否小于预设函数阈值，从而根据判断结果执行不同的操作，进而得到目标特征训练向量。

另外，由于每次训练得到的向量对应的参数值会发生变化，则需要对第一训练向量进行归一化，并对归一化后的归一化第一训练向量进行训练，避免训练得到的向量出现数据偏移过大的情况。

可选的，可以对第一训练向量进行归一化，得到归一化第一训练向量，根据投影矩阵和初始数据对归一化第一训练向量进行训练。类似的，在对第一训练向量进行归一化的同时，还可以对投影矩阵也进行归一化，以便对训练得到的第二训练向量进行进一步修正。

需要说明的是，为了减少读取特征主语向量所花费的时间，特征主语向量的格式类型可以为面向分析型业务的列式存储Parquet格式，类似的，特征宾语向量和特征关系向量的格式类型也可以为Parquet格式。

但是，在实际应用中，特征宾语向量和特征关系向量的数目远小于特征主语向量的数目，则特征宾语向量和特征关系向量的格式类型可以为文本格式。

例如，特征主语向量的格式类型为Parquet格式，特征宾语向量和特征关系向量的格式类型为文本格式，则特征主语向量可以包括两列，分别对应主体实体名和N维的特征向量，而特征宾语向量可以包括多行，每行的第一列为宾语实体名，从第二列开始为包括N列的特征向量，类似的，特征关系向量也可以包括多行，每行的第一列为关系名，从第二列开始为包括N列的特征向量，其中N为正整数。

S404、将目标特征训练向量中的主语实体名、宾语实体名和关系名，由整型数据类型转换为字符串数据类型，得到转换后的目标特征训练向量。

为了便于用户查阅训练得到的目标特征训练向量，则需要再次对目标特征训练向量中主语实体名、宾语实体名和关系名的数据类型进行转换，得到与初始数据的数据类型相一致的数据。

例如，训练得到目标特征训练向量中主语实体名、宾语实体名和关系名的数据类型为int类型，则可以将int类型的主语实体名、宾语实体名和关系名转换为string类型的主语实体名、宾语实体名和关系名，从而得到转换后的目标特征训练向量。与步骤403相对应的，特征主语向量中的主体实体名、特征宾语向量中的宾语实体名和特征关系向量中的关系名均可以由int类型转换为string类型。

需要说明的是，在训练向量的过程中，会向用户展示训练后的向量，则在向用户展示之前，也需要对训练后的向量的数据类型进行转换，以便用户查阅当前正在训练的向量。

进一步地，通过对目标特征训练向量的数据类型进行转换，可以减少训练目标特征训练向量所花费的时间，提高训练目标特征训练向量的效率。

进一步地，通过对非法负样本进行滤除，避免了将非法负样本也即是正样本作为负样本进行训练的情况，提高了目标特征训练向量的鲁棒性。

进一步地，通过分开存储初始主语向量和初始宾语向量，可以避免共同存储时主语实体名与宾语实体名相一致互相影响的情况。

图5是示出本申请实施例所提供的一种向量获取装置的框图，该向量获取装置实现的功能对应上述方法执行的步骤。该装置可以理解为如图1所示的计算节点，如图所示，向量获取装置可以包括：

获取模块501，用于获取初始向量和投影矩阵，该初始向量包括初始主语向量、初始宾语向量和初始关系向量，该初始主语向量的数目与该初始宾语向量的数目之间的差值大于预设数目阈值，其中，该初始主语向量存储于弹性分布式数据集RDD，该初始宾语向量、该初始关系向量和该投影矩阵是通过该Spark架构的广播变量获取的；

训练模块502，用于根据该投影矩阵和初始数据，对该初始向量进行训练，得到目标特征训练向量，该初始数据包括多个主谓宾SPO三元组，该目标特征训练向量包括：特征主语向量、特征宾语向量和特征关系向量。

可选的，该训练模块502，具体用于根据该投影矩阵和该初始数据，对该初始向量进行训练，得到第一训练向量；若该第一训练向量的损失函数值不小于该预设函数阈值，根据该投影矩阵和该初始数据对该第一训练向量进行训练，得到第二训练向量，直至训练得到的目标特征训练向量的损失函数值小于该预设函数阈值。

可选的，该训练模块502，具体用于根据SPO三元组正样本，生成SPO三元组负样本；根据该SPO三元组正样本、该SPO三元组负样本和该投影矩阵，对该初始向量进行训练。

可选的，参见图6，该装置还包括：

过滤模块503，用于通过RDD外连接的方式，对该SPO三元组负样本中的非法负样本进行过滤，得到合法负样本；

该训练模块502，还具体用于根据该SPO三元组正样本、该合法负样本和该投影矩阵，对该初始向量进行训练。

可选的，该初始主语向量的向量维度和初始宾语向量的向量维度，均与初始关系向量的向量维度不同；

该训练模块502，还具体用于根据该投影矩阵对该初始主语向量和该初始宾语向量的向量维度进行调整，得到调整后的初始主语向量和调整后的初始宾语向量，该调整后的初始主语的向量维度、该调整后的初始宾语向量的向量维度均与该初始关系向量的向量维度相同；根据该SPO三元组正样本、该SPO三元组负样本，对该调整后的初始主语向量、该调整后的初始宾语向量和该初始关系向量进行训练。

可选的，该训练模块502，还具体用于对该第一训练向量进行归一化，得到归一化第一训练向量；根据该投影矩阵和该初始数据对该归一化第一训练向量进行训练。

可选的，参见图7，该装置还包括：

转换模块504，用于将所述目标特征训练向量中的主语实体名、宾语实体名和关系名，由整型数据类型转换为字符串数据类型，得到转换后的目标特征训练向量。

可选的，特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式，该特征宾语向量和该特征关系向量的格式类型为文本格式。

综上所述，本申请实施例提供的向量获取装置，通过从RDD获取初始向量中的初始主语向量，并通过Spark架构的广播变量获取投影矩阵和初始向量中的初始宾语向量和初始关系向量，并根据投影矩阵和包括多个主谓宾SPO三元组的初始数据，对初始向量进行训练，得到目标特征训练向量，避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况，提高了训练包括特征主语向量、特征宾语向量和特征关系向量的目标特征训练向量的灵活性。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

如图8所示，为本申请实施例提供的一种电子设备的结构示意图，包括：处理器801、存储器802和总线803。

所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，所述机器可读指令被所述处理器801执行时执行如下处理：

在具体实施中，上述处理器801执行的处理中，所述根据所述投影矩阵和初始数据，对所述初始向量进行训练，包括：

根据SPO三元组正样本，生成SPO三元组负样本；

在具体实施中，上述处理器801执行的处理中，所述根据所述SPO三元组正样本、所述SPO三元组负样本和所述投影矩阵，对所述初始向量进行训练之前，还包括：

在具体实施中，上述处理器801执行的处理中，所述初始主语向量的向量维度和所述初始宾语向量的向量维度，均与所述初始关系向量的向量维度不同；

在具体实施中，上述处理器801执行的处理中，所述根据所述投影矩阵和所述初始数据对所述第一训练向量进行训练，包括：

在具体实施中，上述处理器801执行的处理中，在所述根据所述投影矩阵和初始数据，对所述初始向量进行训练之后，还包括：

在具体实施中，上述处理器801执行的处理中，所述特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式，所述特征宾语向量和所述特征关系向量的格式类型为文本格式。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例所述的向量获取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种向量获取方法，其特征在于，应用于斯帕克Spark架构中的计算节点，所述Spark架构包括：服务器、管理节点、工作节点和所述计算节点，所述管理节点分别与所述服务器和所述工作节点连接，所述工作节点包括至少一个计算节点；所述方法包括：

获取初始向量和投影矩阵，所述初始向量包括初始主语向量、初始宾语向量和初始关系向量，所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值，投影矩阵是根据初始主语向量和初始宾语向量的向量维度生成的，用于统一初始主语向量和初始宾语向量的向量维度，其中，所述初始主语向量存储于弹性分布式数据集RDD，所述初始宾语向量、所述初始关系向量和所述投影矩阵是通过所述Spark架构的广播变量获取的；

2.根据权利要求1所述的方法，其特征在于，所述根据所述投影矩阵和初始数据，对所述初始向量进行训练，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述投影矩阵和初始数据，对所述初始向量进行训练，包括：

根据SPO三元组正样本，生成SPO三元组负样本；

4.根据权利要求3所述的方法，其特征在于，所述根据所述SPO三元组正样本、所述SPO三元组负样本和所述投影矩阵，对所述初始向量进行训练之前，还包括：

5.根据权利要求3所述的方法，其特征在于，所述初始主语向量的向量维度和所述初始宾语向量的向量维度，均与所述初始关系向量的向量维度不同；

6.根据权利要求2所述的方法，其特征在于，所述根据所述投影矩阵和所述初始数据对所述第一训练向量进行训练，包括：

7.根据权利要求1至6任一所述的方法，其特征在于，在所述根据所述投影矩阵和初始数据，对所述初始向量进行训练之后，还包括：

8.根据权利要求1至6任一所述的方法，其特征在于，所述特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式，所述特征宾语向量和所述特征关系向量的格式类型为文本格式。

9.一种向量获取装置，其特征在于，应用于斯帕克Spark架构中的计算节点，所述Spark架构包括：服务器、管理节点、工作节点和所述计算节点，所述管理节点分别与所述服务器和所述工作节点连接，所述工作节点包括至少一个计算节点；所述装置包括：

获取模块，用于获取初始向量和投影矩阵，所述初始向量包括初始主语向量、初始宾语向量和初始关系向量，所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值，投影矩阵是根据初始主语向量和初始宾语向量的向量维度生成的，用于统一初始主语向量和初始宾语向量的向量维度，其中，所述初始主语向量存储于弹性分布式数据集RDD，所述初始宾语向量、所述初始关系向量和所述投影矩阵是通过所述Spark架构的广播变量获取的；

10.根据权利要求9所述的装置，其特征在于，所述训练模块，具体用于根据所述投影矩阵和所述初始数据，对所述初始向量进行训练，得到第一训练向量；若所述第一训练向量的损失函数值不小于预设函数阈值，根据所述投影矩阵和所述初始数据对所述第一训练向量进行训练，得到第二训练向量，直至训练得到的目标特征训练向量的损失函数值小于所述预设函数阈值。

11.根据权利要求9所述的装置，其特征在于，所述训练模块，具体用于根据SPO三元组正样本，生成SPO三元组负样本；根据所述SPO三元组正样本、所述SPO三元组负样本和所述投影矩阵，对所述初始向量进行训练。

12.根据权利要求11所述的装置，其特征在于，还包括：

13.根据权利要求11所述的装置，其特征在于，所述初始主语向量的向量维度和所述初始宾语向量的向量维度，均与所述初始关系向量的向量维度不同；

14.根据权利要求10所述的装置，其特征在于，所述训练模块，还具体用于对所述第一训练向量进行归一化，得到归一化第一训练向量；根据所述投影矩阵和所述初始数据对所述归一化第一训练向量进行训练。

15.根据权利要求9至14任一所述的装置，其特征在于，还包括：

16.根据权利要求9至14任一所述的装置，其特征在于，所述特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式，所述特征宾语向量和所述特征关系向量的格式类型为文本格式。

17.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至8任一所述的向量获取的方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一所述的向量获取的方法的步骤。