CN110766435A

CN110766435A - 向量训练方法、装置、电子设备以及计算机可读存储介质

Info

Publication number: CN110766435A
Application number: CN201811556283.2A
Authority: CN
Inventors: 杨晓庆; 李奘; 路劲; 薛盛杰; 卓呈祥; 叶杰平; 谭伟; 谢君; 杨有为; 唐甜田; 刘刚刚; 侯帅鹏
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-02-07
Anticipated expiration: 2038-12-19
Also published as: CN110766435B

Abstract

本申请提供了一种向量训练方法、装置、电子设备以及计算机可读存储介质，其中，该方法包括：根据原始评价数据生成包括多个评价组的目标集合，每个评价组包括评价内容、评价者标识和被评价者标识；根据所述目标集合生成多个评价三元组；根据多个所述评价三元组，对初始向量进行训练，得到特征向量。本申请实施例通过对原始评价数据进行处理得到评价三元组，再根据评价三元组对初始向量进行训练，得到特征向量，避免了根据大量原始评价数据进行训练的过程，减少了进行训练所花费的时间，提高了训练得到特征向量的效率。

Description

向量训练方法、装置、电子设备以及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种向量训练方法、装置、电子设备以及计算机可读存储介质。

背景技术

随着互联网的不断发展，不但被服务者可以对服务者进行评价，服务者也可以对被服务者进行评价，从而得到大量的评价。

相关技术中，可以从服务平台中获取各个服务者和各个被服务者的评价，并对获取的各个评价进行分析统计，得到每个服务者和每个被服务者对应的标签和特征。

但是，由于服务平台中包括大量的评价，对各个评价进行分析统计需要花费大量时间，才能达到每个服务者和每个被服务者的特征。

发明内容

有鉴于此，本申请实施例的目的在于提供一种向量训练方法、装置、电子设备以及计算机可读存储介质，根据原始评价数据生成包括多个评价组的目标集合，并根据目标集合生成多个评价三元组，再根据多个评价三元组，对初始向量进行训练，得到特征向量，每个评价组包括评价内容、评价者标识和被评价者标识。通过对原始评价数据进行处理得到评价三元组，再根据评价三元组对初始向量进行训练，得到特征向量，避免了根据大量原始评价数据进行训练的过程，减少了进行训练所花费的时间，提高了训练得到特征向量的效率。

第一方面，本申请实施例提供了一种向量训练方法，包括：

根据原始评价数据生成包括多个评价组的目标集合，每个评价组包括评价内容、评价者标识和被评价者标识；

根据所述目标集合生成多个评价三元组；

根据多个所述评价三元组，对初始向量进行训练，得到特征向量。

可选的，所述根据原始评价数据生成包括多个评价组的目标集合，包括：

根据预设规则对所述原始评价数据进行筛选，得到目标原始数据；

根据预先设置的关联条件，在所述目标原始数据中选取得到所述目标集合。

可选的，所述根据预设规则对所述原始评价数据进行筛选，得到目标原始数据，包括：

根据所述原始评价数据的语义信息，判断所述原始评价数据是否为负面评价；

若所述原始评价数据为负面评价，将所述原始评价数据作为所述目标原始数据。

判断所述原始评价数据对应的评价等级是否大于预置评价等级；

若所述原始评价数据对应的评价等级不大于所述预置评价等级，将所述原始评价数据作为所述目标原始数据。

可选的，所述根据预先设置的关联条件，在所述目标原始数据中选取得到所述目标集合，包括：

判断所述目标原始数据是否满足第一关联条件，所述第一关联条件为所述目标原始数据与所述评价者标识或所述被评价者标识相对应；

判断所述目标原始数据是否满足第二关联条件，所述第二关联条件为所述目标原始数据不与服务平台相对应；

在所述目标原始数据中进行筛选，得到由满足所述第一关联条件、且满足所述第二关联条件的目标原始数据组成的目标集合。

可选的，所述根据多个所述评价三元组，对初始向量进行训练，得到特征向量，包括：

基于翻译模型的关系空间中的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量；

或者，基于翻译模型的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量。

可选的，在所述根据多个所述评价三元组，对初始向量进行训练，得到特征向量之前，包括：

根据多个所述评价三元组，生成所述初始向量；

或者，根据预置训练结果，生成所述初始向量。

可选的，在所述根据原始评价数据生成包括多个评价组的目标集合之前，包括：

获取预设时间内的原始评价数据。

第二方面，本申请实施例提供了一种向量训练装置，包括：

第一生成模块，用于根据原始评价数据生成包括多个评价组的目标集合，每个评价组包括评价内容、评价者标识和被评价者标识；

第二生成模块，用于根据所述目标集合生成多个评价三元组；

训练模块，用于根据多个所述评价三元组，对初始向量进行训练，得到特征向量。

可选的，所述第一生成模块，具体用于根据预设规则对所述原始评价数据进行筛选，得到目标原始数据；根据预先设置的关联条件，在所述目标原始数据中选取得到所述目标集合。

可选的，所述第一生成模块，还具体用于根据所述原始评价数据的语义信息，判断所述原始评价数据是否为负面评价；若所述原始评价数据为负面评价，将所述原始评价数据作为所述目标原始数据。

可选的，所述第一生成模块，具体用于判断所述原始评价数据对应的评价等级是否大于预置评价等级；若所述原始评价数据对应的评价等级不大于所述预置评价等级，将所述原始评价数据作为所述目标原始数据。

可选的，所述第一生成模块，具体用于判断所述目标原始数据是否满足第一关联条件，所述第一关联条件为所述目标原始数据与所述评价者标识或所述被评价者标识相对应；判断所述目标原始数据是否满足第二关联条件，所述第二关联条件为所述目标原始数据不与服务平台相对应；在所述目标原始数据中进行筛选，得到由满足所述第一关联条件、且满足所述第二关联条件的目标原始数据组成的目标集合。

可选的，所述训练模块，具体用于基于翻译模型的关系空间中的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量；或者，基于翻译模型的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量。

可选的，包括：

第三生成模块，用于根据多个所述评价三元组，生成所述初始向量；或者，用于根据预置训练结果，生成所述初始向量。

可选的，包括：

获取模块，用于获取预设时间内的原始评价数据。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面中任一所述的向量训练方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面中任一所述的向量训练方法的步骤。

综上所述，本申请实施例提供的实施例根据原始评价数据生成包括多个评价组的目标集合，并根据目标集合生成多个评价三元组，再根据多个评价三元组，对初始向量进行训练，得到特征向量，每个评价组包括评价内容、评价者标识和被评价者标识。通过对原始评价数据进行处理得到评价三元组，再根据评价三元组对初始向量进行训练，得到特征向量，避免了根据大量原始评价数据进行训练的过程，减少了进行训练所花费的时间，提高了训练得到特征向量的效率。

进一步地，通过根据评价三元组对初始向量进行训练，使得训练得到的特征向量可以体现同一特征向量中，各个对应的特征之间的关联关系。

进一步地，在通过特征向量确定被评价者的特征时，可以结合评价者的特征，提高被评价者的特征的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种向量训练方法所涉及的向量训练系统的示意图；

图2示出了本申请的一些实施例的可以实现本申请思想的服务器110和终端120的电子设备200的示例性硬件和软件组件的示意图；

图3示出了本申请实施例所提供的一种向量训练方法流程示意图；

图4示出了本申请实施例所提供的另一种向量训练方法流程示意图；

图5示出了本申请实施例所提供的一种向量训练装置的框图；

图6示出了本申请实施例所提供的另一种向量训练装置的框图；

图7示出了本申请实施例所提供的又一种向量训练装置的框图；

图8示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

图1示出了本申请实施例提供的一种向量训练方法所涉及的向量训练系统的示意图；如图1所示，该向量训练系统可以包括：服务器110和多个终端120。

其中，服务器110可以与每个终端120通过链路连接。

具体地，每个终端120可以根据评价者触发的操作，向服务器110发送评价者对被评价者的原始评价数据。相对应的，服务器110可以接收终端120发送的原始评价数据。

进一步地，服务器110还可以对多个终端120发送的原始评价数据进行处理，得到包括多个评价组的目标集合，再根据目标集合中的各个评价组，生成多个评价三元组，最后根据评价三元组对初始向量进行训练，得到表示被评价者特征的特征向量。

其中，每个评价组可以包括评价内容、评价者标识和被评价者标识。

例如，服务器110可以搭载向用户提供服务的服务平台，而终端120可以加载用于请求服务的应用程序，则用户可以通过终端120加载的应用程序向服务器110中的服务平台请求服务，而服务平台可以根据应用程序中不同用户对应的不同标识，向不同的用户提供不同的服务。

相对应的，在服务完毕后，被服务者可以对服务者进行评价，而服务者也可以对被服务者进行评价，使得服务者和被服务者均作为评价者，同时也均作为被评价者。

其中，评价者可以根据服务平台提供的初始词条对被评价者进行评价，也可以通过输入评价语句的方式对被评价者进行评价，评价者还可以采用既选择初始词条、又输入评价语句的方式对被评价者进行评价，本申请实施例对此不做限定。

需要说明的是，本申请所提供的向量训练方法可以部署在该向量训练系统中，且该向量训练方法可以为基于TransR(Translate in Relation Space，基于翻译模型的关系空间中的嵌入学习算法)或基于transE(Translate Embedding，基于翻译模型的嵌入学习算法)的向量训练方法。

图2示出了根据本申请的一些实施例的可以实现本申请思想的服务器110和终端120的电子设备200的示例性硬件和软件组件的示意图。例如，处理器可以用于电子设备200上，并且用于执行本申请中的功能。

电子设备200可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的向量获取方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备200中仅描述了一个处理器。然而，应当注意，本申请中的电子设备200还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

图3示出了本申请实施例所提供的一种向量训练方法流程示意图。该方法的执行主体可以是如图1中所示的服务器等，在此不作限制。如图3所示，该方法包括：

S301、根据原始评价数据生成包括多个评价组的目标集合。

其中，每个评价组包括评价内容、评价者标识和被评价者标识，评价者标识用于指示评价者，被评价者用于指示被评价者，评价内容可以为评价者对被评价者进行评价的标签、关键词、短语或完整语句等，本申请实施例对评价内容的形式不做限定。

例如，若在打车场景中，评价者可以为请求服务的乘客，被评价者可以为提供服务的驾驶员，则评价者标识可以为乘客在打车应用中登录的ID(Identification，账号)、名称或者用于表示评价者为乘客的标识信息，类似的，被评价者标识也可以为驾驶员在打车应用中登录的ID、名称或者用于表示被评价者为驾驶员的标识信息，本申请实施例对此不做限定。

为了提高被服务者通过服务平台获取服务的粘性，可以通过被服务者对服务者的评价、以及服务者对被服务者的评价，确定被服务者的期望、以及服务者在服务过程中遇到的问题，以便根据服务平台中存储的大量评价提高被服务者通过服务平台获取服务的粘性。

因此，可以从服务平台获取原始评价数据，也即是获取评价者对被评价者进行评价的内容，并根据原始评价数据提取得到多个评价组形成目标集合，以便在后续步骤中，可以根据该目标集合训练得到特征向量。

具体地，可以从服务平台中获取多个原始评价数据，并对各个原始评价数据进行分析提取，得到由评价者对应的评价者标识、被评价者对应的被评价者标识和评价内容组成的评价组，在对每个原始评价数据进行分析提取后可以得到多个评价组，从而可以根据多个评级组形成目标集合。

例如，在打车场景中，若乘客对驾驶员进行评价，原始评价数据中包括的标签有“开车平稳”、“路线准确”、“热情”和“周到”，则根据上述内容得到的评价者标识可以为乘客在打车应用中对应的ID“乘客甲”，被评价者标识可以为驾驶员在打车应用中对应的ID“司机乙”，而评价内容则可以为“开车平稳”、“路线准确”、“热情”和“周到”等多个标签，从而形成评价组。

进一步地，在实际应用中，评价者不但可以根据服务平台提供的标签对被评价者进行评价，还可以根据评价者输入的评价语句进行筛选过滤，得到评价语句中的关键词，则可以将得到的关键词作为原始评价数据中的标签，从而得到评价内容。

其中，可以根据预先获取的评价词条对评价语句进行筛选，从而得到各个评价语句对应的标签。例如，可以对评价语句进行切词，得到多个关键词，从而将每个关键词与各个预先获取的评价词条进行比较，从而将一致的关键词作为筛选得到的标签。

另外，需要说明的是，在实际应用中，由于被服务者可以对服务者进行评价，而服务者也可以对被服务者进行评价，因此，服务者既可以为评价者，也可以为被评价者，类似的，被服务者在成为评价者的同时也可以成为被评价者，本申请实施例对评价者和被评价者对应的身份不做限定。

S302、根据目标集合生成多个评价三元组。

在得到目标集合后，可以根据目标集合中的各个三元组，生成用于模型训练的评价三元组，以便在后续步骤中，可以根据多个评价三元组进行训练，从而得到特征向量。

具体地，可以从目标集合中获取任意一个评价内容，并获取该评价内容对应的评价者标识和被评价者标识，并按照预先设置的格式对评价内容、评价者标识和被评价者标识进行排列，从而得到<S，P，O>格式的评价三元组，其中S为评价者标识，P为评价内容，O为被评价者标识。

例如，与S301的举例相对应的，则可以将上述评价组中的各个信息，按照<S，P，O>的格式进行设置，得到<乘客甲，开车平稳、路线准确、热情、周到，司机乙>格式的评价三元组。

需要说明的是，评价三元组不但可以包括上述格式的评价三元组，还可以形成其他格式对应的评价三元组。例如，<S，P，O>中的S可以为被评价者，P为被评价者收到的评价内容，而O是预先设置的评价词条，或者，S可以为评价者或被评价者，P为被评价者接收的评价内容，或评价者给出的评价，而O是预先设置的评价词条。当然，还可以为其他形式的评价三元组，本申请实施例对此不做限定。

其中，预先设置的评价词条可以包括服务平台提供的词条，也可以包括根据评价者输入的评价语句提取得到的，还可以包括通过其他方式获取的词条，本申请实施例对此不做限定。

例如，与S301的举例相对应的，在打车场景中，可以按照上述格式生成不同的评价三元组，如驾驶员对乘客的评价三元组<乘客甲，有礼貌，有礼貌、准时>，也可以为驾驶员获得的乘客给出的评价三元组<司机乙，开车平稳，开车平稳、路线准确、热情、周到>，还可以为驾驶员给出评价的评价三元组<司机乙，有礼貌，有礼貌、准时>。

S303、根据多个评价三元组，对初始向量进行训练，得到特征向量。

由于在训练向量的过程中，需要通过大量的样本数据对初始向量进行训练，因此，可以将生成的多个评价三元组作为样本数据，从而通过预先设置的向量训练模型，结合由多个评价三元组形成的样本数据，对初始向量进行训练，得到分别表示评价者特征和表示被评价者特征的特征向量。

具体地，可以先根据多个评价三元组随机生成初始向量，并将初始向量和多个评价三元组输入预先设置的向量训练模型中，使得向量训练模型根据多个评价三元组对初始向量进行训练，得到训练后的初始向量。

进一步地，可以判断训练后的初始向量是否满足预先设置的损失条件，若满足，则可以将训练后的初始向量作为特征向量。但是，若训练后的初始向量不满足损失条件，则可以将训练后的初始向量输入向量训练模型，再次对训练后的初始向量进行训练，直至训练得到的初始向量满足损失条件，从而将满足损失条件的训练后的初始向量作为特征向量。

例如，预先设置的损失条件为损失函数值不大于某个参数值，则可以获取训练后的初始向量对应的损失函数值，并判断该损失函数值是否不大于预先设置的参数值，以便根据判断结果对训练后的初始向量执行不同的操作。

需要说明的是，初始向量可以是根据多个评价三元组随机生成的，也可以是预先设置的，本申请实施例对此不做限定。

综上所述，本申请实施例提供的向量训练方法，根据原始评价数据生成包括多个评价组的目标集合，并根据目标集合生成多个评价三元组，再根据多个评价三元组，对初始向量进行训练，得到特征向量，每个评价组包括评价内容、评价者标识和被评价者标识。通过对原始评价数据进行处理得到评价三元组，再根据评价三元组对初始向量进行训练，得到特征向量，避免了根据大量原始评价数据进行训练的过程，减少了进行训练所花费的时间，提高了训练得到特征向量的效率。

图4示出了本申请实施例所提供的另一种向量训练方法流程示意图。该方法的执行主体可以是如图1中所示的服务器等，在此不作限制。如图3所示，该方法包括：

S401、获取预设时间内的原始评价数据。

为了分别生成用于表示评价者特征和用于表示被评价者特征的特征向量，可以从服务平台获取多个原始评价数据，以便在后需步骤中，可以根据多个原始评价数据训练得到特征向量。

进一步地，为了提高特征向量的准确性，可以获取预设时间内的原始评价数据，避免获取的原始评价数据生成时刻与当前时刻之间相隔时间太长，造成原始评价数据不具备参考性。

例如，若预设时间为一年，则可以先确定各个原始评价数据的生成时刻，再确定距离当前时刻一年时长的阈值时刻，最后根据各个原始评价数据的生成时刻，选取在当前时刻与阈值时刻之间生成的原始评价数据。

当然，预设时间还可以为其他时间长度，如半年、三个月、一个月或者一星期，本申请实施例对此不做限定。

S402、根据预设规则对原始评价数据进行筛选，得到目标原始数据。

由于原始评价数据中包括正面评价和负面评价，而负面评价更加能够体现被评价者的真实特征，因此，可以对原始评价数据进行筛选，去除原始评价数据中的正面评价，得到仅包括负面评价的目标原始数据。

而且，原始评价数据中不但包括评价语句，还可以包括评价者为被评价者标记的评价等级，因此，不但可以根据评价语句的语义信息筛选负面评价，还可以根据评价等级筛选负面评价。

相应的，则S402可以包括：S402a和S402b中的至少一项：

S402a、根据原始评价数据的语义信息，判断原始评价数据是否为负面评价，若原始评价数据为负面评价，将原始评价数据作为目标原始数据。

具体地，可以确定原始评价数据中是否包括评价者输入的评价语句，若不包括评价语句，则根据原始评价数据中所包括的各个标签对应的语义进行判断，确定原始评价数据是否为负面评价。

但是，若原始评价数据中包括评价者输入的评价语句，则可以根据预先获取的评价词条对评价语句进行筛选，从而得到评价语句对应的多个标签，进而根据各个标签确定原始评价数据是否为负面评价。

需要说明的是，预先获取的评价词条是根据服务平台预先设置的初始词条和根据多个评价语句提取的关键词生成的。

可选的，可以先判断原始评价数据是否包括评价者手动输入的评价语句，若原始评价数据包括评价者手动输入的评价语句，则可以对评价语句进行分词操作，得到标签，从而将服务平台预先设置的初始词条和通过各个评价语句获取的各个标签作为评价词条。

例如，若评价者手动输入的评价语句为“司机师傅开车平稳、路线准确，而且在乘车过程中热情周到”，则对该评价语句进行分词和去停用词等筛选过滤操作，得到“开车平稳”、“路线准确”、“热情”和“周到”等多个标签。

进一步地，由于可以获取每个评价者对被评价者的评价内容，则在获取每个原始评价数据中的评价内容后，可以确定评价内容中各个标签对应的词频，也即是，某个标签可以对应一个频率，该频率用于指示该标签在多个原始评价数据中出现的次数。例如，若某个标签对应的词频较高，则说明该标签在多个原始评价数据中出现的次数较多。

因此，为了提高评价内容的质量，在将各个评价语句对应的各个标签作为评价词条之前，可以根据各个标签对应的词频进行筛选，将词频大于预设频率阈值的标签作为评价词条。

可选的，可以确定各个标签对应的词频，对于每个标签，判断该标签对应的词频是否大于预先设置的预设频率阈值，若该标签对应的词频大于预先设置的预设频率阈值，则将该标签作为评价词条；但是，若该标签对应的词频不大于预先设置的预设频率阈值，则删除该标签。

而且，为了提高训练得到特征向量的准确性，在根据各个标签对应的词频进行筛选后，可以根据各个标签的语义进行进一步地筛选。

可选的，对于每个标签，判断该标签是否为正面评价或负面评价，若该标签为正面评价或负面评价，则将该标签作为评价词条；但是，若该标签不是正面评价，也不是负面评价，则删除该标签。

例如，可以将标签与预先设置的多个初始词条进行匹配，判断该标签所对应的语义是否与各个词条对应的语义相同、相近或者相反，若该标签所对应的语义与各个词条对应的语义相同、相近或者相反，则说明该标签为正面评价或负面评价，则可以将该标签作为评价词条。

因此，可以根据服务平台预先设置的初始词条和评价者输入的评价语句，得到词频较高、且有明确语义组成的评价词条。

需要说明的是，在实际应用中，可以从服务平台获取多个原始评价数据，本申请仅是以一个原始评价数据为例进行说明，对原始评价数据的数目不做限定。

S402b、判断原始评价数据对应的评价等级是否大于预置评价等级，若原始评价数据对应的评价等级不大于预置评价等级，将原始评价数据作为目标原始数据。

具体地，可以获取原始评价数据对应的评价等级，并将该评价等级与预先设置的预置评价等级进行比较，若评价等级大于预置评价等级，则说明原始评价数据为正面评价，则不再将原始评价数据作为目标原始数据。

但是，若评价等级不大于预置评价等级，也即是，评价等级小于或等于预置评价等级，则说明原始评价数据为负面评价，则可以将原始评价数据作为目标原始数据。

例如，若评价等级越高，评价者对被评价者越满意，如果评价等级最高为五星，最低为一星，而预置评价等级为三星，则一星至三星的评价等级对应的原始评价数据为负面评价，而四星至五星评价等级对应的原始评价数据为正面评价。

需要说明的是，在实际应用中，为了提高筛选负面评价的准确率，可以结合S402a和S402b对原始评价数据进行筛选，可以先执行S402b，再执行S402a，从而得到经过两次筛选的目标原始数据。或者，同时执行S402a和S402b，从而根据不同的筛选条件对原始评价数据进行筛选。

例如，若某个被评价者对应的评价内容如表1所示，则在通过评价等级进行筛选后，得到评价者乙和评价者丙对应的评价语句，再经过语义筛选后，确定得到评价者丙对应的原始评价数据为负面评价，可以将评价者丙对应的原始评价数据作为目标原始数据。

表1

评价者	评价语句	评价等级
			评价者甲	态度好、认路准	五星
评价者乙	服务热情	三星
			评价者丙	态度差	一星

S403、根据预先设置的关联条件，在目标原始数据中选取得到目标集合。

其中，目标集合包括多个评价组，每个评价组包括评价内容、评价者标识和被评价者标识。

由于原始评价数据中不但可以包括对被评价者的评价语句，也可以包括对服务平台的评价语句，还可以包括其他方面的评价语句，但是为了生成用于表示评价者特征和被评价者特征的特征向量，需要对目标原始数据进行进一步筛选，以保留仅包括被评价者的评价语句的原始评价数据，从而得到目标集合。

可选的，可以判断目标原始数据是否满足第一关联条件，并判断目标原始数据是否满足第二关联条件，再在目标原始数据中进行筛选，得到由满足第一关联条件、且满足第二关联条件的目标原始数据组成的目标集合。

其中，该第一关联条件为目标原始数据与评价者标识或被评价者标识相对应，该第二关联条件为目标原始数据不与服务平台相对应。

具体地，对于目标原始数据中的每个原始评价数据，可以判断该原始评价数据是否与评价者标识或被评价者标识相对应，得到第一判断结果；再判断各个原始评价数据是否与服务平台相对应，得到第二判断结果，最后根据第一判断结果和第二判断结果对目标原始数据进行过滤，得到目标集合。

也即是，判断目标原始数据中的各个原始评价数据是否包括对被评价者的评价语句，得到第一判断结果，再判断目标原始数据中的各个原始评价数据是否包括对服务平台的评价语句，得到第二判断结果，最后根据各个原始评价数据对应的第一判断结果和第二判断结果，筛选得到目标集合。

例如，某个目标原始数据对应的评价语句为“地图很准”，则该目标原始数据是用于评价服务平台提供的地图准确，则说明该目标原始数据不满足第二关联条件；但是，若某个目标原始数据对应的评价语句为“司机师傅认路准”，则说明该目标原始数据是针对被评价者的内容，则说明该目标原始数据满足第一关联条件。

需要说明的是，在筛选过程中，可以先对第一判断结果进行第一次判断，得到第一判断结果后，对目标原始数据进行第一次筛选，得到满足第一关联条件的目标原始数据，再对目标原始数据进行第二次判断，根据第二判断结果再次进行筛选，最后得到目标集合。

当然，还可以采用其他方式对目标原始数据进行筛选，例如先判断目标原始数据是否满足第二关联条件，再判断目标原始数据是否满足第二关联条件，本申请实施例对此不做限定。

由于获取多个评价组的过程与S301类似，在此不再赘述。

S404、根据目标集合生成多个评价三元组。

S405、根据多个评价三元组，对初始向量进行训练，得到特征向量。

在得到多个评价三元组后，可以采用不同的方式，并结合多个评价三元组对初始向量进行训练，从而得到分别表示评价者特征和表示被评价者特征的特征向量。

可选的，可以基于TransR，根据多个评价三元组，对初始向量进行训练，得到特征向量。或者，可以基于TransE，根据多个评价三元组，对初始向量进行训练，得到特征向量。

S405中训练得到特征向量的过程，与S303中训练得到特征向量的过程类似，在此不再赘述。

需要说明的是，可以根据多个评价三元组，生成初始向量；或者，也可以根据预置训练结果，生成初始向量。

例如，若采用transE算法进行训练，则可以根据多个评价三元组，随机生成初始向量。但是，若采用transR算法进行训练，则可以根据采用transE算法进行训练的训练结果，生成初始向量。

另外需要说明的是，训练得到的各个特征向量可以应用于不同的数据模拟模型，从而根据多个特征向量得到评价者的特征和/或被评价者的特征。

例如，与表1相对应的，若表1中所示的评价者丙给出的各个评价中，负面评价占有较大部分的比例，则说明评价者丙的要求较高，不经常给出正面评价，而表1对应的被评价者受到的负面评价较少，正面评价较多，则说明该被评价者能满足大部分评价者的要求，则在确定该被评价者的特征时，会降低评价者丙给出的评价所占的权重，从而提高确定该被评价者的特征的准确度。

图5是示出本申请实施例所提供的一种向量训练装置的框图，该向量训练装置实现的功能对应上述方法执行的步骤。该装置可以理解为如图1所示的服务器，如图所示，向量训练装置可以包括：

第一生成模块501，用于根据原始评价数据生成包括多个评价组的目标集合，每个评价组包括评价内容、评价者标识和被评价者标识；

第二生成模块502，用于根据所述目标集合生成多个评价三元组；

训练模块503，用于根据多个所述评价三元组，对初始向量进行训练，得到特征向量。

可选的，所述第一生成模块501，具体用于根据预设规则对所述原始评价数据进行筛选，得到目标原始数据；根据预先设置的关联条件，在所述目标原始数据中选取得到所述目标集合。

可选的，所述第一生成模块501，还具体用于根据所述原始评价数据的语义信息，判断所述原始评价数据是否为负面评价；若所述原始评价数据为负面评价，将所述原始评价数据作为所述目标原始数据。

可选的，所述第一生成模块501，具体用于判断所述原始评价数据对应的评价等级是否大于预置评价等级；若所述原始评价数据对应的评价等级不大于所述预置评价等级，将所述原始评价数据作为所述目标原始数据。

可选的，所述第一生成模块501，具体用于判断所述目标原始数据是否满足第一关联条件，所述第一关联条件为所述目标原始数据与所述评价者标识或所述被评价者标识相对应；判断所述目标原始数据是否满足第二关联条件，所述第二关联条件为所述目标原始数据不与服务平台相对应；在所述目标原始数据中进行筛选，得到由满足所述第一关联条件、且满足所述第二关联条件的目标原始数据组成的目标集合。

可选的，所述训练模块503，具体用于基于翻译模型的关系空间中的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量；或者，基于翻译模型的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量。

可选的，参照图6，该装置还可以包括：

第三生成模块504，用于根据多个所述评价三元组，生成所述初始向量；或者，用于根据预置训练结果，生成所述初始向量。

可选的，参照图7，该装置还可以包括：

获取模块505，用于获取预设时间内的原始评价数据。

综上所述，本申请实施例提供的向量训练装置，根据原始评价数据生成包括多个评价组的目标集合，并根据目标集合生成多个评价三元组，再根据多个评价三元组，对初始向量进行训练，得到特征向量，每个评价组包括评价内容、评价者标识和被评价者标识。通过对原始评价数据进行处理得到评价三元组，再根据评价三元组对初始向量进行训练，得到特征向量，避免了根据大量原始评价数据进行训练的过程，减少了进行训练所花费的时间，提高了训练得到特征向量的效率。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

如图8所示，为本申请实施例提供的一种电子设备的结构示意图，包括：处理器801、存储器802和总线803。

所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，所述机器可读指令被所述处理器801执行时执行如下处理：

根据所述目标集合生成多个评价三元组；

在具体实施中，上述处理器801执行的处理中，所述根据原始评价数据生成包括多个评价组的目标集合，包括：

在具体实施中，上述处理器801执行的处理中，所述根据预设规则对所述原始评价数据进行筛选，得到目标原始数据，包括：

在具体实施中，上述处理器801执行的处理中，所述根据预先设置的关联条件，在所述目标原始数据中选取得到所述目标集合，包括：

在具体实施中，上述处理器801执行的处理中，所述根据多个所述评价三元组，对初始向量进行训练，得到特征向量，包括：

在具体实施中，上述处理器801执行的处理中，在所述根据多个所述评价三元组，对初始向量进行训练，得到特征向量之前，包括：

根据多个所述评价三元组，生成所述初始向量；

或者，根据预置训练结果，生成所述初始向量。

在具体实施中，上述处理器801执行的处理中，在所述根据原始评价数据生成包括多个评价组的目标集合之前，包括：

获取预设时间内的原始评价数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种向量训练方法，其特征在于，包括：

根据所述目标集合生成多个评价三元组；

2.根据权利要求1所述的方法，其特征在于，所述根据原始评价数据生成包括多个评价组的目标集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设规则对所述原始评价数据进行筛选，得到目标原始数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据预设规则对所述原始评价数据进行筛选，得到目标原始数据，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据预先设置的关联条件，在所述目标原始数据中选取得到所述目标集合，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据多个所述评价三元组，对初始向量进行训练，得到特征向量，包括：

7.根据权利要求1至6任一所述的方法，其特征在于，在所述根据多个所述评价三元组，对初始向量进行训练，得到特征向量之前，包括：

根据多个所述评价三元组，生成所述初始向量；

或者，根据预置训练结果，生成所述初始向量。

8.根据权利要求1至6任一所述的方法，其特征在于，在所述根据原始评价数据生成包括多个评价组的目标集合之前，包括：

获取预设时间内的原始评价数据。

9.一种向量训练装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一生成模块，具体用于根据预设规则对所述原始评价数据进行筛选，得到目标原始数据；根据预先设置的关联条件，在所述目标原始数据中选取得到所述目标集合。

11.根据权利要求10所述的装置，其特征在于，所述第一生成模块，还具体用于根据所述原始评价数据的语义信息，判断所述原始评价数据是否为负面评价；若所述原始评价数据为负面评价，将所述原始评价数据作为所述目标原始数据。

12.根据权利要求10所述的装置，其特征在于，所述第一生成模块，具体用于判断所述原始评价数据对应的评价等级是否大于预置评价等级；若所述原始评价数据对应的评价等级不大于所述预置评价等级，将所述原始评价数据作为所述目标原始数据。

13.根据权利要求10所述的装置，其特征在于，所述第一生成模块，具体用于判断所述目标原始数据是否满足第一关联条件，所述第一关联条件为所述目标原始数据与所述评价者标识或所述被评价者标识相对应；判断所述目标原始数据是否满足第二关联条件，所述第二关联条件为所述目标原始数据不与服务平台相对应；在所述目标原始数据中进行筛选，得到由满足所述第一关联条件、且满足所述第二关联条件的目标原始数据组成的目标集合。

14.根据权利要求9所述的装置，其特征在于，所述训练模块，具体用于基于翻译模型的关系空间中的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量；或者，基于翻译模型的嵌入学习算法，根据多个所述评价三元组，对所述初始向量进行训练，得到所述特征向量。

15.根据权利要求9至14任一所述的装置，其特征在于，包括：

16.根据权利要求9至14任一所述的装置，其特征在于，包括：

获取模块，用于获取预设时间内的原始评价数据。

17.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至8任一所述的向量训练方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一所述的向量训练方法的步骤。