CN110750653A

CN110750653A - 信息处理方法、装置、电子设备及介质

Info

Publication number: CN110750653A
Application number: CN201911010872.5A
Authority: CN
Inventors: 张向东; 罗涛; 施佳子
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-04
Anticipated expiration: 2039-10-22
Also published as: CN110750653B

Abstract

本公开提供了一种信息处理方法，该方法包括：获得用户的历史操作信息；根据历史操作信息，构建知识图谱；根据知识图谱及历史操作信息，生成多个第一特征数据；以及将多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型。其中，历史操作信息包括用户使用目标功能的历史记录，训练后目标模型用于确定用户使用目标功能的概率。本公开还提供了一种信息处理装置、一种电子设备及一种计算机可读存储介质。

Description

信息处理方法、装置、电子设备及介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种信息处理方法、装置、电子设备及介质。

背景技术

随着机器学习的发展，很多机构致力于构建自动化机器学习平台，以便于用户打造自己的深度学习模型。

在实现本公开构思的过程中，发明人发现相关技术中至少存在以下问题：相关的机器学习平台，往往需要用户手动调用python数据处理库等辅助工具才能对数据进行预处理，以根据预处理的数据进行模型训练。因此相关技术中数据预处理流程较为复杂，需要人为参与，自动化不足。再者，相关机器学习平台仅支持结构化表格的输入，但结构化表格无法表达数据之间的关联关系等，这往往会影响对模型训练的精度。另外，相关学习平台往往仅支持用户进行单个模型的训练，若用户需要从多个模型中选择一个模型，则需要依次导入数据来对多个模型训练。在得到多个模型后还需要用户进行多个模型性能指标的比对以进行模型选择。因此，相关机器学习平台存在自动化程度低、功能单一及模型训练精度不足的缺陷。

发明内容

有鉴于此，本公开提供了一种基于知识图谱进行模型训练以提高模型精度的信息处理方法、装置、电子设备及介质。

本公开的一个方面提供了一种信息处理方法，该方法包括：获得用户的历史操作信息；根据历史操作信息，构建知识图谱；根据知识图谱及历史操作信息，生成多个第一特征数据；以及将多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型。其中，历史操作信息包括用户使用目标功能的历史记录，训练后目标模型用于确定用户使用目标功能的概率。

根据本公开的实施例，上述目标模型包括不同类型的多个预测模型；上述对目标模型进行训练，得到训练后目标模型包括：将多个特征数据作为样本数据，对不同类型的多个预测模型并行地进行训练，得到多个训练后预测模型；上述信息处理方法还包括：确定多个训练后预测模型中每个模型的目标性能指标，得到多组目标性能指标；根据多组目标性能指标，生成多个训练后预测模型的性能比对信息；以及展示性能比对信息。

根据本公开的实施例，上述信息处理方法还包括在展示性能比对信息之后：响应于多个训练后预测模型中一个训练后预测模型被选择，将一个训练后预测模型上传至推荐平台。

根据本公开的实施例，上述确定多个训练后预测模型中每个模型的目标性能指标包括：根据知识图谱及历史操作数据，生成第二特征数据；以第二特征数据作为多个训练后预测模型中每个模型的输入，以得到针对多个训练后预测模型的多组预测结果；以及根据多组预测结果，计算多个训练后预测模型中每个模型的目标性能指标。

根据本公开的实施例，上述信息处理方法还包括在对目标模型进行训练的过程中：采用可视化工具确定目标模型的训练进度和/或确定目标模型的目标性能指标；以及展示训练进度和/或目标性能指标。

根据本公开的实施例，上述信息处理方法还包括在对目标模型进行训练的过程中：响应于目标控件被选择，停止对目标模型的训练；或者响应于预定参数被输入，根据预定参数对目标模型包括的参数进行调整；或者响应于目标函数被选择，根据目标函数对目标模型进行训练。

根据本公开的实施例，上述历史操作信息包括多列数据；根据历史操作信息，构建知识图谱包括：响应于多列数据中至少两列数据被选中，根据至少两列数据构建多个节点；以及根据至少两列数据的对应关系，构建多个节点之间的边，形成知识图谱。其中，至少两列数据包括目标功能标识列与用户标识列。

根据本公开的实施例，上述生成多个第一特征数据包括：确定历史记录中针对每个用户的用户标识及目标功能标识；根据针对每个用户的用户标识与目标功能标识之间的对应关系，从知识图谱中抽取特征，得到针对多个用户的多个图谱特征；根据针对多个用户的目标功能标识，确定针对多个图谱特征的多个标签；以及组合多个图谱特征以及针对多个图谱特征的多个标签，得到多个第一特征数据。

根据本公开的实施例，上述历史操作信息包括多列数据；上述信息处理方法还包括在构建知识图谱之前：响应于多列数据中至少一列数据被选中，确定至少一列数据中每列数据包括的多个数据的取值的分布情况；以及在分布情况表征多个数据的取值不均匀的情况下，响应于预定规则被选择，根据预定规则对多个数据处理，以均衡多个数据的取值的分布。

本公开的另一方面提供了一种信息处理装置，该装置包括：信息获得模块，用于获得用户的历史操作信息；图谱构建模块，用于根据历史操作信息，构建知识图谱；特征数据生成模块，用于根据知识图谱及历史操作数据，生成多个第一特征数据；以及模型训练模块，用于将多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型。其中，历史操作信息包括用户使用目标功能的历史记录，训练后目标模型用于确定用户使用所述目标功能的概率。

本公开的另一方面还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个指令，其中，当所述一个或多个指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的信息处理方法。

本公开的另一方面提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的信息处理方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的信息处理方法。

根据本公开的实施例，通过根据历史操作信息自动生成知识图谱，可以避免对历史操作信息进行复杂的预处理。再者，由于训练目标模型的样本数据根据知识图谱构建，因此可以在一定程度上提高训练后预测模型的精度。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的信息处理方法、装置、电子设备及介质的应用场景；

图2示意性示出了根据本公开示例性实施例一的信息处理方法的流程图；

图3示意性示出了根据本公开实施例的构建知识图谱的流程图；

图4示意性示出了根据本公开实施例的生成多个第一特征数据的流程图；

图5示意性示出了根据本公开示例性实施例二的信息处理方法的流程图；

图6示意性示出了根据本公开示例性实施例三的信息处理方法的流程图；

图7示意性示出了根据本公开实施例的确定多个训练后预测模型中每个模型的目标性能指标的流程图；

图8示意性示出了根据本公开示例性实施例四的信息处理方法的流程图；

图9示意性示出了根据本公开示例性实施例五的信息处理方法的流程图；

图10示意性示出了根据本公开实施例的信息处理装置的结构框图；以及

图11示意性示出了根据本公开实施例的适于执行信息处理方法的电子设备的结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种信息处理方法、装置、电子设备及介质。其中，信息处理方法包括：先获得用户的历史操作信息，然后根据历史操作信息构建知识图谱，然后根据知识图谱及历史操作信息，生成多个第一特征数据，最后将多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型。其中，历史操作信息包括用户使用目标功能的历史记录，训练后目标模型用于确定用户使用目标功能的概率。

图1示意性示出了根据本公开实施例的信息处理方法、装置、电子设备及介质的应用场景100。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103。

该终端设备101、102、103可以是具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。以根据用户的历史操作信息来对机器学习模型进行训练，得到训练后机器学习模型。

根据本公开的实施例，该终端设备101、102、103例如还可以具有显示屏及输入设备，以通过显示屏及输入设备实现与用户的交互。例如，终端设备101、102、103可以通过显示屏向用户展示可选择训练的模型。终端设备例如还可以响应于用户的输入操作，对多个模型进行并行训练，并对多个模型的性能指标进行比对，向用户展示比对结果。

根据本公开的实施例，该终端设备101、102、103还可以安装有各种客户端应用，例如通信类应用、网页浏览器应用、支付类应用等。该多个客户端应用之间例如可以通过终端设备101、102、103安装的操作系统进行通信。例如，客户端应用可以包括集成有推荐平台的应用，以及集成有能够执行本公开实施例的信息处理方法的应用，能够执行信息处理方法的应用可以通过通信，向集成有推荐平台的应用上传训练后模型。

根据本公开的实施例，如图1所示，该应用场景100例如还可以包括网络104和服务器105，网络104用于在终端设备101、102、103和服务器105之间提供通信链路的介质。服务器105例如可以用于根据历史操作信息对机器学习模型进行训练，并将训练结果通过网络104同步至终端设备101、102、103。

需要说明的是，本公开实施例所提供的信息处理方法一般可以由终端设备101、102、103执行，也可以部分由终端设备101、102、103执行，部分由服务器105执行。相应地，本公开实施例所提供的信息处理装置一般可以设置于终端设备101、102、103中，也可以部分模块设置于终端设备101、102、103中，部分模块设置于服务器105中。

应该理解，上述终端设备101、102、103，网络104和服务器105的类型仅仅是示意性的，根据实现需要，可以具有任意类型的终端设备101、102、103，网络104和服务器105。

图2示意性示出了根据本公开示例性实施例一的信息处理方法的流程图。

如图2所示，本公开实施例的信息处理方法包括操作S210～操作S240。

在操作S210，获得用户的历史操作信息。

根据本公开的实施例，历史操作信息例如可以是用户使用目标功能的历史记录。该历史操作信息中例如可以包括多列数据，该多列数据至少包括与用户唯一对应的用户ID、与目标功能唯一对应的功能ID、用户使用目标功能时对目标功能进行操作的操作类型及操作时间等。可以理解的是，上述多列数据包括的数据仅作为示例以利于理解本公开，本公开对此不作限定。例如，该多列数据还可以包括：用户使用目标功能的频率或用户使用目标功能时的使用时长等。

其中，目标功能例如可以包括终端设备101、102、103中安装的客户端应用中的多个功能，该目标功能可以响应于用户的操作，为用户提供相应的服务。例如，若目标功能为查询功能，则该目标功能响应于用户操作，可以向用户展示查询结果。

根据本公开的实施例，例如可以使用pandas、numpy和matplotlib库来进行历史操作信息的读入获取。

在操作S220，根据历史操作信息，构建知识图谱。

根据本公开的实施例，该操作S220可以包括：先从历史操作信息中选择知识图谱的节点，然后再根据历史操作信息中包括的各节点之间的关联关系，确定各节点之间的边，从而根据节点和边构成知识图谱。其中，选择的知识图谱的节点例如可以包括功能ID和用户ID，边可以包括用户ID对应的用户与功能ID对应的目标功能之间的关系。

根据本公开的实施例，历史操作信息中用于作为知识图谱中节点的数据例如可以响应于用户操作来选定。该知识图谱例如可以使用JanusGraph以及配套的gremlin语法来进行搭建及对应关系的查询。该操作S220例如可以通过图3描述的流程来实现，在此不再赘述。

在操作S230，根据知识图谱及历史操作信息，生成多个第一特征数据。

根据本公开的实施例，该操作S230例如可以包括：先将历史操作信息根据用户使用目标功能的时间划分为多个历史操作信息，然后根据划分得到的每个历史操作信息包括的用户ID或目标操作ID确定知识图谱中的节点。然后根据由划分的多个历史操作信息确定的多组节点来生成多个第一特征数据。

根据本公开的实施例，该第一特征数据例如可以为特征向量，该特征向量中的元素例如可以包括：用户ID、目标功能ID、操作类型、操作次数等。根据本公开的实施例，为了使得训练得到的模型确定的用户使用目标功能的概率因人而异，该每个第一特征数据例如还可以仅包括一个用户ID。因此，操作S230可以包括：先根据历史操作信息，根据用户ID划分为多个历史操作信息，再根据该多个历史操作信息生成多个第一特征数据。

可以理解的是，为了便于将第一特征数据作为样本数据对目标模型进行训练，该第一特征数据应具有标签。该标签指示了第一特征数据中包括的用户ID对应的用户实际使用的目标功能。根据本公开的实施例，该操作S230例如可以通过图4描述的流程来实现，在此不再赘述。

在操作S240，将多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型。

根据本公开的实施例，目标模型例如可以为推荐模型，具体例如可以包括以下至少之一：水波模型(RippleNet)、协同过滤模型(item-based CF)、因子分解模型(libFM)、深度分解模型(DeepFM)和深浅融合模型(Deep&Wide)等。

根据本公开的实施例，操作S240例如可以包括：依次将多个第一特征数据输入目标模型中，并根据目标模型的输出与多个第一特征数据的标签来对目标模型进行优化，最终得到训练后目标模型。

根据本公开的实施例，对于不同的模型，例如可以使用不同的工具进行训练。例如，可以使用TensorFlow对RippleNet模型和Deep&Wide模型的训练；可以使用surprise是吸纳协同过滤模型的训练；可以使用PyLibFM实现LibFM模型的训练等。

根据本公开的实施例，在对目标模型进行训练的过程中，若目标模型为RippleNet模型，则可以定期存储pb文件，若目标模型为除RippleNet模型外的其他模型，则可以定期存储相应格式的模型镜像，以备后续调用。在训练之前，例如还可以响应于用户的输入操作，获得目标模型中需要优化的参数的默认初始值。

综上可知，本公开实施例的信息处理方法中，由于训练目标模型的特征数据是根据知识图谱构建的，因此可以在一定程度上提高训练后目标模型的精度。再者，本公开实施例的信息处理方法由于根据历史操作信息构建知识图谱，因此可以根据知识图谱直接生成第一特征数据，而无需经过复杂的预处理，从而可以提高模型训练的自动化程度。

图3示意性示出了根据本公开实施例的构建知识图谱的流程图。

如图3所示，构建知识图谱的操作S220例如可以包括操作S321～操作S322。

在操作S321，响应于多列数据中至少两列数据被选中，根据至少两列数据构建多个节点。

根据本公开的实施例，至少两列数据至少应包括目标功能标识列与用户标识列。其中，用户标识列中包括的数据为历史操作信息中使用目标功能的用户的ID，目标功能标识列中包括的数据为历史操作信息中用户使用的目标功能的ID。该操作S321例如可以包括：响应于用户通过输入设备选择至少两列数据的操作，确定知识图谱中的多个节点包括表征该至少两列数据中的数据的节点。其中，至少两列数据例如还可以包括：使用目标功能的类型和/或时间等。

在操作S322，根据至少两列数据的对应关系，构建多个节点之间的边，形成知识图谱。

根据本公开的实施例，该操作S322例如可以包括：将历史操作信息包括的多列数据中，位于同一行的用户ID对应的节点与目标功能ID对应的节点连接作为一个边形成知识图谱。

根据本公开的实施例，为了便于向用户推荐更多的目标功能，例如还可以将与某个目标功能属于同一类的其他目标功能的ID对应的节点与该某个目标功能ID对应的节点连接形成一个边，从而使得其他目标功能ID对应的节点间接与对应于某个目标功能ID的用户ID对应的节点连接。

根据本公开的实施例，该知识图谱的构建例如可以通过与用户的交互来完成。终端设备101、102、103可以向用户展示操作界面，以供用户选择构建节点的依据，该依据可以为多列数据中至少两列数据。还可以通过操作界面供用户选择构建边的依据，该依据可以通过选择多列数据中的起点列和终点列来获得，则构建的边为起点列与终点列之间任意两列数据的对应关系。

根据本公开的实施例，在建立知识图谱的过程中，例如还可以指定边的唯一性约束。若根据起点列与终点列之间任意两列数据的对应关系违反了唯一性约束，则可以发出警告，以提示用户重新选择起点列和终点列。其中，唯一性约束例如可以规定两个节点之间只能建立一条单一指向的边，或者，一个节点只可以被一个节点指向，而不能被多个节点指向等。该唯一性约束可以根据实际需求进行设定。

图4示意性示出了根据本公开实施例的生成多个第一特征数据的流程图。

如图4所示，生成多个第一特征数据的操作S230可以包括操作S431～操作S434。

在操作S431，确定历史记录中针对每个用户的用户标识及目标功能标识。

根据本公开的实施例，该操作S431例如可以包括：先将多列数据进行重整，使得具有相同用户ID的多行数据相邻。然后根据包括的用户ID将多列数据划分为多个数据段，每个数据段包括的多行数据具有相同的用户ID。从而确定针对每个用户的用户标识为用户ID，针对每个用户的目标功能标识为与用户ID位于同一行的所有的目标功能ID。

在操作S432，根据针对每个用户的用户标识与目标功能标识之间的对应关系，从知识图谱中抽取特征，得到针对多个用户的多个图谱特征。

根据本公开的实施例，该操作S432例如可以包括：先确定知识图谱中与每个用户的用户ID对应的节点。然后根据响应于用户的操作确定的扩散次数，以每个用户ID对应的节点沿边进行扩散，第一次扩散中，扩散得到的节点为从用户ID对应的节点引出的边指向的节点，得到多个第一扩散节点。第二次扩散则以该第一扩散节点为起点沿边进行扩散，扩散得到的节点为从第一扩散节点引出的边指向的节点，得到多个第二扩散节点。依此类推，通过扩散得到多个节点。然后将从每个用户ID对应的节点扩散得到的多个节点表征的信息与用户ID拼接形成一个图谱特征。最后，针对历史操作信息包括的多个用户ID均执行类似操作，得到针对多个用户的多个图谱特征。

在操作S433，根据针对所述多个用户的目标功能标识，确定针对多个图谱特征的多个标签。

根据本公开的实施例，该操作S433例如可以包括：将针对每个用户的目标功能ID拼接形成针对于每个用户的图谱特征的标签，从而得到针对多个图谱特征的多个标签。

在操作S434，组合多个图谱特征以及针对多个图谱特征的多个标签，得到多个第一特征数据。该操作S434例如可以包括：将每个图谱特征与针对每个图谱特征的标签组合，得到一个第一特征数据。从而组合多个图谱特征及多个标签得到多个第一特征数据。

根据本公开的实施例，考虑到可能有些特征无法在知识图谱提取(录入用户操作或用户属性等)，因此，操作S434在得到多个第一特征数据之前，还可以直接从历史操作数据中提取除图谱特征外的其他特征，然后操作S343再将其他特征、图谱特征和标签组合得到第一特征数据。

为了便于用户对多种不同类型的预测模型进行同时训练，操作S240中的目标模型可以包括不同类型的多个预测模型，操作S240具体可以为将操作S230中获得的多个第一特征数据作为样本数据，对不同类型的多个预测模型并行地进行训练，得到多个训练后预测模型。为了便于用户对多个训练后预测模型进行比对来确定用于推荐平台的模型，本公开实施例的信息处理方法还可以对该多个训练后预测模型的性能进行比对，并将比对结果展示给用户。

图5示意性示出了根据本公开示例性实施例二的信息处理方法的流程图。

如图5所示，本公开实施例的信息处理方法除了操作S210～操作S240外，还可以包括操作S550～操作S570。

在操作S550，确定多个训练后预测模型中每个模型的目标性能指标，得到多组目标性能指标。

根据本公开的实施例，目标性能指标例如可以包括以下至少之一：准确率、召回率、F1分数(F1 Score)、覆盖率、TPS(Transaction Per Second，每秒事务处理量)、平均反馈时间等。根据本公开的实施例，该目标性能指标例如可以根据每个模型由测试数据得到的预测结果来计算得到。该操作S550例如可以通过图7描述的操作S751～操作S753来实现，在此不再赘述。

在操作S560，根据多组目标性能指标，生成多个训练后预测模型的性能比对信息；在操作S570，展示性能比对信息。

根据本公开的实施例，该操作S560例如可以为：将该多组目标性能指标中，属于相同类型的目标性能指标进行比对。具体以多个模型作为横坐标，以性能指标的取值为纵坐标，绘制折线图或柱状图，并将该绘制的图作为性能比对信息进行展示。可以理解的是，上述性能比对信息的生成仅作为示例以利于理解本公开，本公开对此不作限定。

根据本公开的实施例，操作S560中的多个模型例如可以是响应于用户操作选择的多个模型。操作S550可以确定所有训练得到的训练后预测模型，但操作S560可以根据用户操作选择部分模型的性能指标进行比对。

根据本公开的实施例，在展示性能比对信息后，还可以响应于用户操作确定选择的训练后预测模型。为了便于用户使用该选择的训练后预测模型进行用户使用目标功能的概率的预测，在响应于用户操作确定选择的训练后预测模型后，还可以将选择的模型用于推荐平台，具体将选择的模型上传至推荐平台。

如图6所示，本公开实施例的信息处理方法除了操作S210～操作S240，操作S550～操作S570外，还可以包括操作S680。

在操作S680，响应于多个训练后预测模型中一个训练后预测模型被选择，将一个训练后预测模型上传至推荐平台。根据本公开的实施例，该操作S680即为：响应于用户操作，确定被选择的训练后预测模型，然后将该被选择的模型上传至推荐平台，以用于确定用户使用多种目标功能中每种目标功能的概率，并因此确定向用户推荐的目标功能。

根据本公开的实施例，该操作S680上传训练后预测模型可以包括：将该训练后预测模型的代码打包上传至推荐平台，并发布服务。

图7示意性示出了根据本公开实施例的确定多个训练后预测模型中每个模型的目标性能指标的流程图。

如图7所示，确定每个模型的目标性能指标的操作S550可以包括操作S751～操作S753。

在操作S751，根据知识图谱及历史操作数据，生成第二特征数据。

根据本公开的实施例，该操作S751例如可以是采用类似于操作S230的方法生成第二特征数据的。该第二特征数据与第一特征数据的区别仅在于，第二特征数据不包括标签。根据本公开的实施例，该第二特征数据例如还可以是与多个第一特征数据同时生成的，在生成后存储于预定空间，以在确定每个训练后预测模型的目标性能指标时调用。

根据本公开的实施例，可以通过操作S230生成多个特征数据，然后将该多个特征数据按照预定划分得到多个第二特征数据。然后对除第二特征数据外剩余的多个特征数据加标签，得到多个第一特征数据。根据本公开的实施例，还可以从有标签的特征数据中划分出一部分第三特征数据。其中，第一特征数据用于训练目标模型，第二特征数据用于对目标模型进行测试，第三特征数据用于对目标模型进行训练同时对目标模型进行测试。其中，第一特征数据的个数：第二特征数据的个数：第三特征数据的个数例如可以为8∶1∶1。该比例可以根据实际需求进行设定，本公开对此不做限定。

根据本公开的实施例，该多个第二特征数据例如还可以是从预定空间中筛选得到的满足预设条件的特征数据。例如，该多个第二特征数据可以是针对单个用户的特征数据，或者可以是针对某些特定目标功能的特征数据，或者可以是针对男用户的特征数据等。根据本公开的实施例，在该多个第二特征数据为针对多个用户的特征数据时，例如还可以限定该多个用户的数量。

根据本公开的实施例，在从预定空间导出第二特征向量时，针对不同的模型，导出时采用的数据格式与目标模型相对应。例如，对于RippleNet模型需要使用TFRecord格式数据，对于协同过滤模型则使用rating.csv即可。

在操作S752，以第二特征数据作为多个训练后预测模型中每个模型的输入，以得到针对多个训练后预测模型的多组预测结果。根据本公开的实施例，该操作S752可以为，将多个第二特征数据依次输入多个训练后预测模型中，得到与多个训练后预测模型一一对应的多组预测结果，每组预测结果包括与多个第二特征数据一一对应的多个预测结果。

根据本公开的实施例，该操作S752例如可以包括：先采用与训练后预测模型对应的载入方式载入多个训练后预测模型。例如，若训练后预测模型为RippleNet模型，则采用tfserving模型载入。若为其他模型，则采用相应的格式载入。载入多个训练后预测模型后，再将第二特征数据作为输入得到多组预测结果。

根据本公开的实施例，在操作S751中的第二特征数据为针对单个用户的特征数据时，在选中所针对用户的用户ID后，例如还可以查看用户的详细信息，该详细信息例如可以包括操作历史或属性信息等。然后响应于用户操作，确定要进行测试的模型。从而通过操作S752得到该模型确定的该单个用户使用目标功能的概率。

在操作S753，根据多组预测结果，计算多个训练后预测模型中每个模型的目标性能指标。根据本公开的实施例，该目标性能指标可以是响应于用户操作确定的，例如可以包括准确率、召回率和TPS等。

根据本公开的实施例，为了便于计算目标性能指标，操作S752在得到多组预测结果的同时，还可以记录请求得到预测结果的时间、预测模型反馈预测结果的时间等指标。然后在操作S753中将多组预测结果与历史操作信息中对应的历史操作数据进行对比，得到准确率、召回率等指标。对于FI分数等其他指标，则采用其他指标对应的算法计算得到。

根据本公开的实施例，在训练过程中，还可以向用户展示训练进度，并且/或者实时展示目标性能指标，从而便于用户了解训练过程。

图8示意性示出了根据本公开示例性实施例四的信息处理方法的流程图。

如图8所示，本公开实施例的信息处理方法除了操作S210～操作S240外，例如还可以包括操作S850～操作S860。

在操作S850，采用可视化工具确定目标模型的训练进度和/或确定目标模型的目标性能指标。在操作S860，展示训练进度和/或目标性能指标。

根据本公开的实施例，可视化工具例如可以为TensorFlow的tensorboard工具，通过该可视化工具可以实现目标模型训练进程的可视化。其中，目标性能指标例如可以包括AUC(Area Under Curve，ROC曲线的量化指标)、准确率(ACC)和/或损失值(Loss)等指标。可以理解的是，上述可视化工具及目标性能指标仅作为示例以利于理解本公开，本公开对此不作限定。

根据本公开的实施例，考虑到若自动化优化模型，可能会出现过拟合的情况。因此，为了在一定程度上防止模型的过拟合，还可以通过终端设备向用户提供“停止训练”的控件。因此，本公开实施例在对目标模型进行训练的过程中，还可以响应于目标控件被选择，停止对目标模型的训练。其中，目标控件例如为前述的“停止训练”控件。考虑到用户可以通过操作S860的展示实时查看目标模型的目标性能指标，因此可以根据目标性能指标确定是否对“停止训练”控件进行操作。响应于用户对该控件的操作，则确定目标控件被选择。

根据本公开的实施例，为了防止在模型训练过程中参数偏离正常值过多等情况，还可以通过终端设备向用户展示目标模型中指定参数范围的选择、训练过程步长的选择等，从而响应于用户操作，根据确定的指定参数范围和步长对目标模型进行训练。因此，本公开实施例在目标模型进行训练的过程中，还可以响应于预定参数被输入，根据预定参数对目标模型包括的参数进行调整。其中，预定参数即为前述的目标模型中指定参数和/或步长等。

根据本公开的实施例，为了使得训练得到的目标模型更为符合用户需求，还可以展示目标模型可使用的多个目标函数。因此，本公开实施例在目标模型的训练过程中，还可以响应于目标函数被选择，根据目标函数对目标模型进行训练。从而根据用户选择的目标函数对目标模型进行训练。

根据本公开的实施例，考虑到数据的分布情况对模型的优劣起着至关重要的作用。若数据分布过于不均匀，会使得训练得到的模型不精准。因此，在生成作为样本数据的第一特征数据之前，例如还可以对历史操作信息包括的多列数据中分布不均匀的数据进行预处理，使得数据分布尽可能均匀，趋于幂律分布。

图9示意性示出了根据本公开示例性实施例五的信息处理方法的流程图。

如图9所示，本公开实施例的信息处理方法除了操作S210～操作S240外，还可以包括操作S950～操作S960。该操作S950～操作S960可以在操作S220之前执行。

在操作S950，响应于多列数据中至少一列数据被选中，确定至少一列数据中每列数据包括的多个数据的取值的分布情况。根据本公开的实施例，该操作S950可以针对每列数据，绘制数据分布图。例如，若选中的数据包括目标功能被使用的数据，则数据分布图可以以目标功能为横坐标，目标功能被使用的次数为纵坐标得到的图。

在操作S960，在分布情况表征多个数据的取值不均匀的情况下，响应于预定规则被选择，根据预定规则对多个数据处理，以均衡多个数据的取值的分布。

根据本公开的实施例，预定规则例如可以包括对数据进行对数运算。其中，对数运算过程中，例如可以以e或其他任意的大于1的正数为底数。可以理解的是，上述预定规则仅作为示例以利于理解本公开，本公开对此不作限定，该预定规则例如还可以为对数据取均方根等。

图10示意性示出了根据本公开实施例的信息处理装置的结构框图。

如图10所示，本公开实施例的信息处理装置1000可以包括信息获得模块1001、图谱构建模块1002、特征数据生成模块1003和模型训练模块1004。

信息获得模块1001用于获得用户的历史操作信息(操作S210)。其中，历史操作信息包括用户使用目标功能的历史记录。

图谱构建模块1002用于根据历史操作信息，构建知识图谱(操作S220)。

特征数据生成模块1003用于根据知识图谱及历史操作信息，生成多个第一特征数据(操作S230)。

模型训练模块1004用于将多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型(操作S240)。其中，训练后目标模型用于确定用户使用目标功能的概率。

根据本公开的实施例，上述目标模型可以包括不同类型的多个预测模型，上述模型训练模块1004可以用于：将多个特征数据作为样本数据，对不同类型的多个预测模型并行地进行训练，得到多个训练后预测模型。根据本公开的实施例，如图10所示，上述信息处理装置1000例如还可以包括：性能指标确定模块1005、比对信息生成模块1006和展示模块1007。性能指标确定模块1005用于确定多个训练后预测模型中每个模型的目标性能指标，得到多组目标性能指标(操作S550)。比对信息生成模块1006用于根据多组目标性能指标，生成多个训练后预测模型的性能比对信息(操作S560)。展示模块1007用于展示性能比对信息(操作S570)。

根据本公开的实施例，如图10所示，上述信息处理装置1000例如还可以包括模型上传模块1008，用于响应于多个训练后预测模型中一个训练后预测模型被选择，将一个训练后预测模型上传至推荐平台(操作S680)。

根据本公开的实施例，如图10所示，上述性能指标确定模块1005例如可以包括特征数据生成子模块1015、预测结果获得子模块1025和指标计算子模块1035。特征数据生成子模块1015用于根据知识图谱及历史操作数据，生成第二特征数据(操作S751)。预测结果获得子模块1025用于以第二特征数据作为多个训练后预测模型中每个模型的输入，以得到针对多个训练后预测模型的多组预测结果(操作S752)。指标计算子模块1035用于根据多组预测结果，计算多个训练后预测模型中每个模型的目标性能指标(操作S753)。

根据本公开的实施例，如图10所示，上述信息处理装置1000例如还可以包括展示模块1007，以及训练进度确定模块1009和/或性能指标确定模块1005。其中，训练进度确定模块1009用于在模型训练模块1004对目标模型进行训练的过程中，采用可视化工具确定目标模型的训练进度(操作S850)。性能指标确定模块1005在模型训练模块1004对目标模型进行训练的过程中确定目标模型的目标性能指标(操作S850)。展示模块1007用于展示训练进度和/或目标性能指标(操作S860)。

根据本公开的实施例，如图10所示，上述模型训练模块1004还可以用于在对目标模型进行训练的过程中：响应于目标控件被选择，停止对目标模型的训练；或者还可以用于响应于预定参数被输入，根据预定参数对目标模型包括的参数进行调整；或者还可以用于响应于目标函数被选择，根据目标函数对目标模型进行训练。

根据本公开的实施例，上述历史操作信息包括多列数据，如图10所示，上述图谱构建模块1002例如可以包括节点构建子模块1012和边构建子模块1022。节点构建子模块1012用于响应于多列数据中至少两列数据被选中，根据至少两列数据构建多个节点(操作S321)。边构建子模块1022用于根据至少两列数据的对应关系，构建多个节点之间的边，形成知识图谱(操作S322)。其中，至少两列数据包括目标功能标识列与用户标识列。

根据本公开的实施例，如图10所示，上述特征数据生成模块1003例如可以包括：标识确定子模块1013、图谱特征获得子模块1023、标签获得子模块1033和组合子模块1043。标识确定子模块1013用于确定历史记录中针对每个用户的用户标识及目标功能标识(操作S431)。图谱特征获得子模块1023用于根据针对每个用户的用户标识与目标功能标识之间的对应关系，从知识图谱中抽取特征，得到针对多个用户的多个图谱特征(操作S432)。标签获得子模块1033用于根据针对多个用户的目标功能标识，确定针对多个图谱特征的多个标签(操作S433)。组合子模块1043用于组合多个图谱特征以及针对多个图谱特征的多个标签，得到多个第一特征数据(操作S434)。

根据本公开的实施例，如图10所示，上述信息处理装置1000还可以包括数据分布确定模块1010和数据处理模块1011，数据分布确定模块1010用于在图谱构建模块1002构建知识图谱之前，响应于多列数据中至少一列数据被选中，确定至少一列数据中每列数据包括的多个数据的取值的分布情况(操作S950)。数据处理模块1011用于在分布情况表征多个数据的取值不均匀的情况下，响应于预定规则被选择，根据预定规则对多个数据处理，以均衡多个数据的取值的分布(操作S960)。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，信息获得模块1001、图谱构建模块1002、特征数据生成模块1003、模型训练模块1004、性能指标确定模块1005、比对信息生成模块1006、展示模块1007、模型上传模块1008、训练进度确定模块1009、数据分布确定模块1010、数据处理模块1011、节点构建子模块1012、边构建子模块1022、标识确定子模块1013、图谱特征获得子模块1023、标签获得子模块1033、组合子模块1043、特征数据生成子模块1015、预测结果获得子模块1025和指标计算子模块1035中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，信息获得模块1001、图谱构建模块1002、特征数据生成模块1003、模型训练模块1004、性能指标确定模块1005、比对信息生成模块1006、展示模块1007、模型上传模块1008、训练进度确定模块1009、数据分布确定模块1010、数据处理模块1011、节点构建子模块1012、边构建子模块1022、标识确定子模块1013、图谱特征获得子模块1023、标签获得子模块1033、组合子模块1043、特征数据生成子模块1015、预测结果获得子模块1025和指标计算子模块1035中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，信息获得模块1001、图谱构建模块1002、特征数据生成模块1003、模型训练模块1004、性能指标确定模块1005、比对信息生成模块1006、展示模块1007、模型上传模块1008、训练进度确定模块1009、数据分布确定模块1010、数据处理模块1011、节点构建子模块1012、边构建子模块1022、标识确定子模块1013、图谱特征获得子模块1023、标签获得子模块1033、组合子模块1043、特征数据生成子模块1015、预测结果获得子模块1025和指标计算子模块1035中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图11示意性示出了根据本公开实施例的适于执行信息处理方法的电子设备的结构框图。图11示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，根据本公开实施例的电子设备1100包括处理器1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1103中，存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1100还可以包括输入/输出(I/O)接口1105，输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种信息处理方法，包括：

获得用户的历史操作信息；

根据所述历史操作信息，构建知识图谱；

根据所述知识图谱及所述历史操作信息，生成多个第一特征数据；以及

将所述多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型，

其中，所述历史操作信息包括所述用户使用目标功能的历史记录，所述训练后目标模型用于确定所述用户使用所述目标功能的概率。

2.根据权利要求1所述的方法，其中，所述目标模型包括不同类型的多个预测模型；

所述对目标模型进行训练，得到训练后目标模型包括：将所述多个特征数据作为样本数据，对所述不同类型的多个预测模型并行地进行训练，得到多个训练后预测模型；

所述方法还包括：

确定所述多个训练后预测模型中每个模型的目标性能指标，得到多组目标性能指标；

根据所述多组目标性能指标，生成所述多个训练后预测模型的性能比对信息；以及

展示所述性能比对信息。

3.根据权利要求2所述的方法，其中，所述方法还包括在展示所述性能比对信息之后：

响应于所述多个训练后预测模型中一个训练后预测模型被选择，将所述一个训练后预测模型上传至推荐平台。

4.根据权利要求2所述的方法，其中，所述确定所述多个训练后预测模型中每个模型的目标性能指标包括：

根据所述知识图谱及所述历史操作数据，生成第二特征数据；

以所述第二特征数据作为所述多个训练后预测模型中每个模型的输入，以得到针对所述多个训练后预测模型的多组预测结果；以及

根据所述多组预测结果，计算所述多个训练后预测模型中每个模型的目标性能指标。

5.根据权利要求1所述的方法，其中，所述方法还包括在对所述目标模型进行训练的过程中：

采用可视化工具确定所述目标模型的训练进度和/或确定所述目标模型的目标性能指标；以及

展示所述训练进度和/或所述目标性能指标。

6.根据权利要求1所述的方法，其中，所述方法还包括在对所述目标模型进行训练的过程中：

响应于目标控件被选择，停止对所述目标模型的训练；或者

响应于预定参数被输入，根据所述预定参数对所述目标模型包括的参数进行调整；或者

响应于目标函数被选择，根据所述目标函数对所述目标模型进行训练。

7.根据权利要求1所述的方法，其中，所述历史操作信息包括多列数据；所述根据所述历史操作信息，构建知识图谱包括：

响应于所述多列数据中至少两列数据被选中，根据所述至少两列数据构建多个节点；以及

根据所述至少两列数据的对应关系，构建所述多个节点之间的边，形成所述知识图谱，

其中，所述至少两列数据包括目标功能标识列与用户标识列。

8.根据权利要求7所述的方法，其中，所述生成多个第一特征数据包括：

确定所述历史记录中针对每个用户的用户标识及目标功能标识；

根据针对每个用户的用户标识与目标功能标识之间的对应关系，从所述知识图谱中抽取特征，得到针对多个用户的多个图谱特征；

根据针对所述多个用户的目标功能标识，确定针对所述多个图谱特征的多个标签；以及

组合所述多个图谱特征以及针对所述多个图谱特征的多个标签，得到所述多个第一特征数据。

9.根据权利要求1所述的方法，其中，所述历史操作信息包括多列数据；所述方法还包括在构建知识图谱之前：

响应于所述多列数据中至少一列数据被选中，确定所述至少一列数据中每列数据包括的多个数据的取值的分布情况；以及

在所述分布情况表征所述多个数据的取值不均匀的情况下，响应于预定规则被选择，根据所述预定规则对所述多个数据处理，以均衡所述多个数据的取值的分布。

10.一种信息处理装置，包括：

信息获得模块，用于获得用户的历史操作信息；

图谱构建模块，用于根据所述历史操作信息，构建知识图谱；

特征数据生成模块，用于根据所述知识图谱及所述历史操作数据，生成多个第一特征数据；以及

模型训练模块，用于将所述多个第一特征数据作为样本数据，对目标模型进行训练，得到训练后目标模型，

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行权利要求1～9中任一项所述的信息处理方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行权利要求1～9中任一项所述的信息处理方法。