CN110489435B

CN110489435B - 基于人工智能的数据处理方法、装置、及电子设备

Info

Publication number: CN110489435B
Application number: CN201910741371.8A
Authority: CN
Inventors: 郑博; 陈培炫; 黄巩怡; 陈尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2023-10-27
Anticipated expiration: 2039-08-12
Also published as: CN110489435A

Abstract

本发明公开了一种基于人工智能的数据处理方法，包括：根据增量数据和已有表示学习结果确定来新增节点，然后使用强化学习决策器选择新增数据和已有节点，最后基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。基于强化学习进行表示学习的更新能够提升计算效率和准确度，降低了人工干预，从而解决了相关技术中在表示学习增量更新时计算效率和准确度较低的问题，进而降低增量更新的时间以及人力的成本。

Description

基于人工智能的数据处理方法、装置、及电子设备

技术领域

本发明涉及计算机应用技术领域，特别涉及一种基于人工智能的数据处理方法、装置、及电子设备。

背景技术

随着计算机应用技术的不断发展，深度学习得到了越来越广泛的应用。例如，表示学习、增量学习被应用到表示学习增量更新领域。

目前，表示学习增量更新方法，最为普遍的是人工设置学习方式和选择所需要的数据，再通过自动化调参过程使得学习的结果尽可能接近原先的向量空间。常用的方法有将新增的实体向量进行分步骤的学习，以得到较优的初始化结果；对于已有向量的更新，通常采用简单的参数差异，例如对学习率和采样率进行人工分组，使得更新的过程尽可能平滑和高效。

但是，发明人在实现本发明的发明构思时发现相关技术中存在以下技术问题：在表示学习的更新过程中，多个步骤都需要人工选择或调整，人工的选择或调整过程通常计算效率和准确度较低、冗杂而繁琐，而且还消耗大量的人力成本，以及大量的计算资源在其中。

发明内容

本发明提供了一种基于人工智能的数据处理方法、装置、计算机可读存储介质和电子设备。采用该方法可以提高在表示学习增量更新时的计算效率和准确度。

根据本发明的实施例，提供一种基于人工智能的数据处理方法，包括：获取增量数据；根据所述增量数据和已有表示学习结果确定新增节点；使用强化学习决策器选择新增数据和已有节点，所述新增数据和所述已有节点用于增量更新所述已有表示学习结果，所述强化学习决策器是通过强化学习算法得到的；以及基于所述新增数据、所述新增节点及所述已有节点对已有表示学习结果进行表示学习的更新。

根据本发明的实施例，提供一种基于人工智能的数据处理装置，包括：第一获取模块，用于获取增量数据；第一确定模块，用于根据所述增量数据和已有表示学习结果确定新增节点；第一选择模块，使用强化学习决策器选择新增数据和已有节点，所述新增数据和所述已有节点用于增量更新所述已有表示学习结果，所述强化学习决策器是通过强化学习算法得到的；以及第一更新模块，基于所述新增数据、所述新增节点及所述已有节点对已有表示学习结果进行表示学习的更新。

在本公开的一些实施例中，上述第一选择模块配置为：将所述增量数据、所述新增节点、及所述已有表示学习结果输入所述强化学习决策器，所述强化学习决策器基于所述增量数据、所述新增节点、及所述已有表示学习结果进行迭代决策，直到基于两次相邻的决策输出的新增数据和已有节点相同或相似停止决策，接收所述强化学习决策器输出的新增数据和已有节点。

在本公开的一些实施例中，上述第一更新模块包括：第一设置模块，用于根据所述新增数据、所述新增节点及所述已有节点设置表示学习的第一学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标；第一更新模块的子模块，用于根据所述第一学习参数基于所述新增数据、所述新增节点及所述已有节点对已有表示学习结果进行表示学习的更新。

在本公开的一些实施例中，上述基于人工智能的数据处理装置还包括：第二确定模块，用于根据所述已有表示学习结果从所述增量数据中确定与所述已有表示学习结果相关的数据；初始化模块，用于对与所述已有表示学习结果相关的数据和所述新增节点进行初始化处理；输出模块，接收所述强化学习决策器基于初始化结果输出的更新概率，所述更新概率用于确定是否执行对所述已有表示学习结果的更新；判断模块，当所述更新概率大于预设阈值时，执行基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。

在本公开的一些实施例中，上述基于人工智能的数据处理装置还包括：第二获取模块，用于获取用于训练的数据；第三确定模块，用于根据所述用于训练的数据和已有表示学习结果确定新增节点；输入模块，用于将所述训练的数据、所述新增节点和所述已有表示学习结果输入所述强化学习决策器以选择用于增量数据更新的新增数据和已有节点；第四确定模块，基于所述用于增量数据更新的新增数据和已有节点确定反馈值；以及调整模块，用于根据所述反馈值对该所述强化学习决策器进行调整。

在本公开的一些实施例中，上述基于人工智能的数据处理装置还包括：第二选择模块，如果不存在所述新增节点，使用强化学习决策器选择已有节点，所述已有节点用于增量更新所述已有表示学习结果；第二设置模块，用于根据所述已有节点、所述增量数据设置表示学习的第二学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标；第二更新模块，用于根据所述第二学习参数基于新增数据、所述已有节点对已有表示学习结果进行表示学习的更新。

根据本发明的实施例，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据以上所述的基于人工智能的数据处理方法。

根据本发明的实施例，提供一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现以上所述的基于人工智能的数据处理方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

基于上述实施例提供的基于人工智能的数据处理方法，根据增量数据和已有表示学习结果确定来新增节点，然后使用强化学习决策器选择新增数据和已有节点，并基于新增数据、新增节点及已有节点进行表示学习的更新，提升了表示学习的更新的计算效率和准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1示出了可以应用本发明实施例的基于人工智能的数据处理方法或基于人工智能的数据处理装置的示例性系统架构的示意图。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

图3是根据一示例性实施例示出的一种基于人工智能的数据处理方法的流程图。

图4是根据另一示例性实施例示出的一种基于人工智能的数据处理方法的流程图。

图5是根据另一示例性实施例示出的一种基于人工智能的数据处理方法的流程图。

图6是根据另一示例性实施例示出的一种基于人工智能的数据处理方法的流程图。

图7是根据另一示例性实施例示出的一种基于人工智能的数据处理方法的流程图。

图8A是根据一示例性实施例示出的强化学习增量更新系统的结构框图。

图8B是根据一示例性实施例示出的强化学习增量更新系统的训练流程和使用流程的流程图。

图9是根据一示例性实施例示出的一种基于人工智能的数据处理装置的框图。

图10是根据另一示例性实施例示出的一种基于人工智能的数据处理装置的框图。

图11是根据另一示例性实施例示出的一种基于人工智能的数据处理装置的框图。

图12是根据另一示例性实施例示出的一种基于人工智能的数据处理装置的框图。

图13是根据另一示例性实施例示出的一种基于人工智能的数据处理装置的框图。

具体实施方式

本部分将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在详细描述本发明的示例实施方式之前，下面首先简要介绍一些对于理解本发明有帮助的相关技术和术语。

表示学习

表示学习是指，利用数据自身表现的相似性或相关性，在向量空间中以距离的形式表达出来的过程。常见的表示学习方法有SVD(Singular Value Decomposition，奇异值分解)，Word2Vec(词向量)，Node2Vec(节点向量)，深度神经网络等方法。表示学习的输入可以是文本、网络图、图像、语音等等；其结果通常是一组维度相同的向量集合，其中的每个向量表示一个实体(例如文本中的单词、网络图中的节点、一张图像等)。表示学习的过程需要将大量非结构化的数据进行读取和解析，十分耗费时间。

增量学习

增量学习(Incremental Learning)是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识。增量学习非常类似于人类自身的学习模式。增量学习的优点主要表现在两个方面：一方面由于其无需保存历史数据，从而减少存储空间的占用；另一方面增量学习在当前的样本训练中充分利用了历史的训练结果，从而显著地减少了后续训练的时间。

强化学习

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

深度Q网络

深度Q网络，强化学习的一个分支，Q学习的深度神经网络版本。Q学习的基本原理是采用一个估值函数，估计当前状态S下采取各种行为A的价值，然后选择最高价值的行为采取行动。由于在学习估值函数时将反馈R应用到下一步的过程会预测各个行为的品质，因此被称为Q(Quality)学习。深度Q网络的基本框架和Q学习基本一致，只是将Q学习的估值函数用深度神经网络代替，使其能够适应更加复杂的情况。深度Q网络有许多变种版本，例如Duel-DQN、Nature-DQN等，都是神经网络的设计和更新策略不同，基本原理大同小异。

策略梯度网络

策略梯度网络(Policy Gradient Network，PGN)，强化学习的一个分支。策略梯度网络与Q学习不同，这里不再评估各个行为的价值和品质，而是直接预测最优行为的分布。也就是说，最终的预测结果会有一定的随机性，来自于从这个行为分布中的一个采样，作为最终的决策。相比Q学习，它的样本利用率和学习效率都更高。

AC与A3C

AC与A3C,强化学习的一个分支，糅合了深度Q网络和策略梯度网络，可以认为是把策略梯度网络作为表演者(Actor),把估计函数作为评价者(Critic)，通过两者的决策-打分过程，不断优化整个过程。它能够吸收两者的优点，弥补不足。A3C是它的一个异步多实例学习版本，即多个AC同时学习，然后异步更新网络，提高学习效率和稳定性。

相关技术中，在更新增量数据时，采用表示学习和增量学习的结合来进行表示学习增量更新。但是，发明人在实现本发明的发明构思时发现相关技术中存在以下技术问题：在表示学习的更新过程中，多个步骤都需要人工选择或调整，人工的选择或调整过程通常是准确度低的、冗杂而繁琐的，而且还消耗大量的人力成本，以及大量的计算资源在其中。

为了解决相关技术中在表示学习增量更新时需要过多人工干预导致的问题，本发明提供了一种基于人工智能的数据处理方法、装置、计算机可读存储介质和电子设备。

本发明实施例在表示学习的更新中，提出将利用强化学习训练好的决策器应用到表示学习的更新。具体地，根据增量数据和已有表示学习结果确定来新增节点，然后使用强化学习决策器选择用于增量数据更新的新增数据和已有节点，最后基于新增数据、新增节点及已有节点进行表示学习的更新，以此方式进行表示学习的过程无需人工干预，从而解决了相关技术中在表示学习增量更新时需要过多人工干预导致的问题，进而降低增量更新的时间以及人力的成本。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本发明实施例提供的方案涉及人工智能的强化学习、表示学习等技术，具体通过如下实施例进行说明：

图1示出了可以应用本发明实施例的基于人工智能的数据处理方法或基于人工智能的数据处理装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了增量数据，服务器105可以根据增量数据和已有表示学习结果确定来新增节点，然后使用强化学习决策器选择新增数据和已有节点，最后基于新增数据、新增节点及已有节点对所述已有表示学习结果进行表示学习的更新，以此方式进行表示学习的更新可以提升计算效率和准确度，而且还无需人工干预，从而解决了相关技术中在表示学习增量更新时计算效率和准确度较低的问题，进而降低增量更新的时间以及人力的成本。

在一些实施例中，本发明实施例所提供的基于人工智能的数据处理方法一般由服务器105执行，相应地，基于人工智能的数据处理装置一般设置于服务器105中。在另一些实施例中，某些终端可以和服务器具有相似的功能从而执行本方法。因此，本发明实施例所提供的基于人工智能的数据处理方法不严格限定在服务器端执行。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本发明实施例中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3至图9所示的各个步骤。

如图3所示，该基于人工智能的数据处理方法包括步骤310-340。

在步骤310中，获取增量数据。

在一个实施例中，增量数据可以是新时点数据。例如，原来在数据库中只包含2019年6份之前的数据，而当前发现数据库中包含2019年7份的数据，此时可以将2019年7份的数据作为新时点数据(即增量数据)。也就是说，增量数据可以是实时获取的新数据，该新数据可以是文本、网络图、图像、语音等等。下面的实施例均以新数据为文本为例展开介绍。

在步骤320中，根据增量数据和已有表示学习结果确定新增节点。

在一个实施例中，已有表示学习结果可以是通过表示学习算法对已有数据处理得到的向量，该向量可以是已有节点。在确定新增节点时，可以通过表示学习算法对增量数据处理，在处理时将已有节点作为参照，这样便于找出新增节点。例如，增量数据为新文本，已有节点为已有文本的词向量。在确定新增节点时，可以通过表示学习算法对新文本进行分词，在分词的过程中可以将新文本中的词处理成词向量，在分词时可以将已有文本的节点作为参考，这样可以快速的从新文本中找到新增节点，该新增节点为新增词的词向量。

在步骤330中，使用强化学习决策器选择新增数据和已有节点，所述新增数据和所述已有节点用于增量更新所述已有表示学习结果，所述强化学习决策器是通过强化学习算法得到的。

在一个实施例中，如果存在新增节点，可以使用提前训练好的强化学习决策器选择新增数据和已有节点，选出的新增数据和已有节点用于增量更新已有表示学习结果。例如，将增量数据、新增节点、及已有表示学习结果输入强化学习决策器，该强化学习决策器可以基于增量数据、新增节点、及已有表示学习结果进行迭代决策，直到基于两次相邻的决策输出的新增数据和已有节点相同或相似停止决策，然后接收强化学习决策器输出的新增数据和已有节点，以此方式可以获得最优的表示学习的输入数据，即强化学习决策器输出的新增数据和已有节点。在本实例中，两次相邻的决策可以是强化学习决策器第t时刻和第t+1时刻做出的决策行为。

在一个实施例中，增量数据为新文本，已有表示学习结果为已有文本的节点。那么通过强化学习决策器选择的新增数据可以是新文本中的新增词之间的关联信息，可以将新增数据称之为新增语料，新增语料包含了新文本中的新增词之间的关联信息。

在一个实施例中，上述强化学习决策器可以是通过强化学习算法得到的。具体地，可以基于强化学习的环境E和反馈R通过强化学习算法对强化学习神经网络进行参数学习可以得到上述强化学习决策器，其中，强化学习的环境E包括状态S和强化学习决策器的决策行为A，所述状态S包括已有表示学习结果与已入选增量更新的新增节点和新增数据。在本实例中的强化学习算法可以是基于深度Q网络、策略梯度网络、或AC的学习框架。

在一个实施例中，通过强化学习决策器基于新增节点和已有表示结果确定已有节点，这样控制了已有节点参与更新的范围，有效的减少了更新过程中参与计算的数据量，提升了计算速度，降低了计算时间，总体来看，能够有效节省总能耗和集群所需要使用的机器数量。

在步骤340中，基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。

在一个实施例中，使用表示学习算法，根据损失函数将筛选得到的新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新，并整合所有的结果输出。

本公开提供的基于人工智能的数据处理方法可以根据增量数据和已有表示学习结果确定来新增节点，然后使用强化学习决策器选择新增数据和已有节点，最后基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新，以此方式进行表示学习的更新可以提升计算效率和准确度，而且还无需人工干预，从而解决了相关技术中在表示学习增量更新时计算效率和准确度较低的问题，进而降低增量更新的时间以及人力的成本。

如图4所示，上述步骤340具体可以包括步骤S341和步骤S342。

在步骤S341中，根据新增数据、新增节点及已有节点设置表示学习的第一学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标。

在一个实施例中，第一学习参数为表示学习的可调参数，可以包括但不限于以下任意一个或多个：学习率、节点分组、迭代次数、窗口大小。

在步骤S342中，根据第一学习参数基于新增数据、增节点及已有节点对已有表示学习结果进行表示学习的更新。

在一个实施例中，根据学习率、节点分组、迭代次数、窗口大小等第一学习参数基于新增数据、增节点及已有节点对已有表示学习结果进行表示学习的更新，这样可以提升增量更新的结果准确度，而且无需人工对学习参数进行设置，进而提高用户体验。

图5是根据另一示例性一个实施例示出的一种基于人工智能的数据处理方法的流程图。

图3实施例描述的基于人工智能的数据处理方法还可以包括步骤S410～步骤S440，如图5所示。

在步骤S410中，根据已有表示学习结果从增量数据中确定与已有表示学习结果相关的数据。

在步骤S420中，对与已有表示学习结果相关的数据和新增节点进行初始化处理。

在步骤S430中，接收强化学习决策器基于初始化结果输出的更新概率，所述更新概率用于确定是否执行对所述已有表示学习结果的更新。

在步骤S440中，当更新概率大于预设阈值时，执行基于所述新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新，或者，当更新概率小于等于预设阈值时，不执行基于所述新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。

在一个实施例中，使用表示学习算法进行增量节点的初始化，即固定已有节点的向量值，使用损失函数和与已有表示学习结果相关的数据表示学习新增节点，以达到最优初始化的效果。

在一个实施例中，当更新概率大于预设阈值时，可以基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。相反，当更新概率小于等于预设阈值时，不执行对已有表示学习结果进行表示学习的更新。此时可以将该增量数据返回，等待和下一时刻的新数据一起进行处理。以此方式可以提高增量数据更新的准确度，即通过预设阈值来确定是否进而表示学习的更新，从而将不满足预设阈值的增量数据返回。

图6是根据另一示例性一个实施例示出的一种基于人工智能的数据处理方法的流程图。在执行图6实施例描述的步骤S310之前，可以使用强化学习算法来训练上述强化学习决策器，具体训练过程如下。

如图6所示，上述基于人工智能的数据处理方法还包括步骤S510～步骤S550。

在步骤S510中，获取用于训练的数据。

在步骤S520中，根据用于训练的数据和已有表示学习结果确定新增节点。

在步骤S530中，将训练的数据、新增节点和已有表示学习结果输入强化学习决策器以选择用于增量数据更新的新增数据和已有节点。

在步骤S540中，基于用于增量数据更新的新增数据和已有节点确定反馈值。

在步骤S550中，根据反馈值对该所述强化学习决策器进行调整。

该方法可以根据反馈值对强化学习决策器进行调整，以此方式可以得到一个性能较强的决策器，便于后续在表示学习的更新过程中应用。

在一个实施例中，用于训练的数据也可以是新时点数据。例如，原来在数据库中只包含2018年3份之前的数据，而当前发现数据库中包含2018年4份的数据，此时可以将2018年4份的数据作为新时点数据(即用于训练的数据)。也就是说，用于训练的数据可以是实时获取的新数据，该新数据可以是文本、网络图、图像、语音等等。下面的实施例均以新数据为文本为例展开介绍。

在一个实施例中，已有表示学习结果可以是通过表示学习算法对已有数据处理得到的向量，该向量可以是已有节点。在确定新增节点时，可以通过表示学习算法对增量数据处理，在处理时将已有节点作为参照，这样便于找出新增节点。例如，增量数据为新文本，已有节点为已有文本的词向量。在确定新增节点时，可以通过表示学习算法对新文本进行分词，在分词时可以将已有文本的节点作为参考，这样可以快速的从新文本中找到新增节点，该新增节点为新增词的词向量。本实施例的表示学习算法如下：

其中，其中V为表示学习的向量，V*表示最优结果，C为输入的增量数据，例如在文本中为语料，在网络学习中可以为随机游走的路径等；L为损失函数，即表示学习的优化目标。常见的Word2Vec和Node2Vec算法采用的是内积相似度，即在相同C中出现的两个V的相似度更大，反之更小。

下面通过一个用于训练数据为新文本的实施例来描述强化学习决策器的训练过程。

在训练强化学习决策器之前，需要定义强化学习的环境E和反馈R。关于环境E，可以定义为：

E＝<S，A>

其中A为强化学习决策器可以做出的决策行为，在本发明中，决策行为A主要包括选择增量更新的已有节点和新增数据。例如对于文本词向量的表示学习的增量更新，可以统计新文本中的新增词，并选择其中的新增词，以及选择该新文本是否入选增量数据更新的语料数据。状态S为已有且入选的表示学习结果与已入选增量更新的新增节点和新增数据。例如，将之前经过表示学习得到的相关词向量集合为新增的词记为新增的语料记为/>则t时刻的行为向量可记为：

其中，N表示V中词向量的个数，N,-N表示W中词向量的个数，N,表示V和W中词向量的总数，M表示C中词向量的个数，N,+M表示V、W和C中词向量的总数；A^t表示t时刻的行为向量，在A^t中的行为向量的个数为N,+M，可以将A^t中的行为向量记为0或1，0表示不选择，1表示选择，即N'+M维度的0-1向量，表示是否选择相应的词向量、新词和语料。

t时刻的状态向量可记为:

即在选择完成向量之后，被选中的已有向量和新增语料两者的函数表示。由于A和S通常要求有最大长度限制，可以通过最相关的N个向量集合筛选V，并选出新增词和语料中词频最高的N'-N个词和对应的M个语料。最相关的定义可以通过共现矩阵定义，即和高频新词共同出现最多的向量。其中函数f和g通常使用循环神经网络(例如LSTM、GRU等网络单元)实现Encoder，即实现对原有信息的压缩，分别生成定长为B和K的向量，方便状态向量的表示。其中，B、K、M、N、N'为整数。

反馈R定义了强化学习所需要优化的目标，也就是各个元素入选后能够产生怎样的收益。定义如下函数：

R(S^t，A^t)＝-ΔL(V,W；C)＝L(A^t-1V,A^t-1W；A^t-1C)-L(A^tV,A^tW；A^tC)

上式中，函数ΔL表示使用梯度下降算法进行模型损失处理，函数L表示损失函数。即采取行为A的选择结果后，将损失函数的下降值作为反馈。整个训练的过程可以直接从现有的时间片中采样所需的节点和数据作为训练集，通常会在连续时间段中，将新增的节点放在W中。然后让强化学习决策器不断探索选择的策略，根据反馈R的值对强化学习决策器进行调整。具体的强化学习算法可以基于深度Q网络、策略梯度网络、AC的学习框架。

图7是根据另一示例性一个实施例示出的一种基于人工智能的数据处理方法的流程图。

当图3描述的实施例中不存在新增节点时，该基于人工智能的数据处理方法还包括步骤S610～步骤S630。

在步骤S610中，如果不存在新增节点，使用强化学习决策器选择用于已有表示学习结果的增量更新的已有节点。

在步骤S620中，根据已有节点、所述增量数据设置表示学习的第二学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标。

在步骤S630中，根据第二学习参数基于所述已有节点、增量数据对已有表示学习结果进行表示学习的更新。

在该方法中，如果不存在新增节点，可以使用强化学习决策器选择用于已有表示学习结果的增量数据更新的已有节点，并根据第二学习参数基于已有节点、增量数据进行表示学习的更新，这样可以保证当不存在新增节时，也可以基于已有节点、增量数据对已有表示学习结果进行表示学习的更新。

在一个实施例中，在确定新增节点时，可以通过表示学习算法对增量数据处理，在处理时将已有节点作为参照，这样便于找出新增节点。例如，增量数据为新文本，已有节点为已有文本的词向量。在确定新增节点时，可以通过表示学习算法对新文本进行分词，在分词时可以将已有文本的节点作为参考，这样可以快速的确定新文本中是否包含新增词，即新增节点为新增词的词向量。

在一个实施例中，第二学习参数可以是表示学习的可调参数，可以包括但不限于以下任意一个或多个：学习率、节点分组、迭代次数、窗口大小。

在一个实施例中，根据学习率、节点分组、迭代次数、窗口大小等第二学习参数基于新增数据、增节点及已有节点对已有表示学习结果进行表示学习的更新，这样可以提升增量更新的结果准确度，而且无需人工对学习参数进行设置，进而提高用户体验。

如图8A所示，强化学习增量更新系统10包括外部接口11、增量学习控制器12、表示学习算法13、强化学习决策器14和控制器训练15。

其中，外部接口11包括存储数据的数据仓库和控制终端，例如数据库系统或者HADOOP大数据仓库，其中保存了表示学习算法的输入数据、中间数据和结果数据；控制终端给出运行指令和参数，得到计算执行的状态指标和相应结果数据的存储路径等。另外，表示学习算法13即为上文所提及的将复杂非结构化数据(如文本、实体关系图等)转换为分布式表示的向量的算法，在本发明中，仍然可以沿用已有的表示学习算法，以增加本发明的适用场景，该模块可以运行在单机上，也可以运行在分布式计算集群或云计算平台上，其原理设计不在本发明范围内。强化学习决策器14即为强化学习得到的决策模型，通过处理已有数据并监控当前算法状态，给出下一步需要的数据和参数。控制器训练15的训练通过定义的环境和奖励函数给出，其中环境可以是模拟仿真的数据，也可以是实际使用的真实数据，奖励函数根据数据的特性给出，下文会给出具体的定义。增量学习控制器12统筹管理整个系统10的运行流程和训练流程，并且提供控制信息的处理和反馈。

如图8B所示，训练流程包括A1～A5，使用流程包括A6～A9，其中，训练流程和使用流程还可以包括A10和A11。

训练流程：

A1：从上述外部接口11中的数据仓库中获取用于训练的数据，

A2：根据用于训练的数据和已有表示学习结果确定新增节点。

A3：将训练的数据、新增节点和已有表示学习结果输入强化学习决策器以选择用于增量数据更新的新增数据和已有节点。

A4：基于用于增量数据更新的新增数据和已有节点确定反馈值。

A5：根据反馈值对该所述强化学习决策器进行调整。

该训练流程可以根据反馈值对强化学习决策器进行调整，以此方式可以得到一个性能较强的决策器，便于后续在表示学习的更新过程中应用。

另外，如果用于训练的数据中不存在新增节点时，训练流程还可以包括A10和A11。

A10：如果不存在新增节点，使用强化学习决策器选择用于增量数据更新的已有节点。

A11：基于已有节点、训练数据对已有表示学习结果进行表示学习的更新。

在该训练流程中，如果不存在新增节点，可以使用强化学习决策器选择用于增量数据更新的已有节点，并基于所述已有节点、训练数据进行表示学习的更新，这样可以保证当不存在新增节时，也可以基于已有节点、训练数据进行表示学习的更新。

使用流程：

A6：从上述外部接口11中获取增量数据。

A7：根据增量数据和已有表示学习结果确定新增节点。

A8：使用强化学习决策器选择用于增量数据更新的新增数据和已有节点。

以及

A9：基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。

该使用流程可以根据增量数据和已有表示学习结果确定来新增节点，然后使用强化学习决策器选择用于增量数据更新的新增数据和已有节点，最后基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新，以此方式进行表示学习的更新可以提升计算效率和准确度，而且还无需人工干预，从而解决了相关技术中在表示学习增量更新时计算效率和准确度较低的问题，进而降低增量更新的时间以及人力的成本。

另外，如果增量数据中不存在新增节点时，使用流程还可以包括A10和A11。

A11：基于已有节点、增量数据对已有表示学习结果进行表示学习的更新。

在该训练流程中，如果不存在新增节点，可以使用强化学习决策器选择用于增量数据更新的已有节点，并基于所述已有节点、增量数据进行表示学习的更新，这样可以保证当不存在新增节时，也可以基于已有节点、增量数据对已有表示学习结果进行表示学习的更新。

如图9所示，基于人工智能的数据处理装置300包括第一获取模块301、第一确定模块302、第一选择模块303和第一更新模块304。

具体地，第一获取模块301，用于获取增量数据。

第一确定模块302，用于根据增量数据和已有表示学习结果确定新增节点。

第一选择模块303，使用强化学习决策器选择新增数据和已有节点，所述新增数据和所述已有节点用于增量更新所述已有表示学习结果，所述强化学习决策器是通过强化学习得到的。

第一更新模块304，基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。

该基于人工智能的数据处理装置300可以根据增量数据和已有表示学习结果确定来新增节点，然后使用强化学习决策器选择新增数据和已有节点，最后基于新增数据、新增节点及已有节点对已有表示结果进行表示学习的更新，以此方式进行表示学习的更新可以提升计算效率和准确度，而且还无需人工干预，从而解决了相关技术中在表示学习增量更新时计算效率和准确度较低的问题，进而降低增量更新的时间以及人力的成本。

根据本公开的实施例，基于人工智能的数据处理装置300可以用于实现图3实施例描述的基于人工智能的数据处理方法。

如图10所示，上述第一更新模块304具体可以包括第一设置模块304-1和第一更新模块的子模块304-2。

第一设置模块304-1，用于根据新增数据、新增节点及所已有节点设置表示学习的第一学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标。

第一更新模块的子模块304-2，用于根据第一学习参数基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。

该第一更新模块304可以根据学习率、节点分组、迭代次数、窗口大小等第一学习参数基于新增数据、增节点及已有节点对已有表示学习结果进行表示学习的更新，这样可以提升增量更新的结果准确度，而且无需人工对学习参数进行设置，进而提高用户体验。

根据本公开的实施例，该第一更新模块304用于实现图4实施例描述的基于人工智能的数据处理方法。

如图11所示，基于前述方案基于人工智能的数据处理装置300还包括第二确定模块305、初始化模块306、输出模块307和判断模块308。

第二确定模块305，用于根据已有表示学习结果从增量数据中确定与已有表示学习结果相关的数据。

初始化模块306，用于对与已有表示学习结果相关的数据和新增节点进行初始化处理。

输出模块307，用于接收强化学习决策器基于初始化结果输出的更新概率，所述更新概率用于确定是否执行对所述已有表示学习结果的更新。

判断模块308，当更新概率大于预设阈值时，执行基于所述新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新，或者，当更新概率小于等于预设阈值时，不执行基于所述新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。

在该基于人工智能的数据处理装置300中，当更新概率大于预设阈值时，可以基于新增数据、新增节点及已有节点对已有表示学习结果进行表示学习的更新。相反，当更新概率小于等于预设阈值时，不执行对已有表示学习结果进行表示学习的更新。此时可以将该增量数据返回，等待和下一时刻的新数据一起进行处理。以此方式可以提高增量数据更新的准确度，即通过预设阈值来确定是否进而表示学习的更新，从而将不满足预设阈值的增量数据返回。

根据本公开的实施例，该基于人工智能的数据处理装置300还可以用于实现图5实施例描述的基于人工智能的数据处理方法。

如图12所示，基于前述方案基于人工智能的数据处理装置300还包括第二获取模块309、第三确定模块310、输入模块311、第四确定模块312和调整模块313。

第二获取模块309，用于获取用于训练的数据。

第三确定模块310，用于根据用于训练的数据和已有表示学习结果确定新增节点。

输入模块311，用于将训练的数据、新增节点和已有表示学习结果输入强化学习决策器以选择用于增量数据更新的新增数据和已有节点。

第四确定模块312，基于用于增量数据更新的新增数据和已有节点确定反馈值。

调整模块313，用于根据反馈值对强化学习决策器进行调整。

该基于人工智能的数据处理装置300可以根据反馈值对强化学习决策器进行调整，以此方式可以得到一个性能较强的决策器，便于后续在表示学习的更新过程中应用。

根据本公开的实施例，该基于人工智能的数据处理装置300还可以用于实现图6实施例描述的基于人工智能的数据处理方法。

如图13所示，基于前述方案基于人工智能的数据处理装置300还包括第二选择模块314、第二设置模块315、第二更新模块316。

第二选择模块314，如果不存在新增节点，使用强化学习决策器选择用于已有表示学习结果的增量更新的已有节点。

第二设置模块315，用于根据已有节点、增量数据设置表示学习的第二学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标。

第二更新模块316，用于根据第二学习参数基于新增数据、已有节点对已有表示学习结果进行表示学习的更新。

该基于人工智能的数据处理装置300可以根据学习率、节点分组、迭代次数、窗口大小等第二学习参数基于新增数据、增节点及已有节点对已有表示学习结果进行表示学习的更新，这样可以提升增量更新的结果准确度，而且无需人工对学习参数进行设置，进而提高用户体验。

根据本公开的实施例，该基于人工智能的数据处理装置300用于实现图7实施例描述的基于人工智能的数据处理方法。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于人工智能的数据处理方法，其特征在于，包括：

获取增量数据，所述增量数据包括文本、图像、语音中的至少一种；

根据所述增量数据和已有表示学习结果确定新增节点；

使用强化学习决策器选择新增数据和已有节点，所述新增数据和所述已有节点用于增量更新所述已有表示学习结果，所述强化学习决策器是通过强化学习算法得到的；以及

基于所述新增数据、所述新增节点及所述已有节点对所述已有表示学习结果进行表示学习的更新；

其中，通过所述强化学习算法得到所述强化学习决策器的过程包括：

基于强化学习的环境E和反馈R通过所述强化学习算法对强化学习神经网络进行参数学习得到所述强化学习决策器，其中，所述强化学习的环境E包括状态S和所述强化学习决策器的决策行为A，所述状态S包括已有表示学习结果与已入选增量更新的新增节点和新增数据，所述反馈R为表示学习的损失函数的下降值。

2.如权利要求1所述的方法，其特征在于，t时刻的反馈R为：

R(S^t，A^t)＝-ΔL(V,W；C)＝L(A^t-1V,A^t-1W；A^t-1C)-L(A^tV,A^tW；A^tC)，

其中，S^t表示t时刻的状态向量，A^t表示t时刻的行为向量，S^t和A^t为：

其中，已有节点为N表示V中词向量的个数；新增节点为/>N’表示W中词向量的个数；新增数据为/>M表示C中词向量的个数；B，K，M，N，N’为整数；函数f和函数g表示使用循环神经网络实现对原有信息的压缩，以分别生成定长为B和K的向量；函数ΔL表示使用梯度下降算法进行模型损失处理；函数L表示损失函数。

3.如权利要求1所述的方法，其特征在于，所述使用强化学习决策器选择所述新增数据和所述已有节点包括：

将所述增量数据、所述新增节点、及所述已有表示学习结果输入所述强化学习决策器；

所述强化学习决策器基于所述增量数据、所述新增节点、及所述已有表示学习结果进行迭代决策，直到基于两次相邻的决策输出的新增数据和已有节点相同或相似停止决策；

接收所述强化学习决策器输出的所述新增数据和所述已有节点。

4.如权利要求1所述的方法，其特征在于，基于所述新增数据、所述新增节点及所述已有节点对所述已有表示学习结果进行表示学习的更新包括：

根据所述新增数据、所述新增节点及所述已有节点设置表示学习的第一学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标；

根据所述第一学习参数基于所述新增数据、所述新增节点及所述已有节点对所述已有表示学习结果进行表示学习的更新。

5.如权利要求1所述的方法，其特征在于，该方法还包括：

根据所述已有表示学习结果从所述增量数据中确定与所述已有表示学习结果相关的数据；

对与所述已有表示学习结果相关的数据和所述新增节点进行初始化处理；

接收所述强化学习决策器基于初始化结果输出的更新概率，所述更新概率用于确定是否执行对所述已有表示学习结果的更新；

当所述更新概率大于预设阈值时，执行所述基于所述新增数据、所述新增节点及所述已有节点对所述已有表示学习结果进行表示学习的更新。

6.如权利要求1所述的方法，其特征在于，该方法还包括：

如果不存在所述新增节点，使用强化学习决策器选择已有节点，所述已有节点用于增量更新所述已有表示学习结果；

根据所述已有节点、所述增量数据设置表示学习的第二学习参数，以便于提升表示学习的效率和表示学习结果的似然率指标；

根据所述第二学习参数基于所述新增数据、所述已有节点对所述已有表示学习结果进行表示学习的更新。

7.如权利要求1所述的方法，其特征在于，所述强化学习算法为基于深度Q网络、策略梯度网络、或AC的学习框架。

8.一种基于人工智能的数据处理装置，其特征在于，包括：

第一获取模块，用于获取增量数据，所述增量数据包括文本、图像、语音中的至少一种；

第一确定模块，用于根据所述增量数据和已有表示学习结果确定新增节点；

第一选择模块，使用强化学习决策器选择新增数据和已有节点，所述新增数据和所述已有节点用于增量更新所述已有表示学习结果，所述强化学习决策器是通过强化学习算法得到的；以及

第一更新模块，基于所述新增数据、所述新增节点及所述已有节点对所述已有表示学习结果进行表示学习的更新；

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至7中任一项所述的基于人工智能的数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的基于人工智能的数据处理方法。