CN112036160A

CN112036160A - 结合rpa和ai的语料数据的获取方法和装置

Info

Publication number: CN112036160A
Application number: CN202010840221.5A
Authority: CN
Inventors: 潘静鹏; 胡景超; 胡一川; 汪冠春; 褚瑞; 李玮
Original assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Current assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-08-19
Publication date: 2020-12-04
Anticipated expiration: 2040-08-19
Also published as: CN112036160B

Abstract

本公开提供的结合RPA和AI的语料数据的获取方法和装置，RPA系统获取语料数据的语料文本以及相应的任务配置信息；RPA系统根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出，从而可获得高质量的语料数据。

Description

结合RPA和AI的语料数据的获取方法和装置

相关申请的交叉引用

本申请要求北京奔影网络科技有限公司于2020年3月31日提交的、申请名称为“语料数据的获取方法、装置、电子设备及存储介质”的、中国专利申请号“202010244926.0”的优先权。

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种结合RPA(Robotic ProcessAutomation，机器人流程自动化)和AI(Artificial Intelligence，人工智能)的语料数据的获取方法、装置、电子设备及存储介质。

背景技术

机器人流程自动化(Robotic Process Automation，简称：RPA)是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

人工智能(Artificial Intelligence，简称：AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前，RPA和AI技术具有自动化程度高、精确度高、成本低的优点，得到了广泛的应用。

随着人工智能的发展，智能语音交互成为可能。为了能够对语音进行准确识别，便于后续的交互处理，需要采集高质量语料数据以用于完善语音交互模型，从而使得语音交互的智能化程度更好。基于此，如何获得采集高质量语料数据成为热点。

在现有技术中，对于语料数据的采集是可通过众包的方式实现：通过建立在众包平台建立语料数据的采集任务，以使用户可通过众包平台参与任务并上传相应的语料数据，从而实现了目标语料数据的获取。

但是，这样的方式容易采集到质量较低或无效等不符合使用需求的语料数据，采用这样的语料数据对语音交互模型进行完善将导致语音交互模型的交互质量受到影响。

发明内容

针对上述问题，本公开提供了一种结合RPA和AI的语料数据的获取方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种结合RPA和AI的语料数据的获取方法，包括：

RPA系统获取语料数据的语料文本以及相应的任务配置信息；

RPA系统根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；

RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；

RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出。

在可选实施例中，所述任务配置信息包括对所述语料文本进行语料采集的采集次数；

相应的，RPA系统根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，包括：

RPA系统建立语料文本的多个语料采集任务，其中，所述语料采集任务的数量与所述采集次数相同；

RPA系统在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端。

在可选实施例中，所述任务配置信息还包括语料采集任务的执行用户终端条件；

相应的，RPA系统在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端之前，包括：

RPA系统根据语料采集任务的执行用户终端条件，在候选用户中确定可执行所述语料采集任务的多个第一用户终端。

在可选实施例中，RPA系统在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端，包括：

RPA系统根据采集调度策略在多个第一用户终端中确定执行每一语料采集任务的执行用户终端；其中，各语料采集任务与各第一用户终端一一对应。

在可选实施例中，所述将语料采集任务分配至各第一用户终端之后，还包括：

RPA系统确定每一所述第一用户终端执行相应的语料采集任务的执行时间；

RPA系统当任一第一用户终端执行语料采集任务的执行时间大于预设阈值时，该语料采集任务终止，并重新生成一个语料数据的语料采集任务，以分配给下一第一用户终端。

在可选实施例中，该方法还包括：

RPA系统生成采集任务列表，所述采集任务列表中包括各种语料数据的待分配的语料采集任务；

相应的，将语料采集任务分配至各第一用户终端之前，还包括：

RPA系统确定每种语料数据对应的待分配的语料采集任务的数量，并将数量最大的语料数据的待分配的语料采集任务分配至各第一用户终端。

在可选实施例中，所述任务配置信息包括对所述语料采集数据进行校验的校验次数；

相应的，RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，包括：

RPA系统针对每个语料采集数据，建立多个语料校验任务，其中，每个语料采集数据的语料校验任务的数量与所述校验次数相同；

RPA系统在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端；

其中，针对任一语料采集数据，其相应的第一用户终端和第二用户终端为不同执行用户终端。

在可选实施例中，所述任务配置信息还包括语料校验任务的执行用户终端条件；

相应的，RPA系统在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端之前，包括：

RPA系统根据语料校验任务的执行用户终端条件，在候选用户终端中确定可执行所述语料校验任务的多个第二用户终端。

在可选实施例中，RPA系统在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端，包括：

RPA系统根据校验调度策略在多个第二用户终端中确定执行每一语料校验任务的执行用户终端；其中，各语料校验任务与各第二用户终端一一对应。

在可选实施例中，所述将语料校验任务分配至各第二用户终端之后，还包括：

RPA系统确定每一所述第二用户终端执行相应的语料校验任务的执行时间；

RPA系统当任一第二用户终端执行语料校验任务的执行时间大于预设阈值时，该语料校验任务终止，并重新生成一个语料采集数据的语料检验任务，以分配给下一第二用户终端。

在可选实施例中，该方法还包括：

RPA系统生成校验任务列表，所述校验任务列表中包括各个语料采集数据的待分配的语料校验任务；

相应的，将语料校验任务分配至各第二用户终端之前，还包括：

RPA系统确定每种语料采集数据对应的待分配的语料校验任务的数量，并将数量最大的语料采集数据对应的待分配的语料采集任务分配至各第二用户终端。

在可选实施例中，RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出，包括：

RPA系统在当前获得的语料采集数据的语料校验结果中，确定语料校验结果表示为校验通过的语料校验结果的数量，当所述数量大于等于阈值，则将该语料采集数据作为语料数据输出。

RPA系统根据语料校验任务的执行用户终端条件，在候选用户终端中确定可执行所述语料校验任务的多个第二用户终端；

其中，各语料校验任务与各第二用户终端一一对应；

第二方面，本公开提供了一种结合RPA和AI的语料数据的获取装置，包括：

接口模块，用于获取语料数据的语料文本以及相应的任务配置信息；

采集模块，用于根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；

校验模块，用于根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；

接口模块，还用于根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出。

第三方面，本公开提供了一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如前任一项所述的方法。

第四方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如前任一项所述的方法。

本公开提供的结合RPA和AI的语料数据的获取方法、装置、电子设备及存储介质，RPA系统获取语料数据的语料文本以及相应的任务配置信息；RPA系统根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出，从而可获得高质量的语料数据。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开所基于的网络架构的示意图；

图2为本公开实施例提供的一种结合RPA和AI的语料数据的获取方法的流程示意图；

图3为本公开实施例提供的结合RPA和AI的语料数据的获取方法的界面示意图；

图4为本公开实施例提供的结合RPA和AI的语料数据的获取装置的结构框图；

图5为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

参考图1，图1为本公开所基于的网络架构的示意图，如图1所示的，本公开基于的一种网络架构可包括结合RPA和AI的语料数据的获取装置2以及各终端1。

其中，结合RPA和AI的语料数据的获取装置2是可与各终端1通过网络进行交互的硬件或软件，其可用于执行下述示例一中所述的结合RPA和AI的语料数据的获取方法，并为承载在各终端1的客户端提供语料采集任务生成和分配、语料校验任务的生成和分配以及预料数据的输出等服务。

当结合RPA和AI的语料数据的获取装置2为硬件时，包括具备运算功能的云端服务器。当结合RPA和AI的语料数据的获取装置2为软件时，其可以安装在具备运算功能的电子设备中，其中的电子设备包括但不限于膝上型便携计算机和台式计算机等等。

此外，终端1是指包括智能手机、平板电脑、台式计算机等在内的可与前述的结合RPA和AI的语料数据的获取装置2通过网络进行通信和信息交互的设备。

本公开所基于的结合RPA和AI的语料数据的获取方法、装置、电子设备及存储介质，通过获取语料数据的语料文本以及相应的任务配置信息；根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出，从而采集到高质量的符合使用需求的语料数据。

本公开所基于的结合RPA和AI的语料数据的获取方法、装置、电子设备及存储介质可适用于各领域的语料数据的获取，如智能客服、智能交互等。

第一方面，参考图2，图2为本公开实施例提供的一种结合RPA和AI的语料数据的获取方法的流程示意图。本公开实施例提供的结合RPA和AI的语料数据的获取方法，包括：

步骤101、RPA系统获取语料数据的语料文本以及相应的任务配置信息。

步骤102、RPA系统根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；

步骤103、RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；

步骤104、RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出。

需要说明的是，本示例的提供的处理方法的执行主体为RPA(Robotic ProcessAutomation，机器人流程自动化)系统，RPA系统可预先设置在前述的语料数据的获取装置上。其中，RPA系统可与终端进行通信，以与包括第一用户终端和第二用户终端在内的各用户终端进行数据交互。其中的第一用户终端指代的是执行语料采集任务的用户终端，而第二用户终端指代的是执行语料校验任务的用户终端，该第一用户终端和第二用户终端基于实际情况可为同一用户终端，也可为不同用户终端，本实施例对此不进行限制。

首先，RPA系统需要获取语料数据的语料文本以及任务配置信息。

具体来说，语料任务的发布者可通过RPA系统的管理后台，并基于任务模板将任务配置信息上传至该管理后台，以供RPA系统生成任务。

其中，语料文本是指语料所基于的文本信息，如需要采集“今天吃了么”这一文本的语料数据，那么“今天吃了么”则为其语料文本。任务配置信息则包括有多种与任务相关的配置参数，例如，需要进行的语料采集的采集次数、需要对语料进行验证的验证次数、任务执行用户终端的条件等等。

随后，RPA系统将根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据。也就是说，在语料采集数据的获取阶段，RPA系统需要生成语料采集任务，并分配语料采集任务。

在可选的实施方式中，任务配置信息包括对所述语料文本进行语料采集的采集次数，因此，RPA系统在根据任务配置信息建立语料采集任务时，可建立语料文本的多个语料采集任务，其中，所述语料采集任务的数量与所述采集次数相同。

与此同时的，对于用户来讲，其可通过终端的客户端来参与到语料采集任务当中。因此，当用户登录到客户端时，可对于想要参与的任务进行选取，如选取参与“语料采集任务”，随后，该用户终端将被RPA系统记录下来，并列为第一用户终端，即可执行语料采集任务的用户终端。当然，第一用户终端的数量是多个，即多个用户终端均采用上述方式参与到语料采集任务当中，以作为第一用户终端。

然后，RPA系统将在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端，即将现有的语料采集任务分配给各第一用户终端，以供每一第一用户终端进行处理，生成语料采集数据。

具体来说，RPA系统可根据采集调度策略在多个第一用户终端中确定执行每一语料采集任务的执行用户终端；其中，各语料采集任务与各第一用户终端一一对应。采集调度策略具体可为动态车间调度策略，其大体可包括如下策略：针对每一个语料采集任务，在同一时刻仅有唯一第一用户终端在执行该任务，且该语料采集任务仅能被执行一次；针对每一个第一用户终端，在同一时刻仅执行唯一的语料采集任务。基于该采集调度策略，可确定每一语料采集任务的执行用户终端，以得到相应的语料采集数据。

当然，在其他可选实施例中，任务配置信息还包括语料采集任务的执行用户终端条件；也就是说，RPA系统可根据语料采集任务的执行用户终端条件，在候选用户终端中确定可执行所述语料采集任务的多个第一用户终端。

具体来说，对于RPA系统来说，每当用户通过客户端选中参与“语料采集任务”时，其将被放入预先建立的语料采集任务的用户终端列表中，以等待RPA系统为其分配任务。在该用户终端列表中，可记录有用户的用户终端信息以及被列入时间等信息，还可包括有该用户终端参与过的历史语料采集任务或历史语料校验任务等信息。

基于该用户终端列表，RPA系统可基于任务配置信息中的执行用户终端条件，从中选取符合执行用户终端条件的用户终端作为第一用户终端，并为第一用户终端分配语料采集任务。例如，执行用户终端条件可为“男性”“60岁以上”，还可为“北方人”等等。

在上述实施例的基础上，不得不考虑到一些第一用户终端无法准时完成语料采集任务的情况，因此，考虑到语料采集任务的时效性，在RPA系统将将语料采集任务分配至各第一用户终端之后，还确定每一所述第一用户终端执行相应的语料采集任务的执行时间；当任一第一用户终端执行语料采集任务的执行时间大于预设阈值时，该语料采集任务终止，并重新生成一个语料数据的语料采集任务，以分配给下一第一用户终端。

也就是说，RPA系统在生成语料采集任务之后，还将对每一语料采集任务的状态进行记录，在生成之初，其状态被标定为未分配，而一旦该语料采集任务被分配给第一用户终端，其状态被标定为已分配，在语料采集任务被第一用户终端完成并上传得到相应的语料采集数据之后，该语料采集任务将被标定为已完成。当然，如上所述的，在语料采集任务被标定为已分配的同时，还可对其执行时间进行计时，一旦执行时间大于预设阈值，该语料采集任务可被标定为终止，此时，RPA系统将会重新生成一相同的语料采集任务并进行分配，终止的语料采集任务将不再进行维护。

在上述实施例的基础上，考虑到RPA系统在同一时间内可能维护着多个任务发布者所发布的多种语料采集任务。因此，针对每一种语料采集任务来说，其均可采用上述方式进行任务的生成和分配；但针对于各种语料采集任务之间可采用如下方式进行分配：RPA系统生成采集任务列表，所述采集任务列表中包括各种语料数据的待分配的语料采集任务；相应的，将语料采集任务分配至各第一用户终端之前，还包括：RPA系统确定每种语料数据对应的待分配的语料采集任务的数量，并将数量最大的语料数据的待分配的语料采集任务分配至各第一用户终端。也就是说，在本实施例中，若某一种语料的语料采集任务的数量很大，RPA系统将优先为其分配第一用户终端。

通过上述各实施例提供的方式，RPA系统可完成对于语料采集任务的生成和分配，以得到每一语料采集任务对应的语料采集数据。随后，RPA系统将如步骤103所述的，RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果。

具体来说，针对每一语料采集数据，为了保证其语料质量，需要多个用户终端对其进行校验，以得到相应的语料校验结果。

类似的，任务配置信息包括对所述语料采集数据进行校验的校验次数；RPA系统将针对每个语料采集数据，建立多个语料校验任务，其中，每个语料采集数据的语料校验任务的数量与所述校验次数相同；RPA系统在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端；其中，针对任一语料采集数据，其相应的第一用户终端和第二用户终端为不同执行用户终端。

具体来说，在任务配置信息中还将包括有针对语料采集数据进行校验的校验次数。因此，在建立语料校验任务时可基于该校验次数进行建立。

与此同时的，对于用户来讲，其可通过终端的客户端来参与到语料校验任务当中。因此，当用户登录到客户端时，可对于想要参与的任务进行选取，如选取参与“语料校验任务”，随后，该用户终端将被RPA系统记录下来，并列为第二用户终端，即可执行语料校验任务的用户终端。当然，第二用户终端的数量是多个，即多个用户终端均采用上述方式参与到语料校验任务当中，以作为第二用户终端。

然后，RPA系统将在可执行所述语料校验任务的多个第二用户终端中，确定每一语料采集任务的执行用户终端，即将现有的语料采集任务分配给各第二用户终端，以供每一第二用户终端进行处理，生成语料校验结果。需要说明的是，其中，针对任一语料采集数据，其相应的第一用户终端和第二用户终端为不同执行用户终端，即用户终端不能对自己采集获得的语料采集数据进行校验。

具体来说，RPA系统可根据校验调度策略在多个第二用户终端中确定执行每一语料校验任务的执行用户终端；其中，各语料校验任务与各第二用户终端一一对应。校验调度策略具体可为动态车间调度策略，其大体可包括如下策略：针对每一个语料校验任务，在同一时刻仅有唯一第二用户终端在执行该任务，且该语料校验任务仅能被执行一次；针对每一个第二用户终端，在同一时刻仅执行唯一的语料校验任务。基于该校验调度策略，可确定每一语料校验任务的执行用户终端，以得到相应的语料校验结果。

当然，在其他可选实施例中，任务配置信息还包括语料校验任务的执行用户终端条件；也就是说，RPA系统可根据语料校验任务的执行用户终端条件，在候选用户终端中确定可执行所述语料校验任务的多个第二用户终端。

具体来说，对于RPA系统来说，每当用户通过客户端选中参与“语料校验任务”时，其将被放入预先建立的语料校验任务的用户终端列表中，以等待RPA系统为其分配任务。在该用户终端列表中，可记录有用户的用户终端信息以及被列入时间等信息，还可包括有该用户终端参与过的历史语料校验任务或历史语料校验任务等信息。

基于该用户终端列表，RPA系统可基于任务配置信息中的执行用户终端条件，从中选取符合执行用户终端条件的用户终端作为第二用户终端，并为第二用户终端分配语料校验任务。例如，执行用户终端条件可为“女性”“20岁以上”，还可为“男方人”等等。

在上述实施例的基础上，不得不考虑到一些第二用户终端无法准时完成语料校验任务的情况，因此，考虑到语料校验任务的时效性，在RPA系统将语料校验任务分配至各第二用户终端之后，还确定每一所述第二用户终端执行相应的语料校验任务的执行时间；RPA系统当任一第二用户终端执行语料校验任务的执行时间大于预设阈值时，该语料校验任务终止，并重新生成一个语料数据的语料校验任务，以分配给下一第二用户终端。

也就是说，RPA系统在生成语料校验任务之后，还将对每一语料校验任务的状态进行记录，在生成之初，其状态被标定为未分配，而一旦该语料校验任务被分配给第二用户终端，其状态被标定为已分配，在语料校验任务被第二用户终端完成并上传得到相应的语料校验结果之后，该语料校验任务将被标定为已完成。当然，如上所述的，在语料校验任务被标定为已分配的同时，还可对其执行时间进行计时，一旦执行时间大于预设阈值，该语料校验任务可被标定为终止，此时，RPA系统将会重新生成一相同的语料校验任务并进行分配，终止的语料校验任务将不再进行维护。

在上述实施例的基础上，考虑到RPA系统在同一时间内可能维护着多个任务发布者所发布的多种语料校验任务。因此，针对每一种语料校验任务来说，其均可采用上述方式进行任务的生成和分配；但针对于各种语料校验任务之间可采用如下方式进行分配：RPA系统生成校验任务列表，所述校验任务列表中包括各个语料采集数据的待分配的语料校验任务；相应的，将语料校验任务分配至各第二用户终端之前，还包括：RPA系统确定每种语料采集数据对应的待分配的语料校验任务的数量，并将数量最大的语料采集数据对应的待分配的语料采集任务分配至各第二用户终端。也就是说，在本实施例中，若某一种语料的语料校验任务的数量很大，RPA系统将优先为其分配第二用户终端。

通过上述各实施例提供的方式，RPA系统可完成对于语料校验任务的生成和分配，以得到每一语料校验任务对应的语料校验结果。

最后，RPA系统将如步骤104所述的，RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出。

在上述实施例的基础上，RPA系统在当前获得的语料采集数据的语料校验结果中，确定语料校验结果表示为校验通过的语料校验结果的数量，当所述数量大于等于阈值，则将该语料采集数据作为语料数据输出。举例来说，若针对“今天吃了么”这一语料采集任务获得的语料采集数据，可通过语料校验任务获取其对应的3个语料校验结果，其中的第1语料校验结果和第3语料校验结果都表示其校验通过，其第2语料校验结果表示其校验未通过，若校验通过的阈值为2，那么该语料采集数据可作为语料数据进行输出。

在其他可选实施例中，图3为本公开实施例提供的结合RPA和AI的语料数据的获取方法的界面示意图，如图3所示的，无论是校验通过的语料数据还是校验未通过的语料数据均存储在RPA系统中，任务发布者可通过RPA系统查看并导出这些数据，以供其进行语料分析和后续处理。

此外，当用户终端(包括第一用户终端和第二用户终端)，参与到语料采集任务或语料校验任务中时，其终端可通过客户端对用户当前的任务进行提醒，还提供任务分享、任务下载到本地等功能，以便于用户使用。

本实施例所基于的结合RPA和AI的语料数据的获取方法，RPA系统获取语料数据的语料文本以及相应的任务配置信息；RPA系统根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出，从而采集到高质量的符合使用需求的语料数据。

对应于上文实施例的结合RPA和AI的语料数据的获取方法，图4本公开实施例提供的结合RPA和AI的语料数据的获取装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图4，所述结合RPA和AI的语料数据的获取装置包括：接口模块10、采集模块20和校验模块30；

其中，接口模块10，用于获取语料数据的语料文本以及相应的任务配置信息；

采集模块20，用于根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；

校验模块30，用于根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；

接口模块10，还用于根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出。

相应的，采集模块20，用于建立语料文本的多个语料采集任务，其中，所述语料采集任务的数量与所述采集次数相同；在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端。

相应的，在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端之前，采集模块20，用于根据语料采集任务的执行用户终端条件，在候选用户终端中确定可执行所述语料采集任务的多个第一用户终端。

在可选实施例中，采集模块20，用于根据采集调度策略在多个第一用户终端中确定执行每一语料采集任务的执行用户终端；其中，各语料采集任务与各第一用户终端一一对应。

在可选实施例中，所述将语料采集任务分配至各第一用户终端之后，采集模块20，用于：确定每一所述第一用户终端执行相应的语料采集任务的执行时间；当任一第一用户终端执行语料采集任务的执行时间大于预设阈值时，该语料采集任务终止，并重新生成一个语料数据的语料采集任务，以分配给下一第一用户终端。

在可选实施例中，采集模块20，还用于：生成采集任务列表，所述采集任务列表中包括各种语料数据的待分配的语料采集任务；确定每种语料数据对应的待分配的语料采集任务的数量，并将数量最大的语料数据的待分配的语料采集任务分配至各第一用户终端。

相应的，校验模块30，用于针对每个语料采集数据，建立多个语料校验任务，其中，每个语料采集数据的语料校验任务的数量与所述校验次数相同；在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端；其中，针对任一语料采集数据，其相应的第一用户终端和第二用户终端为不同执行用户终端。

相应的，在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户之前，校验模块30，用于根据语料校验任务的执行用户终端条件，在候选用户终端中确定可执行所述语料校验任务的多个第二用户终端。

在可选实施例中，校验模块30，用于根据校验调度策略在多个第二用户终端中确定执行每一语料校验任务的执行用户终端；其中，各语料校验任务与各第二用户终端一一对应。

在可选实施例中，所述将语料校验任务分配至各第二用户终端之后，校验模块30，用于确定每一所述第二用户终端执行相应的语料校验任务的执行时间；当任一第二用户终端执行语料校验任务的执行时间大于预设阈值时，该语料校验任务终止，并重新生成一个语料采集数据的语料检验任务，以分配给下一第二用户终端。

在可选实施例中，校验模块30，还用于生成校验任务列表，所述校验任务列表中包括各个语料采集数据的待分配的语料校验任务；确定每种语料采集数据对应的待分配的语料校验任务的数量，并将数量最大的语料采集数据对应的待分配的语料采集任务分配至各第二用户终端。

在可选实施例中，校验模块30，用于在当前获得的语料采集数据的语料校验结果中，确定语料校验结果表示为校验通过的语料校验结果的数量，当所述数量大于等于阈值，则通过接口模块10将该语料采集数据作为语料数据输出。

本实施例所基于的结合RPA和AI的语料数据的获取装置，通过获取语料数据的语料文本以及相应的任务配置信息；根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出，从而采集到高质量的符合使用需求的语料数据。

本实施例提供的电子设备，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

参考图5，其示出了适于用来实现本公开实施例的电子设备900的结构示意图，该电子设备900可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(Portable Android Device，简称PAD)、便携式多媒体播放器(Portable MediaPlayer，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901，其可以根据存储在只读存储器(Read Only Memory，简称ROM)902中的程序或者从存储装置908加载到随机访问存储器(Random Access Memory，简称RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理装置901执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种结合RPA和AI的语料数据的获取方法，其特征在于，包括：

RPA系统获取语料数据的语料文本以及相应的任务配置信息；

所述RPA系统根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，以供所述各第一用户终端根据所述语料文本生成语料采集数据；

所述RPA系统根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，以供各第二用户终端对所述语料采集数据进行校验，获得语料校验结果；

所述RPA系统根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出。

2.根据权利要求1所述的获取方法，其特征在于，所述任务配置信息包括对所述语料文本进行语料采集的采集次数；

相应的，根据所述任务配置信息生成语料采集任务，并将语料采集任务分配至各第一用户终端，包括：

所述RPA系统建立语料文本的多个语料采集任务，其中，所述语料采集任务的数量与所述采集次数相同；

所述RPA系统在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端。

3.根据权利要求2所述的获取方法，其特征在于，所述任务配置信息还包括语料采集任务的执行用户终端条件；

相应的，在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端之前，包括：

所述RPA系统根据语料采集任务的执行用户终端条件，在候选用户终端中确定可执行所述语料采集任务的多个第一用户终端。

4.根据权利要求2所述的获取方法，其特征在于，在可执行所述语料采集任务的多个第一用户终端中，确定每一语料采集任务的执行用户终端，包括：

所述RPA系统根据采集调度策略在多个第一用户终端中确定执行每一语料采集任务的执行用户终端；其中，各语料采集任务与各第一用户终端一一对应。

5.根据权利要求1所述的获取方法，其特征在于，所述将语料采集任务分配至各第一用户终端之后，还包括：

所述RPA系统确定每一所述第一用户终端执行相应的语料采集任务的执行时间；

所述RPA系统当任一第一用户终端执行语料采集任务的执行时间大于预设阈值时，该语料采集任务终止，并重新生成一个语料数据的语料采集任务，以分配给下一第一用户终端。

6.根据权利要求1-5任一项所述的获取方法，其特征在于，还包括：

所述RPA系统生成采集任务列表，所述采集任务列表中包括各种语料数据的待分配的语料采集任务；

所述RPA系统确定每种语料数据对应的待分配的语料采集任务的数量，并将数量最大的语料数据的待分配的语料采集任务分配至各第一用户终端。

7.根据权利要求1所述的获取方法，其特征在于，所述任务配置信息包括对所述语料采集数据进行校验的校验次数；

相应的，根据所述任务配置信息生成语料采集数据的语料校验任务，并将语料校验任务分配至各第二用户终端，包括：

所述RPA系统针对每个语料采集数据，建立多个语料校验任务，其中，每个语料采集数据的语料校验任务的数量与所述校验次数相同；

所述RPA系统在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端；

8.根据权利要求7所述的获取方法，其特征在于，所述任务配置信息还包括语料校验任务的执行用户终端条件；

相应的，在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端之前，包括：

所述RPA系统根据语料校验任务的执行用户终端条件，在候选用户终端中确定可执行所述语料校验任务的多个第二用户终端。

9.根据权利要求7所述的获取方法，其特征在于，在可执行所述语料校验任务的多个第二用户终端中，确定每一语料校验任务的执行用户终端，包括：

所述RPA系统根据校验调度策略在多个第二用户终端中确定执行每一语料校验任务的执行用户终端；其中，各语料校验任务与各第二用户终端一一对应。

10.根据权利要求1所述的获取方法，其特征在于，所述将语料校验任务分配至各第二用户终端之后，还包括：

所述RPA系统确定每一所述第二用户终端执行相应的语料校验任务的执行时间；

所述RPA系统当任一第二用户终端执行语料校验任务的执行时间大于预设阈值时，该语料校验任务终止，并重新生成一个语料采集数据的语料检验任务，以分配给下一第二用户终端。

11.根据权利要求7-10任一项所述的获取方法，其特征在于，还包括：

所述RPA系统生成校验任务列表，所述校验任务列表中包括各个语料采集数据的待分配的语料校验任务；

所述RPA系统确定每种语料采集数据对应的待分配的语料校验任务的数量，并将数量最大的语料采集数据对应的待分配的语料采集任务分配至各第二用户终端。

12.根据权利要求1所述的获取方法，其特征在于，根据所述语料校验结果将通过校验的语料采集数据作为语料数据进行输出，包括：

所述RPA系统在当前获得的语料采集数据的语料校验结果中，确定语料校验结果表示为校验通过的语料校验结果的数量，当所述数量大于等于阈值，则将该语料采集数据作为语料数据输出。

13.一种结合RPA和AI的语料数据的获取装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-12中任一项所述的方法。