CN111723870A

CN111723870A - 基于人工智能的数据集获取方法、装置、设备和介质

Info

Publication number: CN111723870A
Application number: CN202010574576.4A
Authority: CN
Inventors: 陆林炳; 刘志慧; 金培根; 何斐斐; 林加新; 李炫�
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-09-29
Anticipated expiration: 2040-06-22
Also published as: CN111723870B

Abstract

本申请涉及一种基于人工智能的数据集获取方法、装置、设备和介质。方法包括：获取初始样本集；利用初始语言模型对初始样本集进行标注得到模型标注参考指标；根据模型标注参考指标对初始样本集进行过滤得到修正集；利用修正集对初始语言模型进行训练得到修正的初始语言模型；当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，当初始语言模型的精度达到预设阈值时得到目标语言模型；根据目标语言模型对待处理业务数据进行处理得到数据集。采用本方法能够数据集的获取效率。此外，还涉及区块链技术，初始样本集、修正集以及数据集可存储于区块链中。

Description

基于人工智能的数据集获取方法、装置、设备和介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于人工智能的数据集获取方法、装置、计算机设备和存储介质。

背景技术

在人工智能的开发过程中，目前业界普遍采用数据驱动的方式，因此数据质量是重中之重。数量多、质量好、覆盖面完整的数据能够帮助开发者更快的研发出效果更好的模型，从而提升客户的满意度。

在训练模型的过程中需要对数据进行标注，目前在获取到日志数据后，利用计算机进行内容提取和数据审核，但是对于日志数据进行处理的时候，机器在不知道正确信息的前提下，则无法从大量的日志数据中确定正确的数据，从而使得数据标注失败导致无法获取正确的数据集。

发明内容

基于此，有必要针对上述技术问题，提供一种能够数据集获取效率的基于人工智能的数据集获取方法、装置、计算机设备和存储介质。

一种基于人工智能的数据集获取方法，方法包括：

获取初始样本集；

利用初始语言模型对初始样本集进行标注得到模型标注参考指标；

根据模型标注参考指标对初始样本集进行过滤得到修正集；

利用修正集继续对初始语言模型进行训练得到修正的初始语言模型；

当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型；

接收待处理业务数据，根据所得到的目标语言模型对待处理业务数据进行处理以得到数据集。

在其中一个实施例中，获取初始样本集，包括：

获取业务数据；

从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集，包括：

从业务数据中提取业务问题；

识别各业务问题对应的语义向量；

计算各语义向量之间的语义相似度；

根据各语义相似度将业务问题划分为多个业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，初始语言模型的获取方法包括：

获取预先训练的通用语言模型；

利用初始样本集对通用语言模型进行训练得到具有预测业务数据能力的初始语言模型。

在其中一个实施例中，根据模型标注参考指标对初始样本集进行过滤得到修正集，包括：

获取初始样本集中各待处理问题对应的模型标注参考指标；

当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集。

在其中一个实施例中，当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集之后，还包括：

将不匹配的待处理问题提取为过滤样本集；

对过滤样本集中的各模型标注参考指标进行校验；

当校验失败时，将校验失败的待处理问题添加至修正集。

在其中一个实施例中，当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型，包括：

获取修正集中各待处理问题对应的标准标注指标；

将各待处理问题对应的模型标注参考指标与标准标注指标进行比对，得到模型标注参考指标对应的标注准确率；

当标注准确率小于预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的标注准确率达到预设阈值时，获取标注准确率达到预设阈值的初始语言模型作为目标语言模型；将初始样本集、修正集以及数据集存储于区块链中。

一种基于人工智能的数据集获取装置，装置包括：

样本获取模块，用于获取初始样本集；

标注模块，用于利用初始语言模型对初始样本集进行标注得到模型标注参考指标；

数据修正模块，用于根据模型标注参考指标对初始样本集进行过滤得到修正集；

模型修正模块，用于利用修正集继续对初始语言模型进行训练得到修正的初始语言模型；

目标模型获取模块，用于当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型；

数据集获取模块，用于接收待处理业务数据，根据所得到的目标语言模型对待处理业务数据进行处理以得到数据集。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

上述基于人工智能的数据集获取方法、装置、计算机设备和存储介质，首先利用初始语言模型对获取到的初始样本集进行标注得到模型标注参考指标，为了进一步地提高语言模型的标注精度，根据模型标注参考指标对初始样本集进行过滤以得到修正集，然后利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，并计算修正的初始语言模型对应的模型精度，当修正的初始语言模型的精度未达到预设阈值时，继续扩大修正集的数据量以更新修正集，并利用更新后的修正集继续对初始语言模型进行修正，直至修正的初始语言模型的精度达到预设阈值时，将精度达到阈值时的初始语言模型作为目标语言模型。实现了不断更新修正集对语言模型进行修正，保证了语言模型的预测精度，然后将获取到的待处理业务数据输入至精度满足要求的语言模型中得到数据集，实现了利用语言模型自动对业务数据进行标注，以及快速获取到精度高的数据集的技术效果。

附图说明

图1为一个实施例中基于人工智能的数据集获取方法的应用环境图；

图2为一个实施例中基于人工智能的数据集获取方法的流程示意图；

图3为一个实施例中提供的一种获取初始样本集的流程示意图；

图4为一个实施例中基于人工智能的数据集获取装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人工智能的数据集获取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104获取初始样本集；利用初始语言模型对初始样本集进行标注得到模型标注参考指标；根据模型标注参考指标对初始样本集进行过滤得到修正集；利用修正集继续对初始语言模型进行训练得到修正的初始语言模型；当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型；接收待处理业务数据，根据所得到的目标语言模型对待处理业务数据进行处理以得到数据集。进一步地，服务器104还可以将得到的数据集推送至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于人工智能的数据集获取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤210，获取初始样本集。

初始样本集可以是利用语义识别算法从业务数据中自动提取的，初始样本集的精度受到语义识别算法精度的影响，在一个实施例中初始样本集是利用语义识别算法识别得到的未经人工标注审核的数据，故而初始样本集的精度较差，根据质量较差的问题语料对初步构造质量较差的初始样本集。具体地，语义识别算法可以是人工智能技术领域的机器学习算法等，在此不作限制。

步骤220，利用初始语言模型对初始样本集进行标注得到模型标注参考指标。

初始语言模型与获取初始样本集的语义识别算法对应的模型不是同一个模型，获取初始样本集的模型可以是一个简单的语义识别模型，利用该语义识别模型可以初步得到质量较差的初始样本集，初始语言模型可以是一个预训练的语言模型，具有识别本领域业务数据的能力，并且初始语言模型的语义识别能力高于语义识别模型。具体地，初始语言模型可识别保险业务领域的语料，以对初始样本集进行标注得到模型标注参考指标，其中标注是指对初始样本集中待处理问题的合格性进行判断，当初始语言模型识别待处理问题不是语义相同的问题时，将该待处理问题标注为不合格，否则标注为合格。

具体地，在一个实施例中初始语言模型可以是利用本领域业务数据对通用的模型进行训练得到的模型，故而训练得到的初始语言模型具有识别本领域业务知识的能力。如可以利用领域知识对BERT(Bidirectional Encoder Representations fromTransformer)模型进行训练后得到的初始语言模型获得了领域知识，进而初始语言模型具备了标注本领域知识的能力，可以利用初始语言模型对本领域的知识进行自动标注。

步骤230，根据模型标注参考指标对初始样本集进行过滤得到修正集。

具体地，利用本领域样本集对BERT模型进行训练后得到的初始语言模型具有较佳的标注能力，比步骤210中获取得到的初始样本集的精度高，故而可以利用本步骤中得到的初始语言模型对初始样本集中的待处理问题的合格性进行标注，将样本中语义不一致的保险问题去除，得到准确度较高的修正集，然后服务器就可以利用修正集对初始语言模型再次进行训练得到精度满足要求的目标语言模型。

在本步骤中利用初始语言模型识别初始样本集中的语义不一致的语料，并将错误的语料剔除，实现了对步骤210中的精度不高的初始样本集的自动修正，得到了精度较高的修正集，本步骤中利用初始语言识别模型的识别功能对初始样本集中的待处理问题的合格性自动标注，不需要人工进行标注，极大地提高了对数据集的标注效率。

步骤240，利用修正集继续对初始语言模型进行训练得到修正的初始语言模型。

相比于初始样本集，修正集的精度得到了大幅度的提高，然后再利用精度较高的修正集继续对初始语言模型进行训练得到修正后的初始语言模型，并且修正的初始语言模型的精度大于原始的初始语言模型的精度。具体地，可以利用修正集中的部分数据对初始语言模型进行训练得到修正的初始语言模型，也可以利用修正集中所有的数据对初始语言模型进行训练得修正的初始语言模型，在此不作限制。

步骤250，当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型。

修正集的精度比初始样本集的精度高，利用精度较高的修正集对初始语言模型继续进行训练，可以对初始语言模型的精度进行调整。具体地，可以首先利用部分的修正集对初始语言模型进行训练修正，当初始语言模型的精度达到预设阈值时，得到满足精度要求的目标语言模型，当初始语言模型的精度不满足预设阈值时，然后更新修正集如扩大修正集的数据量，利用数据量较大的修正集继续对初始语言模型进行训练，直至得到满足要求的目标语言模型。

初始语言模型对样本集进行过滤得到精确度较高的修正集，在本步骤中使用精度较高的修正集再次对初始语言模型进行微调得到精度更高的目标语言模型。

步骤260，接收待处理业务数据，根据所得到的目标语言模型对待处理业务数据进行处理以得到数据集。

将待处理业务数据输入至目标语言模型，利用目标语言模型从待处理的业务数据中提取语义相近的问题组成的数据集。

在本步骤中利用精度满足要求的目标语言模型对业务数据中的语料进行自动标注，进而根据标注结果自动提取语料语义相近的问题，整个过程不需要人工参与，可以提高数据集获取的效率得到数据量更大的数据集，进而可以利用数据量较大的数据集对其他模型进行训练，提高模型的训练精度。

在本实施例中，首先利用语义识别算法初步获取精度较差的初始样本集，然后利用具有保险业务领域知识的初始语言模型对初始样本集进行过滤得到修正集，利用修正集对初始语言模型进行调整得到目标语言模型，使得目标语言模型具有较高的语言标注精度。具体地，目标语言模型能够从待处理业务数据中自动提取语义相近的待处理问题，整个过程是计算机自动实现初始样本集的获取、模型的训练以及样本集的修正和模型的修正，进而利用修正的语言模型可以对待处理业务数据中的语义相近的问题提取出来，得到精度较高的数据集，整个数据集获取的过程中完全不需要人工参与，极大地提高了数据集如语料的获取效率。并且得到的语言模型能够对训练集中的粗语料进行精细化处理得到精度较高的语料，也提高了语料标获取的准确率。

进一步地，本提案基于主动学习的方式，引入BERT预训练模型结合精调整的方式获取保险领域知识，在以此对粗语料进行精细化的提升，以此达到减少人力的目的。对比传统的对业务数据中的语料进行纯人工方式的标注，本方法能够节省大部分的人力，避免了随着数据量指数增加导致的人工标注无法持续的缺陷，能够极大程度的加快数据获取的速度，由此推动整体系统迭代开发的速度，持续提升用户在使用过程的满意度。

在其中一个实施例中，获取初始样本集，包括：获取业务数据；从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集。

服务器从业务系统中获取业务数据，然后利用预定义的语义识别算法从业务数据中提取语义相近的问题，并将语义相近的问题作为初始样本集。具体地，业务数据中包含用户对业务进行提问产生的问题语料，服务器可以利用语义识别算法对用户提问的问题语料进行语义分析，得到各问题语料的语义识别结果，进而可以将语义相近的问题语料提取出来，如可以将语义相近的问题语料进行关联组合进而得到初始样本集。具体地，语义识别算法可以为深度学习神经网络，在此不作限定。在具体实施中，服务器抽取保险业务对应的线上的真实日志数据，利用神经网络等语义识别模型对真实日志数据进行语义识别得到用户问题—候选问题形式的样本对，其中用户问题与候选问题都是保险问题并且还是语义相似的保险问题。进一步地，可以将语义相近的保险问题进行关联生成保险问题对。

需要说明的是，初始样本集是利用语义识别算法从业务数据中自动提取的，样本集的精度受到语义识别算法精度的影响，在一个实施例中语义识别算法识别得到的初始样本集的精度较差，并且该初始样本集也是未经人工标注审核的数据，将质量较差的问题语料对作为质量较差的初始样本集，初步构造质量较差的初始样本集。

在其中一个实施例中，如图3所示，提供了一种获取初始样本集的流程示意图。具体地，从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集，包括：

步骤310，从业务数据中提取业务问题。

如业务可对应为保险业务，保险业务数据中包含有关保险业务的保险问题，为了实现对保险问题的语义识别以及分析，服务器首先从保险业务数据中提取保险问题。

步骤320，识别各业务问题对应的语义向量。

然后利用语义识别算法初步对保险问题进行语义识别得到各保险问题对应的语义向量。

步骤330，计算各语义向量之间的语义相似度。

然后计算各语义向量之间的语义相似度。

步骤340，根据各语义相似度将业务问题划分为多个业务问题集，将业务问题集作为初始样本集。

根据各语义相似度将保险问题划分为多个保险问题集，使得在各保险问题集中的保险问题具有相近的语义。需要说明的是保险问题集中的保险问题可以为一个、两个或者多个，在此不作限制。

在本实施例中，为了实现对保险业务数据中的保险问题进行识别、分析，服务器首先利用语义识别算法自动对保险问题进行语义分析，自动提取语义相近的保险问题生成保险问题对，不需要人工从保险业务数据中提取语义相近的保险问题，极大地提高了初始样本集的获取效率。

在其中一个实施例中，初始语言模型的获取方法包括：获取预先训练的通用语言模型；利用初始样本集对通用语言模型进行训练得到具有预测业务数据能力的初始语言模型。

具体地，服务器获取预训练的通用语言模型，然后利用初始样本集对预训练的通用语言模型进行训练得到业务对应的初始语言模型。由于初始样本集为业务数据对应的样本集，故而利用业务数据样本集对通用语言模型进行训练后得到的初始语言模型具有预测业务数据的能力。例如预训练过的通用语言模型可以为BERT模型，BERT模型是利用海量的训练语料事先训练得到的，具有一定的学习能力以及通用性，但是预训练过的BERT模型对某个专有领域的学习能力并不是很强，即对保险业务领域的语料的识别能力一般，故而在本步骤中利用保险业务领域的初始样本集对预训练过的BERT模型进行训练得到保险业务对应的初始语言模型，使得初始语言模型可识别保险业务领域的语料。

在本步骤中利用质量较差的初始样本集对通用语言模型如BERT模型进行训练，实现对BERT模型的微调整，进而使得BERT模型获得保险业务领域知识，具体地，可以提取初始样本集中的部分数据作为训练样本，利用训练样本对通用语言模型进行训练得到保险业务对应的初始语言模型，也可以将样本集的全部数据作为训练样本，然后利用训练样本对通用语言模型进行训练得到业务对应的初始语言模型。

在其中一个实施例中，根据模型标注参考指标对初始样本集进行过滤得到修正集，包括：获取初始样本集中各待处理问题对应的模型标注参考指标；当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集。

具体地，模型标注参考指标是根据初始语言模型如训练过的BERT模型得到的，用训练过的BERT模型反过来对初始样本集进行标注，当模型标注参考指标与标准标注指标不匹配时，将不匹配的数据添加至过滤样本集中，即过滤样本集中的数据是非合格的语料数据，然后还用于将不匹配的待处理问题即过滤样本集中的数据从初始样本集中删除，根据删除后的样本集得到修正集。

在本实施例中，预训练后的BERT模型的标注精度是较好的，利用BERT模型对训练集数据重新进行标注，可以将训练集中的语义非一致的语料数据去除，得到精度较高的修正样本集。其中，标注错误是指样本集中不符合语义标准的保险问题，具体地，将属于标注错误的保险问题从初始样本集中去除得到修正集，因为标注错误的初始样本集可以为是语义识别算法不能准确标注的数据，故而通过利用初始语言模型将初始样本集中的不符合标准的错误数据去除得到的修正集的精度更高。

在一个实施例中，当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集之后，还包括：将不匹配的待处理问题提取为过滤样本集；对过滤样本集中的各模型标注参考指标进行校验；当校验失败时，将校验失败的待处理问题添加至修正集。

过滤样本集可以是初始语言模型对初始样本集中的待处理问题进行合格性识别，并从中提取到的不合格的待处理问题。但是考虑到初始语言模型是利用精度较低的初始样本集训练得到的精度不高，故而利用初始语言模型得到的过滤样本集也可能存在误判的情况，可以对过滤样本集中的保险问题利用复核算法进行复核。若初始语言模型如BERT模型将初始样本集中的正确的待处理问题错误地过滤掉了，此时可将误过滤的待处理问题挑选出来重新混合到修正集中，然后再利用修正样本集对初始语言模型如BERT模型进行训练。

在具体实施中，可以先从过滤样本集中抽取少量数据标注评估，然后将评估通过的数据混合到过滤样本集中生成修正集，利用修正集再次训练初始语言模型如BERT模型得到修正的语言模型。具体地，可以利用人工对过滤到的样本数据进行复核，若BERT模型错误地将样本数据过滤掉了，此时人工将误过滤的数据挑选出来重新混合到初始样本集中，利用BERT模型标记得到的初始样本集以及人工添加的初始样本集再次对BERT模型进行训练。

在本实施例中，将初始语言模型错误识别的保险问题提取出来添加至修正集中，使得修正集的精度很高，然后再利用修正集对初始语言模型进行训练可以得到精度很高的目标语言模型，进而可以根据目标语言模型得到质量满足要求数据集。

在其中一个实施例中，当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型，包括：获取修正集中各待处理问题对应的标准标注指标；将各待处理问题对应的模型标注参考指标与标准标注指标进行比对，得到模型标注参考指标对应的标注准确率；当标注准确率小于预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的标注准确率达到预设阈值时，获取标注准确率达到预设阈值的初始语言模型作为目标语言模型；将初始样本集、修正集以及数据集存储于区块链中。

具体地，通过对初始模型的标注准确率对初始语言模型的精度进行评估，只有当准确率达到预设阈值时，将精度达到预设阈值的语言模型作为目标语言模型，否则需要继续利用修正集对初始语言模型进行修正，直至得到符合要求的目标语言模型。如可以继续对初始样本集中数据的精度进行修正，以利用精度更加高的数据对初始语言模型继续进行训练。

传统的数据质量提升普遍采用人工标注的方法，需要大量的人力对所有数据进行逐条标注，在数据量庞大的场景中，这往往意味着高额的付出和漫长的等待时间。这使得模型开发过程低效且成本居高不下，影响了客户使用的满意度。具体地，传统模式下同义句标注工作流程如下：基于线上真实用户问题形成系统日志，在日志中提取前N个候选问题与真实用户问题组成大批量的问题对。将上述问题对交付人工进行标注，获得标注后样本。从上述方式可以看出，在后续的标注工作中，随着候选样本数量的增加，所花费人力将以指数形式上升，严重影响开发进度。

本申请中提出基于主动学习的BERT数据质量提升方案，极大的减少标注部分的工作量。对比传统的纯人工方式标注，本方法能够节省大部分的人力，避免了随着数据量指数增加导致的人工标注无法持续的缺陷，能够极大程度的加快数据获取的速度，由此推动整体系统迭代开发的速度，持续提升用户在使用过程的满意度。具体地，首先利用语义识别算法对保险业务数据进行语义识别得到精确度较差的样本集，然后利用语言模型如BERT模型不断地对样本集的精度进行调整修正得到修正集，以根据修正集继续对BERT模型进行训练得到最终符合要求的目标语言模型，进而根据目标语言模型得到质量满足要求语义相近的数据集。在整个获取数据集的过程中都不需要人工参与，整个过程是由BERT模型主动学习得到的，不需要人工参与标注，故而可以获取大量的数据集样本，极大地提高了样本集获取的效率，进而可以利用较大数量的数据集进行模型训练，提高模型训练的效率。

需要强调的是，为进一步保证上述信息的私密和安全性，上述初始样本集、修正集以及数据集的安全性，还可以将上述信息存储于一区块链的节点中。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于人工智能的数据集获取装置，包括：

样本获取模块410，用于获取初始样本集。

标注模块420，用于利用初始语言模型对初始样本集进行标注得到模型标注参考指标。

数据修正模块430，用于根据模型标注参考指标对初始样本集进行过滤得到修正集。

模型修正模块440，用于利用修正集继续对初始语言模型进行训练得到修正的初始语言模型。

目标模型获取模块450，用于当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型。

数据集获取模块460，用于接收待处理业务数据，根据所得到的目标语言模型对待处理业务数据进行处理以得到数据集。

在其中一个实施例中，样本获取模块410，包括：

业务数据获取单元，用于获取业务数据。

样本获取单元，用于从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，样本获取单元，包括：

问题提取子单元，用于从业务数据中提取业务问题。

向量识别子单元，用于识别各业务问题对应的语义向量。

相似度计算子单元，用于计算各语义向量之间的语义相似度。

样本获取子单元，用于根据各语义相似度将业务问题划分为多个业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，基于人工智能的数据集获取装置还包括：

通用模型获取模块，用于获取预先训练的通用语言模型。

初始模型获取模块，用于利用初始样本集对通用语言模型进行训练得到具有预测业务数据能力的初始语言模型。

在其中一个实施例中，数据修正模块430，包括：

参考指标获取单元，用于获取初始样本集中各待处理问题对应的模型标注参考指标。

修正集获取单元，用于当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集。

过滤样本提取模块，用于将不匹配的待处理问题提取为过滤样本集。

校验模块，用于对过滤样本集中的各模型标注参考指标进行校验。

添加模块，用于当校验失败时，将校验失败的待处理问题添加至修正集。

在其中一个实施例中，目标模型获取模块450，包括：

标准指标获取单元，用于获取修正集中各待处理问题对应的标准标注指标。

准确率计算单元，用于将各待处理问题对应的模型标注参考指标与标准标注指标进行比对，得到模型标注参考指标对应的标注准确率。

目标模型获取单元，用于当标注准确率小于预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的标注准确率达到预设阈值时，获取标注准确率达到预设阈值的初始语言模型作为目标语言模型。

关于基于人工智能的数据集获取装置的具体限定可以参见上文中对于基于人工智能的数据集获取方法的限定，在此不再赘述。上述基于人工智能的数据集获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的数据集获取方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取初始样本集；利用初始语言模型对初始样本集进行标注得到模型标注参考指标；根据模型标注参考指标对初始样本集进行过滤得到修正集；利用修正集继续对初始语言模型进行训练得到修正的初始语言模型；当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型；接收待处理业务数据，根据所得到的目标语言模型对待处理业务数据进行处理以得到数据集。

在其中一个实施例中，处理器执行计算机程序时实现获取初始样本集的步骤时还用于：获取业务数据；从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，处理器执行计算机程序时实现从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集的步骤时还用于：从业务数据中提取业务问题；识别各业务问题对应的语义向量；计算各语义向量之间的语义相似度；根据各语义相似度将业务问题划分为多个业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，处理器执行计算机程序时实现初始语言模型的获取方法的步骤时还用于：获取预先训练的通用语言模型；利用初始样本集对通用语言模型进行训练得到具有预测业务数据能力的初始语言模型。

在其中一个实施例中，处理器执行计算机程序时实现根据模型标注参考指标对初始样本集进行过滤得到修正集的步骤时还用于：获取初始样本集中各待处理问题对应的模型标注参考指标；当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集。

在其中一个实施例中，处理器执行计算机程序时实现当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集之后的步骤时还用于：将不匹配的待处理问题提取为过滤样本集；对过滤样本集中的各模型标注参考指标进行校验；当校验失败时，将校验失败的待处理问题添加至修正集。

在其中一个实施例中，处理器执行计算机程序时实现当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型的步骤时还用于：获取修正集中各待处理问题对应的标准标注指标；将各待处理问题对应的模型标注参考指标与标准标注指标进行比对，得到模型标注参考指标对应的标注准确率；当标注准确率小于预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的标注准确率达到预设阈值时，获取标注准确率达到预设阈值的初始语言模型作为目标语言模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取初始样本集；利用初始语言模型对初始样本集进行标注得到模型标注参考指标；根据模型标注参考指标对初始样本集进行过滤得到修正集；利用修正集继续对初始语言模型进行训练得到修正的初始语言模型；当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型；接收待处理业务数据，根据所得到的目标语言模型对待处理业务数据进行处理以得到数据集。

在其中一个实施例中，计算机程序被处理器执行时实现获取初始样本集的步骤时还用于：获取业务数据；从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，计算机程序被处理器执行时实现从业务数据中提取语义相近的业务问题组成业务问题集，将业务问题集作为初始样本集的步骤时还用于：从业务数据中提取业务问题；识别各业务问题对应的语义向量；计算各语义向量之间的语义相似度；根据各语义相似度将业务问题划分为多个业务问题集，将业务问题集作为初始样本集。

在其中一个实施例中，计算机程序被处理器执行时实现初始语言模型的获取方法的步骤时还用于：获取预先训练的通用语言模型；利用初始样本集对通用语言模型进行训练得到具有预测业务数据能力的初始语言模型。

在其中一个实施例中，计算机程序被处理器执行时实现根据模型标注参考指标对初始样本集进行过滤得到修正集的步骤时还用于：获取初始样本集中各待处理问题对应的模型标注参考指标；当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集。

在其中一个实施例中，计算机程序被处理器执行时实现当模型标注参考指标与标准标注指标不匹配时，将不匹配的待处理问题从初始样本集中删除，根据删除后的样本集得到修正集之后的步骤时还用于：将不匹配的待处理问题提取为过滤样本集；对过滤样本集中的各模型标注参考指标进行校验；当校验失败时，将校验失败的待处理问题添加至修正集。

在其中一个实施例中，计算机程序被处理器执行时实现当修正的初始语言模型的精度未达到预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的初始语言模型作为目标语言模型的步骤时还用于：获取修正集中各待处理问题对应的标准标注指标；将各待处理问题对应的模型标注参考指标与标准标注指标进行比对，得到模型标注参考指标对应的标注准确率；当标注准确率小于预设阈值时，扩大修正集的数据量以更新修正集，并利用修正集继续对初始语言模型进行训练得到修正的初始语言模型，直至修正的初始语言模型的标注准确率达到预设阈值时，获取标注准确率达到预设阈值的初始语言模型作为目标语言模型。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的数据集获取方法，其特征在于，所述方法包括：

获取初始样本集；

根据所述模型标注参考指标对所述初始样本集进行过滤得到修正集；

利用所述修正集继续对所述初始语言模型进行训练得到修正的初始语言模型；

当修正的所述初始语言模型的精度未达到预设阈值时，扩大所述修正集的数据量以更新所述修正集，并利用所述修正集继续对所述初始语言模型进行训练得到修正的初始语言模型，直至修正的所述初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的所述初始语言模型作为目标语言模型；

2.根据权利要求1所述的方法，其特征在于，所述获取初始样本集，包括：

获取业务数据；

从所述业务数据中提取语义相近的业务问题组成业务问题集，将所述业务问题集作为初始样本集。

3.根据权利要求2所述的方法，其特征在于，所述从所述业务数据中提取语义相近的业务问题组成业务问题集，将所述业务问题集作为初始样本集，包括：

从所述业务数据中提取业务问题；

识别各所述业务问题对应的语义向量；

计算各所述语义向量之间的语义相似度；

根据各所述语义相似度将所述业务问题划分为多个业务问题集，将所述业务问题集作为初始样本集。

4.根据权利要求1所述的方法，其特征在于，所述初始语言模型的获取方法包括：

获取预先训练的通用语言模型；

利用所述初始样本集对所述通用语言模型进行训练得到具有预测业务数据能力的初始语言模型。

5.根据权利要求1所述的方法，其特征在于，所述根据所述模型标注参考指标对所述初始样本集进行过滤得到修正集，包括：

获取所述初始样本集中各所述待处理问题对应的模型标注参考指标；

当所述模型标注参考指标与标准标注指标不匹配时，将不匹配的所述待处理问题从所述初始样本集中删除，根据删除后的样本集得到修正集。

6.根据权利要求5所述的方法，其特征在于，所述当所述模型标注参考指标与标准标注指标不匹配时，将不匹配的所述待处理问题从所述初始样本集中删除，根据删除后的样本集得到修正集之后，还包括：

将不匹配的所述待处理问题提取为过滤样本集；

对所述过滤样本集中的各所述模型标注参考指标进行校验；

当校验失败时，将校验失败的所述待处理问题添加至修正集。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述当修正的所述初始语言模型的精度未达到预设阈值时，扩大所述修正集的数据量以更新所述修正集，并利用所述修正集继续对所述初始语言模型进行训练得到修正的初始语言模型，直至修正的所述初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的所述初始语言模型作为目标语言模型，包括：

获取所述修正集中各所述待处理问题对应的标准标注指标；

将各所述待处理问题对应的所述模型标注参考指标与所述标准标注指标进行比对，得到所述模型标注参考指标对应的标注准确率；

当所述标注准确率小于预设阈值时，扩大所述修正集的数据量以更新所述修正集，并利用所述修正集继续对所述初始语言模型进行训练得到修正的初始语言模型，直至修正的所述初始语言模型的标注准确率达到预设阈值时，获取标注准确率达到预设阈值的所述初始语言模型作为目标语言模型；将所述初始样本集、所述修正集以及所述数据集存储于区块链中。

8.一种基于人工智能的数据集获取装置，其特征在于，所述装置包括：

样本获取模块，用于获取初始样本集；

数据修正模块，用于根据所述模型标注参考指标对所述初始样本集进行过滤得到修正集；

模型修正模块，用于利用所述修正集继续对所述初始语言模型进行训练得到修正的初始语言模型；

目标模型获取模块，用于当修正的所述初始语言模型的精度未达到预设阈值时，扩大所述修正集的数据量以更新所述修正集，并利用所述修正集继续对所述初始语言模型进行训练得到修正的初始语言模型，直至修正的所述初始语言模型的精度达到预设阈值时，获取精度达到预设阈值的所述初始语言模型作为目标语言模型；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。