CN108415938A

CN108415938A - 一种基于智能模式识别的数据自动标注的方法及系统

Info

Publication number: CN108415938A
Application number: CN201810070024.2A
Authority: CN
Inventors: 饶定远; 靳翼; 唐丽娜; 闵圣捷; 杨飞; 丁星; 武静
Original assignee: CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Current assignee: CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2018-08-17

Abstract

本发明提供了一种基于智能模式识别的数据自动标注的方法及系统，包括：从数据库读取原始数据，将原始数据的标签作为预测结果集合；提取原始数据的数据特征，形成样本数据；用得到的样本数据对预测模型进行训练；提取业务数据的数据特征，用预测模型对业务数据的数据特征进行计算，预测业务数据的标签，并依据置信度对预测结果进行排序；将置信度最高且高于设定的阈值的预测结果写入数据库，将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。本发明通过智能识别的方法减少了人工介入，从而降低人工成本，极大提高了新入库数据的数据标注及时性；通过循环验证的方式使得数据标注的准确性大大提升，数据量越大准确率越高。

Description

一种基于智能模式识别的数据自动标注的方法及系统

技术领域

本发明涉及数据处理技术领域，具体地，涉及一种基于智能模式识别的数据自动标注的方法及系统。

背景技术

随着物联网与移动终端持续不断的产生大量数据，并且数据类型丰富，而怎么识别和使用这些不同类型的数据就成为了一个困难的问题。传统的数据仓库通常使用人工创建数据字典的手段对数据的业务进行标识，然而在海量数据的场景中，数据不仅在容量上产生了几何级数增长，在数据的维度上也发生了指数级的增长。在这样的背景下，传统通过人工手段对数据进行表示的方法体现出很多弊端，容易错，成本高，耗时长。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于智能模式识别的数据自动标注的方法及系统。

根据本发明提供的一种基于智能模式识别的数据自动标注的方法，包括：

步骤1：从数据库读取原始数据，将原始数据的标签作为预测结果集合；

步骤2：提取原始数据的数据特征，形成样本数据；

步骤3：用得到的样本数据对预测模型进行训练；

步骤4：提取业务数据的数据特征，用预测模型对业务数据的数据特征进行计算，预测业务数据的标签，并依据置信度对预测结果进行排序；

步骤5：将置信度最高且高于设定的阈值的预测结果写入数据库，将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。

较佳的，所述步骤2具体包括：

步骤201：将原始数据的数据特征解析成结构化的样本数据；

步骤202：将样本数据中已有的特征组合形成高维特征；

步骤203：对高维特征进行分析，形成新维度并对新维度的影响力进行排序；

步骤204：将样本数据按照新维度进行降维，在确保样本数据失真率低于设定值的前提下使用最小维度数；

步骤205：对新维度的样本数据进行归一化处理。

较佳的，所述步骤3具体包括：

步骤301：将样本数据输入数据特征分析算法，对样本数据作出标预测；

步骤302：将预测结果与预测结果集合进行对比验证，验证结果反馈到数据特征分析算法的执行程序；

步骤303：根据反馈结果计算偏差，并根据变差调整数据特征分析算法的参数；

步骤304：重复步骤301至步骤303，直至预测模型达到设计指标。

较佳的，所述数据特征包括：数据类型、长度和字符串模式。

较佳的，还包括步骤6：重复步骤1至步骤3。

根据本发明提供的一种基于智能模式识别的数据自动标注的系统，包括：

原始数据读取模块：从数据库读取原始数据，将原始数据的标签作为预测结果集合；

样本数据形成模块：提取原始数据的数据特征，形成样本数据；

模型训练模块：用得到的样本数据对预测模型进行训练；

标签预测模块：提取业务数据的数据特征，用预测模型对业务数据的数据特征进行计算，预测业务数据的标签，并依据置信度对预测结果进行排序；

结果处理模块：将置信度最高且高于设定的阈值的预测结果写入数据库，将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。

较佳的，所述样本数据形成模块具体包括：

将原始数据的数据特征解析成结构化的样本数据；将样本数据中已有的特征组合形成高维特征；对高维特征进行分析，形成新维度并对新维度的影响力进行排序；将样本数据按照新维度进行降维，在确保样本数据失真率低于设定值的前提下使用最小维度数；对新维度的样本数据进行归一化处理。

较佳的，所述模型训练模块具体包括：

将样本数据输入数据特征分析算法，对样本数据作出标预测；将预测结果与预测结果集合进行对比验证，验证结果反馈到数据特征分析算法的执行程序；根据反馈结果计算偏差，并根据变差调整数据特征分析算法的参数；如此循环，直至预测模型达到设计指标。

与现有技术相比，本发明具有如下的有益效果：

1、通过智能模式识别的方法减少了人工介入，从而降低人工成本；

2、通过自动化标注的方式极大提高了新入库数据的数据标注及时性；

3、通过循环验证的方式使得数据标注的准确性大大提升，数据量越大准确率越高。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的数据流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供的一种基于智能模式识别的数据自动标注的方法，包括：

步骤2：提取原始数据的数据特征，形成样本数据，数据特征包括：数据类型、长度和字符串模式等，样本数据包括字段类型、字段长度、字符ascii码等特征；

步骤3：用得到的样本数据对预测模型进行训练；

步骤5：将置信度最高且高于90％的预测结果写入数据库，将置信度最高且低于90％的预测结果进行人工确认或修正并写入数据库。

步骤6：重复步骤1至步骤3，对预测模型进行训练，提高后续预测精确度。

步骤2具体包括：

步骤201：将原始数据的数据特征解析成结构化的样本数据；

步骤202：将样本数据中已有的特征组合形成高维特征；

步骤204：将样本数据按照新维度进行降维，在确保样本数据失真率低于0.1％的前提下使用最小维度数；

步骤205：对新维度的样本数据进行归一化处理。

步骤3具体包括：

在上述一种基于智能模式识别的数据自动标注的方法基础上，本发明还提供一种基于智能模式识别数据自动标注的系统，包括：

样本数据形成模块：提取原始数据的数据特征，形成样本数据，数据特征包括：数据类型、长度和字符串模式等，样本数据包括字段类型、字段长度、字符ascii码等特征；

模型训练模块：用得到的样本数据对预测模型进行训练；

样本数据形成模块具体包括：

模型训练模块具体包括：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于智能模式识别的数据自动标注的方法，其特征在于，包括：

步骤2：提取原始数据的数据特征，形成样本数据；

步骤3：用得到的样本数据对预测模型进行训练；

2.根据权利要求1所述的基于智能模式识别的数据自动标注的方法，其特征在于，所述步骤2具体包括：

步骤201：将原始数据的数据特征解析成结构化的样本数据；

步骤202：将样本数据中已有的特征组合形成高维特征；

步骤205：对新维度的样本数据进行归一化处理。

3.根据权利要求1所述的基于智能模式识别的数据自动标注的方法，其特征在于，所述步骤3具体包括：

4.根据权利要求1所述的基于智能模式识别的数据自动标注的方法，其特征在于，所述数据特征包括：数据类型、长度和字符串模式。

5.根据权利要求1所述的基于智能模式识别的数据自动标注的方法，其特征在于，还包括步骤6：重复步骤1至步骤3。

6.一种基于智能模式识别的数据自动标注的系统，其特征在于，包括：

模型训练模块：用得到的样本数据对预测模型进行训练；

7.根据权利要求6所述的基于智能模式识别的数据自动标注的系统，其特征在于，所述样本数据形成模块具体包括：

8.根据权利要求6所述的基于智能模式识别的数据自动标注的系统，其特征在于，所述模型训练模块具体包括：

9.根据权利要求6所述的基于智能模式识别的数据自动标注的系统，其特征在于，所述数据特征包括：数据类型、长度和字符串模式。