CN108415938A - 一种基于智能模式识别的数据自动标注的方法及系统 - Google Patents

一种基于智能模式识别的数据自动标注的方法及系统 Download PDF

Info

Publication number
CN108415938A
CN108415938A CN201810070024.2A CN201810070024A CN108415938A CN 108415938 A CN108415938 A CN 108415938A CN 201810070024 A CN201810070024 A CN 201810070024A CN 108415938 A CN108415938 A CN 108415938A
Authority
CN
China
Prior art keywords
data
sample data
prediction result
prediction
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810070024.2A
Other languages
English (en)
Inventor
饶定远
靳翼
唐丽娜
闵圣捷
杨飞
丁星
武静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd filed Critical CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201810070024.2A priority Critical patent/CN108415938A/zh
Publication of CN108415938A publication Critical patent/CN108415938A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于智能模式识别的数据自动标注的方法及系统,包括:从数据库读取原始数据,将原始数据的标签作为预测结果集合;提取原始数据的数据特征,形成样本数据;用得到的样本数据对预测模型进行训练;提取业务数据的数据特征,用预测模型对业务数据的数据特征进行计算,预测业务数据的标签,并依据置信度对预测结果进行排序;将置信度最高且高于设定的阈值的预测结果写入数据库,将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。本发明通过智能识别的方法减少了人工介入,从而降低人工成本,极大提高了新入库数据的数据标注及时性;通过循环验证的方式使得数据标注的准确性大大提升,数据量越大准确率越高。

Description

一种基于智能模式识别的数据自动标注的方法及系统
技术领域
本发明涉及数据处理技术领域,具体地,涉及一种基于智能模式识别的数据自动标注的方法及系统。
背景技术
随着物联网与移动终端持续不断的产生大量数据,并且数据类型丰富,而怎么识别和使用这些不同类型的数据就成为了一个困难的问题。传统的数据仓库通常使用人工创建数据字典的手段对数据的业务进行标识,然而在海量数据的场景中,数据不仅在容量上产生了几何级数增长,在数据的维度上也发生了指数级的增长。在这样的背景下,传统通过人工手段对数据进行表示的方法体现出很多弊端,容易错,成本高,耗时长。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于智能模式识别的数据自动标注的方法及系统。
根据本发明提供的一种基于智能模式识别的数据自动标注的方法,包括:
步骤1:从数据库读取原始数据,将原始数据的标签作为预测结果集合;
步骤2:提取原始数据的数据特征,形成样本数据;
步骤3:用得到的样本数据对预测模型进行训练;
步骤4:提取业务数据的数据特征,用预测模型对业务数据的数据特征进行计算,预测业务数据的标签,并依据置信度对预测结果进行排序;
步骤5:将置信度最高且高于设定的阈值的预测结果写入数据库,将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。
较佳的,所述步骤2具体包括:
步骤201:将原始数据的数据特征解析成结构化的样本数据;
步骤202:将样本数据中已有的特征组合形成高维特征;
步骤203:对高维特征进行分析,形成新维度并对新维度的影响力进行排序;
步骤204:将样本数据按照新维度进行降维,在确保样本数据失真率低于设定值的前提下使用最小维度数;
步骤205:对新维度的样本数据进行归一化处理。
较佳的,所述步骤3具体包括:
步骤301:将样本数据输入数据特征分析算法,对样本数据作出标预测;
步骤302:将预测结果与预测结果集合进行对比验证,验证结果反馈到数据特征分析算法的执行程序;
步骤303:根据反馈结果计算偏差,并根据变差调整数据特征分析算法的参数;
步骤304:重复步骤301至步骤303,直至预测模型达到设计指标。
较佳的,所述数据特征包括:数据类型、长度和字符串模式。
较佳的,还包括步骤6:重复步骤1至步骤3。
根据本发明提供的一种基于智能模式识别的数据自动标注的系统,包括:
原始数据读取模块:从数据库读取原始数据,将原始数据的标签作为预测结果集合;
样本数据形成模块:提取原始数据的数据特征,形成样本数据;
模型训练模块:用得到的样本数据对预测模型进行训练;
标签预测模块:提取业务数据的数据特征,用预测模型对业务数据的数据特征进行计算,预测业务数据的标签,并依据置信度对预测结果进行排序;
结果处理模块:将置信度最高且高于设定的阈值的预测结果写入数据库,将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。
较佳的,所述样本数据形成模块具体包括:
将原始数据的数据特征解析成结构化的样本数据;将样本数据中已有的特征组合形成高维特征;对高维特征进行分析,形成新维度并对新维度的影响力进行排序;将样本数据按照新维度进行降维,在确保样本数据失真率低于设定值的前提下使用最小维度数;对新维度的样本数据进行归一化处理。
较佳的,所述模型训练模块具体包括:
将样本数据输入数据特征分析算法,对样本数据作出标预测;将预测结果与预测结果集合进行对比验证,验证结果反馈到数据特征分析算法的执行程序;根据反馈结果计算偏差,并根据变差调整数据特征分析算法的参数;如此循环,直至预测模型达到设计指标。
较佳的,所述数据特征包括:数据类型、长度和字符串模式。
与现有技术相比,本发明具有如下的有益效果:
1、通过智能模式识别的方法减少了人工介入,从而降低人工成本;
2、通过自动化标注的方式极大提高了新入库数据的数据标注及时性;
3、通过循环验证的方式使得数据标注的准确性大大提升,数据量越大准确率越高。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的数据流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明提供的一种基于智能模式识别的数据自动标注的方法,包括:
步骤1:从数据库读取原始数据,将原始数据的标签作为预测结果集合;
步骤2:提取原始数据的数据特征,形成样本数据,数据特征包括:数据类型、长度和字符串模式等,样本数据包括字段类型、字段长度、字符ascii码等特征;
步骤3:用得到的样本数据对预测模型进行训练;
步骤4:提取业务数据的数据特征,用预测模型对业务数据的数据特征进行计算,预测业务数据的标签,并依据置信度对预测结果进行排序;
步骤5:将置信度最高且高于90%的预测结果写入数据库,将置信度最高且低于90%的预测结果进行人工确认或修正并写入数据库。
步骤6:重复步骤1至步骤3,对预测模型进行训练,提高后续预测精确度。
步骤2具体包括:
步骤201:将原始数据的数据特征解析成结构化的样本数据;
步骤202:将样本数据中已有的特征组合形成高维特征;
步骤203:对高维特征进行分析,形成新维度并对新维度的影响力进行排序;
步骤204:将样本数据按照新维度进行降维,在确保样本数据失真率低于0.1%的前提下使用最小维度数;
步骤205:对新维度的样本数据进行归一化处理。
步骤3具体包括:
步骤301:将样本数据输入数据特征分析算法,对样本数据作出标预测;
步骤302:将预测结果与预测结果集合进行对比验证,验证结果反馈到数据特征分析算法的执行程序;
步骤303:根据反馈结果计算偏差,并根据变差调整数据特征分析算法的参数;
步骤304:重复步骤301至步骤303,直至预测模型达到设计指标。
在上述一种基于智能模式识别的数据自动标注的方法基础上,本发明还提供一种基于智能模式识别数据自动标注的系统,包括:
原始数据读取模块:从数据库读取原始数据,将原始数据的标签作为预测结果集合;
样本数据形成模块:提取原始数据的数据特征,形成样本数据,数据特征包括:数据类型、长度和字符串模式等,样本数据包括字段类型、字段长度、字符ascii码等特征;
模型训练模块:用得到的样本数据对预测模型进行训练;
标签预测模块:提取业务数据的数据特征,用预测模型对业务数据的数据特征进行计算,预测业务数据的标签,并依据置信度对预测结果进行排序;
结果处理模块:将置信度最高且高于设定的阈值的预测结果写入数据库,将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。
样本数据形成模块具体包括:
将原始数据的数据特征解析成结构化的样本数据;将样本数据中已有的特征组合形成高维特征;对高维特征进行分析,形成新维度并对新维度的影响力进行排序;将样本数据按照新维度进行降维,在确保样本数据失真率低于设定值的前提下使用最小维度数;对新维度的样本数据进行归一化处理。
模型训练模块具体包括:
将样本数据输入数据特征分析算法,对样本数据作出标预测;将预测结果与预测结果集合进行对比验证,验证结果反馈到数据特征分析算法的执行程序;根据反馈结果计算偏差,并根据变差调整数据特征分析算法的参数;如此循环,直至预测模型达到设计指标。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (9)

1.一种基于智能模式识别的数据自动标注的方法,其特征在于,包括:
步骤1:从数据库读取原始数据,将原始数据的标签作为预测结果集合;
步骤2:提取原始数据的数据特征,形成样本数据;
步骤3:用得到的样本数据对预测模型进行训练;
步骤4:提取业务数据的数据特征,用预测模型对业务数据的数据特征进行计算,预测业务数据的标签,并依据置信度对预测结果进行排序;
步骤5:将置信度最高且高于设定的阈值的预测结果写入数据库,将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。
2.根据权利要求1所述的基于智能模式识别的数据自动标注的方法,其特征在于,所述步骤2具体包括:
步骤201:将原始数据的数据特征解析成结构化的样本数据;
步骤202:将样本数据中已有的特征组合形成高维特征;
步骤203:对高维特征进行分析,形成新维度并对新维度的影响力进行排序;
步骤204:将样本数据按照新维度进行降维,在确保样本数据失真率低于设定值的前提下使用最小维度数;
步骤205:对新维度的样本数据进行归一化处理。
3.根据权利要求1所述的基于智能模式识别的数据自动标注的方法,其特征在于,所述步骤3具体包括:
步骤301:将样本数据输入数据特征分析算法,对样本数据作出标预测;
步骤302:将预测结果与预测结果集合进行对比验证,验证结果反馈到数据特征分析算法的执行程序;
步骤303:根据反馈结果计算偏差,并根据变差调整数据特征分析算法的参数;
步骤304:重复步骤301至步骤303,直至预测模型达到设计指标。
4.根据权利要求1所述的基于智能模式识别的数据自动标注的方法,其特征在于,所述数据特征包括:数据类型、长度和字符串模式。
5.根据权利要求1所述的基于智能模式识别的数据自动标注的方法,其特征在于,还包括步骤6:重复步骤1至步骤3。
6.一种基于智能模式识别的数据自动标注的系统,其特征在于,包括:
原始数据读取模块:从数据库读取原始数据,将原始数据的标签作为预测结果集合;
样本数据形成模块:提取原始数据的数据特征,形成样本数据;
模型训练模块:用得到的样本数据对预测模型进行训练;
标签预测模块:提取业务数据的数据特征,用预测模型对业务数据的数据特征进行计算,预测业务数据的标签,并依据置信度对预测结果进行排序;
结果处理模块:将置信度最高且高于设定的阈值的预测结果写入数据库,将置信度最高且低于设定的阈值的预测结果进行人工确认或修正并写入数据库。
7.根据权利要求6所述的基于智能模式识别的数据自动标注的系统,其特征在于,所述样本数据形成模块具体包括:
将原始数据的数据特征解析成结构化的样本数据;将样本数据中已有的特征组合形成高维特征;对高维特征进行分析,形成新维度并对新维度的影响力进行排序;将样本数据按照新维度进行降维,在确保样本数据失真率低于设定值的前提下使用最小维度数;对新维度的样本数据进行归一化处理。
8.根据权利要求6所述的基于智能模式识别的数据自动标注的系统,其特征在于,所述模型训练模块具体包括:
将样本数据输入数据特征分析算法,对样本数据作出标预测;将预测结果与预测结果集合进行对比验证,验证结果反馈到数据特征分析算法的执行程序;根据反馈结果计算偏差,并根据变差调整数据特征分析算法的参数;如此循环,直至预测模型达到设计指标。
9.根据权利要求6所述的基于智能模式识别的数据自动标注的系统,其特征在于,所述数据特征包括:数据类型、长度和字符串模式。
CN201810070024.2A 2018-01-24 2018-01-24 一种基于智能模式识别的数据自动标注的方法及系统 Pending CN108415938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810070024.2A CN108415938A (zh) 2018-01-24 2018-01-24 一种基于智能模式识别的数据自动标注的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810070024.2A CN108415938A (zh) 2018-01-24 2018-01-24 一种基于智能模式识别的数据自动标注的方法及系统

Publications (1)

Publication Number Publication Date
CN108415938A true CN108415938A (zh) 2018-08-17

Family

ID=63126472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810070024.2A Pending CN108415938A (zh) 2018-01-24 2018-01-24 一种基于智能模式识别的数据自动标注的方法及系统

Country Status (1)

Country Link
CN (1) CN108415938A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888864A (zh) * 2019-11-27 2020-03-17 北京国腾联信科技有限公司 用户数据的自动化收集方法及装置
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN112258224A (zh) * 2020-10-19 2021-01-22 北京沃东天骏信息技术有限公司 信息生成方法、装置、终端、系统和存储介质
CN112308237A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种问答数据增强方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317894A (zh) * 2014-10-23 2015-01-28 北京百度网讯科技有限公司 样本标注的确定方法和装置
CN105787423A (zh) * 2014-12-26 2016-07-20 汉王科技股份有限公司 人脸图像的属性信息识别方法和装置
CN106845421A (zh) * 2017-01-22 2017-06-13 北京飞搜科技有限公司 基于多区域特征与度量学习的人脸特征识别方法及系统
CN107527070A (zh) * 2017-08-25 2017-12-29 江苏赛睿信息科技股份有限公司 维度数据和指标数据的识别方法、存储介质及服务器
CN107563426A (zh) * 2017-08-25 2018-01-09 清华大学 一种机车运行时序特征的学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317894A (zh) * 2014-10-23 2015-01-28 北京百度网讯科技有限公司 样本标注的确定方法和装置
CN105787423A (zh) * 2014-12-26 2016-07-20 汉王科技股份有限公司 人脸图像的属性信息识别方法和装置
CN106845421A (zh) * 2017-01-22 2017-06-13 北京飞搜科技有限公司 基于多区域特征与度量学习的人脸特征识别方法及系统
CN107527070A (zh) * 2017-08-25 2017-12-29 江苏赛睿信息科技股份有限公司 维度数据和指标数据的识别方法、存储介质及服务器
CN107563426A (zh) * 2017-08-25 2018-01-09 清华大学 一种机车运行时序特征的学习方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888864A (zh) * 2019-11-27 2020-03-17 北京国腾联信科技有限公司 用户数据的自动化收集方法及装置
CN110888864B (zh) * 2019-11-27 2022-08-23 北京国腾联信科技有限公司 用户数据的自动化收集方法及装置
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN112258224A (zh) * 2020-10-19 2021-01-22 北京沃东天骏信息技术有限公司 信息生成方法、装置、终端、系统和存储介质
CN112308237A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种问答数据增强方法、装置、计算机设备及存储介质
WO2022001232A1 (zh) * 2020-10-30 2022-01-06 平安科技(深圳)有限公司 一种问答数据增强方法、装置、计算机设备及存储介质
CN112308237B (zh) * 2020-10-30 2023-09-26 平安科技(深圳)有限公司 一种问答数据增强方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111798312B (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN108415938A (zh) 一种基于智能模式识别的数据自动标注的方法及系统
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
KR20190026641A (ko) 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN111581345A (zh) 一种文档级别的事件抽取方法和装置
CN104881675A (zh) 一种视频场景的识别方法和装置
CN115357904B (zh) 一种基于程序切片和图神经网络的多类漏洞检测方法
CN111695337A (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN109067708B (zh) 一种网页后门的检测方法、装置、设备及存储介质
CN110781960A (zh) 视频分类模型的训练方法、分类方法、装置及设备
CN113780367A (zh) 分类模型训练和数据分类方法、装置、电子设备
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN112084761A (zh) 一种水利工程信息管理方法及装置
CN114638501A (zh) 一种业务数据处理方法、装置、计算机设备及存储介质
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN110442858B (zh) 一种问句实体识别方法、装置、计算机设备及存储介质
CN114285587A (zh) 域名鉴别方法和装置、域名分类模型的获取方法和装置
CN116541528A (zh) 招聘领域知识图谱构建的打标签方法和系统
CN111027296A (zh) 基于知识库的报表生成方法及系统
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质
CN112784033B (zh) 一种时效等级识别模型训练及应用的方法、及电子设备
CN117076596B (zh) 应用人工智能的数据存储方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180817