CN107832852A

CN107832852A - 数据处理学习方法、系统以及电子设备

Info

Publication number: CN107832852A
Application number: CN201711128210.9A
Authority: CN
Inventors: 黄鼎隆; 马修·罗伯特·斯科特; 傅恺; 郭胜
Original assignee: Shenzhen Malong Technologies Co Ltd
Current assignee: Shenzhen Mailong Intelligent Technology Co ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-03-23
Anticipated expiration: 2037-11-14
Also published as: WO2019096176A1; CN107832852B

Abstract

本发明提供了一种数据处理学习方法、系统以及电子设备，涉及数据处理技术领域，数据处理学习方法包括：对第一目标数据进行初始数据处理，得到特征数据；通过聚类算法将特征数据中的每个数据类型分为多个数据集合；计算每个数据集合内的特征数据密度，得到密度值；根据密度值将多个数据集合进行排序，得到最大密度值数据集合；根据每个数据类型中的最大密度值数据集合形成数据处理模型；其中，数据处理模型用于对第二目标数据进行初始数据处理，解决了现有技术中存在的自动化等系统在对数据处理规则的学习与训练过程中，会由于各种原始数据中大量的噪声数据而影响对数据处理规则进行学习训练的过程，从而降低学习过程效率的技术问题。

Description

数据处理学习方法、系统以及电子设备

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种数据处理学习方法、系统以及电子设备。

背景技术

数据(Data)是对事实、概念或指令的一种表达形式，可由自动化装置进行处理。数据经过解释并赋予一定的意义之后，便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。

目前，数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理是对数据进行分析和加工的技术过程。数据处理的过程包括对各种原始数据的分析、整理、计算、编辑等的加工和处理，比数据分析含义广。

自动化装置等系统需要对各种原始数据的抽取、存储、检索、加工、变换、推导、传输等数据处理规则进行学习与训练，在对数据处理规则的学习与训练过程中，会由于各种原始数据中大量的噪声数据而影响对数据处理规则进行学习训练的过程，从而降低学习过程的效率。

发明内容

有鉴于此，本发明的目的在于提供一种数据处理学习方法、系统以及电子设备，以解决现有技术中存在的自动化等系统在对数据处理规则的学习与训练过程中，会由于各种原始数据中大量的噪声数据而影响对数据处理规则进行学习训练的过程，从而降低学习过程效率的技术问题。

第一方面，本发明实施例提供了一种数据处理学习方法，包括：

对第一目标数据进行初始数据处理，得到特征数据；

通过聚类算法将所述特征数据中的每个数据类型分为多个数据集合；

计算每个所述数据集合内的特征数据密度，得到密度值；

根据所述密度值将多个所述数据集合进行排序，得到最大密度值数据集合；

根据每个所述数据类型中的所述最大密度值数据集合形成数据处理模型；其中，所述数据处理模型用于对第二目标数据进行初始数据处理。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述对第一目标数据进行初始数据处理，得到特征数据，具体包括：

根据数据处理模型对第一目标数据进行特征提取，得到特征数据。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述通过聚类算法将所述特征数据中的每个数据类型分为多个数据集合，具体包括：

通过聚类算法将所述特征数据分为若干个数据类型，并将每个所述数据类型中的特征数据分成多个数据集合。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述根据所述密度值将多个所述数据集合进行排序，得到最大密度值数据集合，具体包括：

根据所述密度值将多个所述数据集合进行从大到小的排序，得到最大密度值数据集合。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述根据每个所述数据类型中的所述最大密度值数据集合形成数据处理模型，具体包括：

将每个所述数据类型中的所述最大密度值数据集合进行组合，形成准确数据组合；

根据所述准确数据组合设置数据模型，形成数据处理模型。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述数据为图像信息。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述数据处理的过程为对图像的中的物品进行识别的过程。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述根据数据处理模型对第一目标数据进行特征提取，得到特征数据，具体包括：

根据数据处理模型对第一目标数据进行图像中的元素与特征提取，得到特征数据。

第二方面，本发明实施例还提供一种数据处理学习系统，包括：初始处理模块、聚类模块、密度计算模块、密度排序模块以及模型形成模块；

所述初始处理模块用于对第一目标数据进行初始数据处理，得到特征数据；

所述聚类模块用于通过聚类算法将所述特征数据中的每个数据类型分为多个数据集合；

所述密度计算模块用于计算每个所述数据集合内的特征数据密度，得到密度值；

所述密度排序模块用于根据所述密度值将多个所述数据集合进行排序，得到最大密度值数据集合；

所述模型形成模块用于根据每个所述数据类型中的所述最大密度值数据集合形成数据处理模型；其中，所述数据处理模型用于对第二目标数据进行初始数据处理。

第二方面，本发明实施例还提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述如第一方面所述的方法的步骤。

本发明实施例提供的技术方案带来了以下有益效果：本发明实施例提供的数据处理学习方法、系统以及电子设备中，数据处理学习方法包括：首先，对第一目标数据进行初始数据处理以得到特征数据，之后，通过聚类算法将特征数据中的每个数据类型分为多个数据集合，然后，计算每个数据集合内的特征数据密度，以得到密度值，之后根据密度值将多个数据集合进行排序，从而得到最大密度值数据集合，然后根据每个数据类型中的最大密度值数据集合形成数据处理模型，其中，数据处理模型用于对第二目标数据进行初始数据处理，通过聚类算法对含有噪声数据的原始数据中的特征数据进行聚类，将每个数据类别分成多个集合，计算每个集合内的特征数据密度以选出其中密度值最大的集合，从而筛选出每个类别中准确数据的集合，从而训练出数据处理的模型，再利用这个数据处理模型对另一部分含有噪声数据的原始数据进行初始处理得到特征数据，在这个学习与训练的过程中不断的加入有噪声的原始数据，以此循环这种利用含有噪声数据的原始数据不断形成数据处理模型中的动态数据平衡，从而进行数据处理的学习与训练过程，而在这种学习训练的过程中，只对筛选出的准确数据做动态数据平衡，而对噪声数据不做数据平衡，这样极大的减少了在训练过程中抽到噪声数据的概率，从而解决了现有技术中存在的自动化等系统在对数据处理规则的学习与训练过程中，会由于各种原始数据中大量的噪声数据而影响对数据处理规则进行学习训练的过程，从而降低学习过程效率的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例一所提供的数据处理学习方法的流程图；

图2示出了本发明实施例二所提供的数据处理学习方法的流程图；

图3示出了本发明实施例三所提供的一种数据处理学习系统的结构示意图；

图4示出了本发明实施例三所提供的一种电子设备的结构示意图。

图标：3-数据处理学习系统；31-初始处理模块；32-聚类模块；33-密度计算模块；34-密度排序模块；35-模型形成模块；4-电子设备；41-存储器；42-处理器；43-总线；44-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前自动化等系统在对数据处理规则的学习与训练过程中，会由于各种原始数据中大量的噪声数据而影响对数据处理规则进行学习训练的过程，从而降低学习过程效率，基于此，本发明实施例提供的一种数据处理学习方法、系统以及电子设备，可以解决现有技术中存在的自动化等系统在对数据处理规则的学习与训练过程中，会由于各种原始数据中大量的噪声数据而影响对数据处理规则进行学习训练的过程，从而降低学习过程效率的技术问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种数据处理学习方法、系统以及电子设备进行详细介绍。

实施例一：

本发明实施例提供的一种数据处理学习方法，其中数据处理的过程可以为对图像的中的对象进行识别的过程。如图1所示，包括：

S11：对第一目标数据进行初始数据处理，得到特征数据；

作为本实施例的另一种实施方式，也可以根据数据处理模型对第一目标数据进行图像中的元素与特征提取，得到特征数据。

S12：通过聚类算法将特征数据中的每个数据类型分为多个数据集合；

S13：计算每个数据集合内的特征数据密度，得到密度值；

S14：根据密度值将多个数据集合进行排序，得到最大密度值数据集合；

S15：根据每个数据类型中的最大密度值数据集合形成数据处理模型。

其中，数据处理模型可以用于对第二目标数据进行初始数据处理。

本实施例中，利用预先在大规模原始数据集上训练好的深度模型，学习数据处理的规则、概念等，并对未知的其他原始数据进行预测，其中，数据可以为图像信息。而对数据处理的学习过程可以为计算机通过寻找图像特征特征与要素来进对象区分的过程。

实施例二：

本发明实施例提供的一种数据处理学习方法，其中的数据处理的过程也可以为对图像的中的对象进行识别的过程。如图2所示，包括：

S21：根据数据处理模型对第一目标数据进行特征提取，得到特征数据。

具体的，也可以根据数据处理模型对第一目标数据进行图像中的元素与特征提取，得到特征数据。

S22：通过聚类算法将特征数据分为若干个数据类型，并将每个数据类型中的特征数据分成多个数据集合。

S23：计算每个数据集合内的特征数据密度，得到密度值；

S24：根据密度值将多个数据集合进行从大到小的排序，得到最大密度值数据集合。

S25：将每个数据类型中的最大密度值数据集合进行组合，形成准确数据组合；

S26：根据准确数据组合设置数据模型，形成数据处理模型。

本实施例中，首先利用所有数据训练一个初始模型，利用这种初始模型来对所有数据提取特征。在这种特征的基础上，通过一种聚类算法将原始有噪声的数据的每个类别聚成N组，其中N>＝2。然后计算每一组数据内部的密度，依据密度值从而得到在每一个类别里面N组数据依照密度值从大到小的排序，依据密度值从大到小得到从准确数据，次准确数据等最后到噪声数据的顺序。然后选取每个类别中的准确数据形成一个子集，其中，准确数据也可为干净数据。之后用这个准确子集数据训练一个准确的模型，利用这种准确模型去初始化所有的数据训练，其中，准确模型也可为干净模型。需要说明的是，在这个训练过程中会不断的加入有噪声的数据。

需要说明的是，其中的数据训练的过程也可以是数据动态平衡的过程，本方法采用的数据平衡方式为：在上述每个类别内部聚类分组以后，在训练的过程，只对干净的数据进行动态数据平衡，而在噪声数据上不进行数据平衡，这样大大减少了在训练过程中抽到噪声数据的概率，因此不会再由于各种原始数据中大量的噪声数据而影响对数据处理规则进行学习训练的过程，进而提高学习过程的效率。

实施例三：

本发明实施例提供的一种数据处理学习系统，如图3所示，数据处理学习系统3可以包括：初始处理模块31、聚类模块32、密度计算模块33、密度排序模块34以及模型形成模块35。

作为一个优选方案，初始处理模块31可以用于对第一目标数据进行初始数据处理，得到特征数据。聚类模块32可以用于通过聚类算法将特征数据中的每个数据类型分为多个数据集合。

进一步的是，密度计算模块33可以用于计算每个数据集合内的特征数据密度，得到密度值。密度排序模块34可以用于根据密度值将多个数据集合进行排序，得到最大密度值数据集合；

在实际应用中，模型形成模块35可以用于根据每个数据类型中的最大密度值数据集合形成数据处理模型。其中，数据处理模型可以用于对第二目标数据进行初始数据处理。

实施例四：

本发明实施例提供的一种电子设备，如图4所示，电子设备4可以包括存储器41、处理器42，存储器41中存储有可在处理器42上运行的计算机程序，处理器42执行计算机程序时实现上述实施例一或实施例二提供的方法的步骤。

参见图4，电子设备4还可以包括：总线43和通信接口44，所述处理器42、通信接口44和存储器41通过总线43连接；处理器42用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口44(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

作为本实施例的优选实施方式，总线43可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41可以用于存储程序，所述处理器42在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器42中，或者由处理器42实现。

优选的，处理器42可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器42中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器42可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器42读取存储器41中的信息，结合其硬件完成上述方法的步骤。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例提供的电子设备，与上述实施例提供的数据处理学习方法、系统具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明实施例所提供的进行数据处理学习方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理学习方法，其特征在于，包括：

对第一目标数据进行初始数据处理，得到特征数据；

计算每个所述数据集合内的特征数据密度，得到密度值；

2.根据权利要求1所述的数据处理学习方法，其特征在于，所述对第一目标数据进行初始数据处理，得到特征数据，具体包括：

3.根据权利要求1所述的数据处理学习方法，其特征在于，所述通过聚类算法将所述特征数据中的每个数据类型分为多个数据集合，具体包括：

4.根据权利要求1所述的数据处理学习方法，其特征在于，所述根据所述密度值将多个所述数据集合进行排序，得到最大密度值数据集合，具体包括：

5.根据权利要求1所述的数据处理学习方法，其特征在于，所述根据每个所述数据类型中的所述最大密度值数据集合形成数据处理模型，具体包括：

根据所述准确数据组合设置数据模型，形成数据处理模型。

6.根据权利要求1所述的数据处理学习方法，其特征在于，所述数据为图像信息。

7.根据权利要求1所述的数据处理学习方法，其特征在于，所述数据处理的过程为对图像的中的物品进行识别的过程。

8.根据权利要求2所述的数据处理学习方法，其特征在于，所述根据数据处理模型对第一目标数据进行特征提取，得到特征数据，具体包括：

9.一种数据处理学习系统，其特征在于，包括：初始处理模块、聚类模块、密度计算模块、密度排序模块以及模型形成模块；

10.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至8任一项所述的方法的步骤。