CN106447385A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN106447385A
CN106447385A CN201610788322.6A CN201610788322A CN106447385A CN 106447385 A CN106447385 A CN 106447385A CN 201610788322 A CN201610788322 A CN 201610788322A CN 106447385 A CN106447385 A CN 106447385A
Authority
CN
China
Prior art keywords
data
attribute
probability
class
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610788322.6A
Other languages
English (en)
Inventor
郭钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI YAZUO ONLINE TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
WUXI YAZUO ONLINE TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI YAZUO ONLINE TECHNOLOGY DEVELOPMENT Co Ltd filed Critical WUXI YAZUO ONLINE TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201610788322.6A priority Critical patent/CN106447385A/zh
Publication of CN106447385A publication Critical patent/CN106447385A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法和装置。其中,该方法包括:接收目标数据;根据预设的数据分类模型确定目标数据属于各个预定类的概率,其中,所述数据分类模型是根据过滤后的多个样本数据建立的模型;基于目标数据属于各个预定类的概率,得到目标数据的分类结果;输出分类结果。本发明解决相关技术中数据处理方法准确度低的问题。

Description

数据处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
背景技术
在多个行业中都会存在一些数据,例如,餐饮业、旅游业的会员消费等数据,会员消费数据逐渐发展成为了跨行业、跨国家、线上线下联合的数据,这些数据往往来自多个样本,由于单纯以消费折扣为手段的积分计划等已经不能吸引到真正有价值的顾客,因此对这些大数据的分析具有重要的参考价值,能够快速定位有价值的客户,合理利用这些大数据能够为企业带来更大的利益。
现有技术中对上述数据的分析采用的是高斯混合判别分析,引用全体数据作为计算量,但是直接使用全体数据容易受到噪音的影响导致准确度低。
针对相关技术中数据处理方法准确度低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种数据处理方法和装置,以解决相关技术中数据处理方法准确度低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种数据处理方法,该方法包括:接收目标数据;根据预设的数据分类模型确定目标数据属于各个预定类的概率,其中,所述数据分类模型是根据过滤后的多个样本数据建立的模型;基于目标数据属于各个预定类的概率,得到目标数据的分类结果;输出分类结果。
进一步地,根据预设的数据分类模型确定目标数据属于各个预定类的概率包括:根据数据分类模型中记录的正态分布密度函数,计算目标数据属于每个预定类中每个属性的属性概率,其中,每个预定类包括多个属性;计算每个预定类中多个属性的属性概率的加权值,得到目标数据属于每个预定类的概率。
进一步地,基于目标数据属于各个预定类的概率,得到目标数据的分类结果包括:将最大概率值对应的预定类,确定为目标数据所属的预定类。
进一步地,在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前,方法还包括:采集多个样本数据,其中,样本数据中的每个样本包括多个类,每个类包括多个属性;对多个样本数据进行无效数据过滤,得到过滤后的数据,其中,无效数据为样本数据中属性值缺失率超过预设阈值的数据;对每个类的每个属性分别计算样本数据的属性分布;根据属性分布建立数据分类模型。
进一步地,在对多个样本数据进行无效数据过滤,得到过滤后的数据之后,方法还包括:计算每个类的每个属性的数据的均值和标准差;过滤掉与均值的差值超过两倍标准差的数据。
进一步地,在对多个样本数据进行无效数据过滤,得到过滤后的数据之后,方法还包括:对样本数据进行向量化表示,得到向量化数据。
为了实现上述目的,根据本发明的另一方面,还提供了一种数据处理装置,该装置包括:接收单元,用于接收目标数据;确定单元,用于根据预设的数据分类模型确定目标数据属于各个预定类的概率,其中,所述数据分类模型是根据过滤后的多个样本数据建立的模型;处理单元,用于基于目标数据属于各个预定类的概率,得到目标数据的分类结果;输出单元,用于输出分类结果。
进一步地,确定单元包括:根据数据分类模型中记录的正态分布密度函数,计算目标数据属于每个预定类中每个属性的属性概率,其中,每个预定类包括多个属性;计算单元,用于计算每个预定类中多个属性的属性概率的加权值,得到目标数据属于每个预定类的概率。
进一步地,处理单元具体用于:将最大概率值对应的预定类,确定为目标数据所属的预定类。
进一步地,装置还包括:采集单元,用于在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前,采集多个样本数据,其中,样本数据中的每个样本包括多个类,每个类包括多个属性;过滤单元,用于对多个样本数据进行无效数据过滤,得到过滤后的数据,其中,无效数据为样本数据中属性值缺失率超过预设阈值的数据;属性分布计算单元,用于对每个类的每个属性分别计算样本数据的属性分布;建立单元,用于根据属性分布建立数据分类模型。
通过本发明的上述实施例,可以基于过滤后的多个样本数据预先建立数据分类模型,在接收到新的目标数据之后,利用该预先建立的数据分类模型确定目标数据属于各个预定类的概率,并基于目标数据属于各个预定类的概率,确定目标数据的分类结果。在上述实施例中,由于建立数据分类模型时,是基于过滤后的样本数据建立的,过滤数据可以减少样本数据中的无效数据或者噪音数据,基于该模型确定的目标数据的分类结果准确率高,解决了现有技术中是数据处理方法准确度低的问题。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据处理方法的流程图;以及
图2是根据本发明实施例的数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种数据处理方法。
图1是根据本发明实施例的数据处理方法的流程图,如图1所示,该方法包括以下步骤:
步骤S102:接收目标数据。
步骤S104:根据预设的数据分类模型确定目标数据属于各个预定类的概率,其中,所述数据分类模型是根据过滤后的多个样本数据建立的模型。
步骤S106:基于目标数据属于各个预定类的概率,得到目标数据的分类结果。
步骤S108:输出分类结果。
通过本发明的上述实施例,可以基于过滤后的多个样本数据预先建立数据分类模型,在接收到新的目标数据之后,利用该预先建立的数据分类模型确定目标数据属于各个预定类的概率,并基于目标数据属于各个预定类的概率,确定目标数据的分类结果。在上述实施例中,由于建立数据分类模型时,是基于过滤后的样本数据建立的,过滤数据可以减少样本数据中的无效数据或者噪音数据,基于该模型确定的目标数据的分类结果准确率高,解决了现有技术中是数据处理方法准确度低的问题。
可选地,创建数据输入界面,该数据输入界面上设置有输入框,该输入框可以用于输入目标数据,处理器可以从该输入框接收目标数据。
另一种可选地,创建数据导入接口,该数据导入接口与目标数据的生成系统建立连接,处理器通过该数据导入接口采集目标数据。
上述实施例中的目标数据和样本数据可以为消费数据,该消费数据中包括性别、年龄、职业、居住地、频次以及消费金额等多个维度的信息。当然,本申请的目标数据和样本数据还可以为其他领域的数据,本申请对此不做限定。
在上述步骤S104确定的技术方案中,可以获取预先创建的数据分类模型,具体地,可以获取多个样本数据,对该多个样本数据进行过滤,以将该多个样本数据中的无效数据剔除,基于过滤后的多个样本数据的类别分布信息建立数据分类模型。
可选地,在根据预设的数据分类模型确定目标数据属于各个预定类的概率之后,基于目标数据属于各个预定类的概率,得到目标数据的分类结果,也即,基于目标数据属于不同类的概率,确定目标数据属于哪个类,并输出该分类结果,该分类结果可以图表、或文字的形式展示在界面上,也可以将分类结果记录在文档中,输出该文档,本申请对该输出方式和格式不做限定。
具体地,根据预设的数据分类模型确定目标数据属于各个预定类的概率包括:根据数据分类模型中记录的正态分布密度函数,计算目标数据属于每个预定类中每个属性的属性概率,其中,每个预定类包括多个属性;计算每个预定类中多个属性的属性概率的加权值,得到目标数据属于每个预定类的概率。
根据本申请的上述实施例,对于接收到的目标数据,可根据分类的平均值,标准差计算该目标数据属于不同预定类中各个属性的分布概率:
在一个可选的实施例中,目标数据属于第k个分类的第i个属性的概率可用正态分布密度函数计算,设定数据分类模型中记录有m个分类,第k个分类具有i个有效属性,则第k个分类的第i个属性的概率可用正态分布密度函数计算,该其中,xi表示该目标数据的第i个属性的属性值,表示第k个分类的第i个属性的计算平均值,表示该第k个分类的第i个属性的标准差。
在计算得到目标数据属于每个预定类中每个属性的属性概率之后,计算每个预定类中多个属性的属性概率的加权值,得到目标数据属于每个预定类的概率。
具体地,第k个分类的概率为各个属性概率与权重wi的乘积:
该实施例中每个属性的权重均可以动态调整。
进一步地,基于目标数据属于各个预定类的概率,得到目标数据的分类结果包括:将最大概率值对应的预定类,确定为目标数据所属的预定类。
具体地,若有m个预定类,则选择m个pk中的最大的值,将最大的值对应的预定类确定为目标数据所属的分类。
本申请上述的m、k、i均为自然数,k为小于等于m的自然数。
在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前,方法还包括:采集多个样本数据,其中,样本数据中的每个样本包括多个类,每个类包括多个属性;对多个样本数据进行无效数据过滤,得到过滤后的数据,其中,无效数据为样本数据中属性值缺失率超过预设阈值的数据;对每个类的每个属性分别计算样本数据的属性分布;根据属性分布建立数据分类模型。
具体地,在对多个样本数据进行无效数据过滤,得到过滤后的数据之后,方法还包括:计算每个类的每个属性的数据的均值和标准差;过滤掉与均值的差值超过两倍标准差的数据。
进一步地,在对多个样本数据进行无效数据过滤,得到过滤后的数据之后,方法还包括:对样本数据进行向量化表示,得到向量化数据。
在已经获取到多个样本数据的情况下,可以对每个样本数据按照不同的预定类的不同属性设置标签,在将样本数据设置标签并分为K组之后,样本数据中包括对象的性别、年龄、职业、时间(如,年内累计消费分钟)、频次(年内消费次数)、金额(年内累计消费额),在准备好数据之后,多个样本数据的各个属性的分布符合正态分布。
对多个样本数据进行无效数据的过滤,具体地,该过滤操作可以包括下述至少之一的操作:
(1)去除缺失率过高的属性,将缺失率超过预定阈值的属性去掉。例如,设置缺失率的预定阈值为70%,若100个样本数据中有80个样本数据中均未记录性别属性信息,只有20个记录了性别属性信息,该性别属性信息的缺失率为80%,超过了70%,则将该属性去掉。
上述的去掉可以是将所有数据中的该属性的属性值不再作为模型的输入参数。
(2)对丢失属性填充,例如,用对应有效属性的平均值替换。例如,100个样本数据中有40个样本数据中记录的消费金额属性信息为100元,有40个记录的消费金额属性信息为500元,还有20个没有记录消费金额属性信息,则可以确定属性平均值为300元,可以将该20个没有记录消费金额的样本数据中消费金额属性信息的值填充为300元。
(3)去除差异过小的属性,例如,当样本数据中目标属性的属性值的相同率超过预设阈值,不考虑此属性。例如,设置预设阈值为95%,100个样本数据中有99个样本数据中记录的性别属性信息为女性,该属性值的相同率超过了95%,则在创建数据分类模型时不考虑该数据。
在对多个样本数据进行过滤之后,对过滤后的多个样本中的数据进行向量化处理,具体地,将不同的属性值对应设置为不同的向量,如,性别、职业分类属性,如[性别]=男替换为[性别男]=1和[性别女]=0两个属性来替换,未知则均为0;[职业]=职业K可替换为[职业1]=0,[职业2]=0,……,[职业k]=1,……,[职业n]=0。
对向量化的数据,进行每一类的每个属性计算分布,具体地,计算多个向量化的样本数据对应每一类的每个属性的均值和标准差。
例如,选取第k类数据,选取分类数据Ak=δ分类=k(A);则对于第k类数据,第i个属性的分布如下:
平均值:
标准差“
每一类的每一属性过滤掉-2σ到2σ以外的的噪音数据(设检测值属性为x,即目标数据的对应该属性的属性值),则:
选取分类数据
更新计算平均值
更新标准差
在本发明的上述实施例中,通过去除边缘数据(出现概率<5%),增加了主要数据所占的比重,使提取分类时所用的数据更具有代表性。
上述实施例中权重使不同属性的代表的重要性体现出来,而不是各个方面均匀的占比。例如,可将客户按金额分类的更为准确些,通过对金额相关的属性设置较大的权重来完成。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为了实现上述目的,根据本发明的另一方面,还提供了一种数据处理装置,该装置包括图2所示的:接收单元21,用于接收目标数据;确定单元23,用于根据预设的数据分类模型确定目标数据属于各个预定类的概率,其中,数据分类模型是根据多个样本数据的属性分布信息建立的模型;处理单元25,用于基于目标数据属于各个预定类的概率,得到目标数据的分类结果;输出单元27,用于输出分类结果。
通过本发明的上述实施例,可以基于过滤后的多个样本数据预先建立数据分类模型,在接收到新的目标数据之后,利用该预先建立的数据分类模型确定目标数据属于各个预定类的概率,并基于目标数据属于各个预定类的概率,确定目标数据的分类结果。在上述实施例中,由于建立数据分类模型时,是基于过滤后的样本数据建立的,过滤数据可以减少样本数据中的无效数据或者噪音数据,基于该模型确定的目标数据的分类结果准确率高,解决了现有技术中是数据处理方法准确度低的问题。
可选地,创建数据输入界面,该数据输入界面上设置有输入框,该输入框可以用于输入目标数据,处理器可以从该输入框接收目标数据。
另一种可选地,创建数据导入接口,该数据导入接口与目标数据的生成系统建立连接,处理器通过该数据导入接口采集目标数据。
上述实施例中的目标数据和样本数据可以为消费数据,该消费数据中包括性别、年龄、职业、居住地、频次以及消费金额等多个维度的信息。当然,本申请的目标数据和样本数据还可以为其他领域的数据,本申请对此不做限定。
在上述技术方案中,可以获取预先创建的数据分类模型,具体地,可以获取多个样本数据,对该多个样本数据进行过滤,以将该多个样本数据中的无效数据剔除,基于过滤后的多个样本数据的类别分布信息建立数据分类模型。
可选地,在根据预设的数据分类模型确定目标数据属于各个预定类的概率之后,基于目标数据属于各个预定类的概率,得到目标数据的分类结果,也即,基于目标数据属于不同类的概率,确定目标数据属于哪个类,并输出该分类结果,该分类结果可以图表、或文字的形式展示在界面上,也可以将分类结果记录在文档中,输出该文档,本申请对该输出方式和格式不做限定。
进一步地,确定单元包括:根据数据分类模型中记录的正态分布密度函数,计算目标数据属于每个预定类中每个属性的属性概率,其中,每个预定类包括多个属性;计算单元,用于计算每个预定类中多个属性的属性概率的加权值,得到目标数据属于每个预定类的概率。
进一步地,处理单元具体用于:将最大概率值对应的预定类,确定为目标数据所属的预定类。
进一步地,该装置还包括:采集单元,用于在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前,采集多个样本数据,其中,样本数据中的每个样本包括多个类,每个类包括多个属性;过滤单元,用于对多个样本数据进行无效数据过滤,得到过滤后的数据,其中,无效数据为样本数据中属性值缺失率超过预设阈值的数据;属性分布计算单元,用于对每个类的每个属性分别计算样本数据的属性分布;建立单元,用于根据属性分布建立数据分类模型。
上述的过滤单元具体用于对多个样本数据进行无效数据的过滤,具体地,该过滤操作可以包括下述至少之一的操作:
(1)去除缺失率过高的属性,将缺失率超过预定阈值的属性去掉。例如,设置缺失率的预定阈值为70%,若100个样本数据中有80个样本数据中均未记录性别属性信息,只有20个记录了性别属性信息,该性别属性信息的缺失率为80%,超过了70%,则将该属性去掉。
上述的去掉可以是将所有数据中的该属性的属性值删除。
(2)对丢失属性填充,例如,用对应有效属性的平均值替换。例如,100个样本数据中有80个样本数据中记录的性别属性信息为女性,只有10个记录的性别属性信息为男性,还有10个没有记录性别属性信息,则可以确定属性平均值为女性,则可以将该10个没有记录性别的样本数据中性别属性信息的值填充为女性。
(3)去除差异过小的属性,例如,当样本数据中目标属性的属性值的相同率超过预设阈值,不考虑此属性。例如,设置预设阈值为95%,100个样本数据中有99个样本数据中记录的性别属性信息为女性,该属性值的相同率超过了95%,则在创建数据分类模型时不考虑该数据。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
接收目标数据;
根据预设的数据分类模型确定所述目标数据属于各个预定类的概率,其中,所述数据分类模型是根据过滤后的多个样本数据建立的模型;
基于所述目标数据属于各个预定类的概率,得到所述目标数据的分类结果;
输出所述分类结果。
2.根据权利要求1所述的方法,其特征在于,根据预设的数据分类模型确定所述目标数据属于各个预定类的概率包括:
根据所述数据分类模型中记录的正态分布密度函数,计算所述目标数据属于每个预定类中每个属性的属性概率,其中,每个预定类包括多个属性;
计算每个预定类中多个属性的属性概率的加权值,得到所述目标数据属于每个预定类的概率。
3.根据权利要求1或2所述的方法,其特征在于,基于所述目标数据属于各个预定类的概率,得到所述目标数据的分类结果包括:
将最大概率值对应的预定类,确定为所述目标数据所属的预定类。
4.根据权利要求1所述的方法,其特征在于,在根据预设的数据分类模型确定所述目标数据属于各个预定类别的概率之前,所述方法还包括:
采集所述多个样本数据,其中,所述样本数据中的每个样本包括多个类,每个类包括多个属性;
对所述多个样本数据进行无效数据过滤,得到过滤后的数据,其中,所述无效数据为所述样本数据中属性值缺失率超过预设阈值的数据;
对所述每个类的每个属性分别计算所述样本数据的属性分布;
根据所述属性分布建立数据分类模型。
5.根据权利要求4所述的方法,其特征在于,在对所述多个样本数据进行无效数据过滤,得到过滤后的数据之后,所述方法还包括:
计算所述每个类的每个属性的数据的均值和标准差;
过滤掉与所述均值的差值超过两倍标准差的数据。
6.根据权利要求4所述的方法,其特征在于,在对所述多个样本数据进行无效数据过滤,得到过滤后的数据之后,所述方法还包括:
对所述样本数据进行向量化表示,得到向量化数据。
7.一种数据处理装置,其特征在于,包括:
接收单元,用于接收目标数据;
确定单元,用于根据预设的数据分类模型确定所述目标数据属于各个预定类的概率,其中,所述数据分类模型是根据过滤后的多个样本数据建立的模型;
处理单元,用于基于所述目标数据属于各个预定类的概率,得到所述目标数据的分类结果;
输出单元,用于输出所述分类结果。
8.根据权利要求7所述的装置,其特征在于,所述确定单元包括:
根据所述数据分类模型中记录的正态分布密度函数,计算所述目标数据属于每个预定类中每个属性的属性概率,其中,每个预定类包括多个属性;
计算单元,用于计算每个预定类中多个属性的属性概率的加权值,得到所述目标数据属于每个预定类的概率。
9.根据权利要求7或8所述的装置,其特征在于,所述处理单元具体用于:
将最大概率值对应的预定类,确定为所述目标数据所属的预定类。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
采集单元,用于在根据预设的数据分类模型确定所述目标数据属于各个预定类别的概率之前,采集所述多个样本数据,其中,所述样本数据中的每个样本包括多个类,每个类包括多个属性;
过滤单元,用于对所述多个样本数据进行无效数据过滤,得到过滤后的数据,其中,所述无效数据为所述样本数据中属性值缺失率超过预设阈值的数据;
属性分布计算单元,用于对所述每个类的每个属性分别计算所述样本数据的属性分布;
建立单元,用于根据所述属性分布建立数据分类模型。
CN201610788322.6A 2016-08-31 2016-08-31 数据处理方法和装置 Pending CN106447385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610788322.6A CN106447385A (zh) 2016-08-31 2016-08-31 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610788322.6A CN106447385A (zh) 2016-08-31 2016-08-31 数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN106447385A true CN106447385A (zh) 2017-02-22

Family

ID=58165396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610788322.6A Pending CN106447385A (zh) 2016-08-31 2016-08-31 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106447385A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919706A (zh) * 2017-03-10 2017-07-04 广州视源电子科技股份有限公司 数据更新的方法及装置
CN109670940A (zh) * 2018-11-12 2019-04-23 深圳壹账通智能科技有限公司 基于机器学习的信用风险评估模型生成方法及相关设备
CN110163171A (zh) * 2019-05-27 2019-08-23 北京字节跳动网络技术有限公司 用于识别人脸属性的方法和装置
CN112307133A (zh) * 2020-10-29 2021-02-02 平安普惠企业管理有限公司 安全防护方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919706A (zh) * 2017-03-10 2017-07-04 广州视源电子科技股份有限公司 数据更新的方法及装置
CN109670940A (zh) * 2018-11-12 2019-04-23 深圳壹账通智能科技有限公司 基于机器学习的信用风险评估模型生成方法及相关设备
CN110163171A (zh) * 2019-05-27 2019-08-23 北京字节跳动网络技术有限公司 用于识别人脸属性的方法和装置
CN112307133A (zh) * 2020-10-29 2021-02-02 平安普惠企业管理有限公司 安全防护方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN106021362B (zh) 查询式的图片特征表示的生成、图片搜索方法和装置
CN108921206A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN104573729B (zh) 一种基于核主成分分析网络的图像分类方法
CN108256568A (zh) 一种植物种类识别方法以及装置
CN106447385A (zh) 数据处理方法和装置
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN104572775B (zh) 广告分类方法、装置及服务器
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN104657466B (zh) 一种基于论坛帖子特征的用户兴趣识别方法及装置
CN108205580A (zh) 一种图像检索方法、装置及计算机可读存储介质
CN111445304B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN110489449A (zh) 一种图表推荐方法、装置和电子设备
CN108153781A (zh) 提取业务领域的关键词的方法和装置
CN110503143A (zh) 基于意图识别的阈值选取方法、设备、存储介质及装置
CN106980667A (zh) 一种给文章标注标签的方法和装置
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
CN111460315A (zh) 社群画像构建方法、装置、设备及存储介质
CN107122395A (zh) 数据抽样方法和装置
CN110287373A (zh) 基于评分预测和用户特征的协同过滤电影推荐方法及系统
CN108537177A (zh) 一种基于深度卷积神经网络的菜谱识别方法
CN110874835B (zh) 作物叶部病害抗性鉴定方法、系统、电子设备及存储介质
CN112241820B (zh) 资金流动中关键节点的风险识别方法、装置及计算设备
CN108628875A (zh) 一种文本标签的提取方法、装置及服务器
CN114820219B (zh) 一种基于复杂网络的欺诈社团识别方法及系统
CN106874286A (zh) 一种筛选用户特征的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wuxi District of Jiangsu city of Wuxi province Zhenze road 214000 No. 18 Wuxi (National) Software Park Dolphin C seat 2, 3 floor

Applicant after: Wuxi private online Polytron Technologies Inc

Address before: Wuxi District of Jiangsu city of Wuxi province Zhenze road 214000 No. 18 Wuxi (National) Software Park Dolphin C seat 2, 3 floor

Applicant before: Wuxi Yazuo Online Technology Development Co., Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication