CN109213833A - 二分类模型训练方法、数据分类方法及对应装置 - Google Patents
二分类模型训练方法、数据分类方法及对应装置 Download PDFInfo
- Publication number
- CN109213833A CN109213833A CN201811052418.1A CN201811052418A CN109213833A CN 109213833 A CN109213833 A CN 109213833A CN 201811052418 A CN201811052418 A CN 201811052418A CN 109213833 A CN109213833 A CN 109213833A
- Authority
- CN
- China
- Prior art keywords
- discrete
- value
- training
- characteristic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000013145 classification model Methods 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 12
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及机器学习技术领域,提供一种二分类模型训练方法、数据分类方法及对应装置。其中,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,二分类模型训练方法包括:统计离散型特征的不同的特征值在训练集的正样本中出现的次数;基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;将训练样本中的离散型特征的特征值替换为对应的编码值;利用更新后的训练样本训练二分类模型。结构化数据中的离散型特征被上述方法编码后,其特征值被转化为连续值,从而可以被现有的机器学习算法正确地处理,正常地用于训练二分类模型。同时,编码过程简单高效,不会导致维灾难问题。
Description
技术领域
本发明涉及机器学习技术领域,具体而言,涉及一种二分类模型训练方法、数据分类方法及对应装置。
背景技术
随着大数据的兴起与人工智能的发展,越来越多的企业开始重视企业自身数据的利用与挖掘。企业的数据来源广泛,有人力资源数据、财务数据、产品设计数据、产品生产数据、库存数据、设备维护数据、市场数据等,这些数据中有些是连续型的,有一些则离散型的。在一些业务系统中直接用字符表示离散型特征,比如性别特征,用M表示男,F表示女,这些离散特征在数据进行机器学习算法前必须进行处理,将字符转换成数值,一些常用的机器学习算法才能正确处理。另一些业务系统用整型数字表示离散型特征,比如性别特征,用1表示男,0表示女,但与上面采用字符表示的方式没有本质区别,在很多机器学习算法中仍然要谨慎对待这样的离散型特征。
针对离散型特征,已有一些技术可将其转换成大部分机器学习算法可以接受的数值型特征,比如哑变量编码与One-hot编码,但这些编码技术只适合在离散型特征是低势特征的情况下使用。其中,特征的势是指离散型特征可取的不同的特征值数量,例如性别特征只有男女两个特征值可取,因此属于低势特征,邮政编码有大量的值可取,因此属于高势特征。如果离散型特征是高势特征,采用这些编码技术后获得的新特征维度过高,甚至导致维灾难问题。另一些编码技术虽然能够处理高势特征,但算法过于复杂,计算资源消耗量极大,实用价值不高。
发明内容
有鉴于此,本发明实施例提供一种二分类模型训练方法、数据分类方法及对应装置,有效地处理结构化数据中的离散型特征,处理后的结构化数据能够直接用于二分类模型的训练或者被二分类模型分类。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种二分类模型训练方法,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,方法包括:
统计离散型特征的不同的特征值在训练集的正样本中出现的次数;
基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;
将训练样本中的离散型特征的特征值替换为对应的编码值;
在对训练样本中的每个离散型特征都完成特征值替换后,利用更新后的训练样本训练二分类模型。
第二方面,本发明实施例提供一种数据分类方法,用于对数据样本进行分类,数据样本为结构化数据,结构化数据中包括至少一个离散型特征,方法包括:
获得利用本发明实施例提供的二分类模型训练方法训练出的二分类模型,以及离散型特征的特征值对应的编码值;
将数据样本中的离散型特征的特征值替换为对应的编码值;
在对数据样本中的每个离散型特征都完成特征值替换后,将更新后的数据样本输入至二分类模型进行分类。
第三方面,本发明实施例提供一种二分类模型训练装置,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,装置包括:
次数统计模块,用于统计离散型特征的不同的特征值在训练集的正样本中出现的次数;
编码值计算模块,用于基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;
编码值替换模块,用于将训练样本中的离散型特征的特征值替换为对应的编码值;
模型训练模块,用于在对训练样本中的每个离散型特征都完成特征值替换后,利用更新后的训练样本训练二分类模型。
第四方面,本发明实施例提供一种数据分类装置,用于对数据样本进行分类,数据样本为结构化数据,结构化数据中包括至少一个离散型特征,装置包括:
模型获取模块,用于获得利用本发明实施例提供的二分类模型训练方法训练出的二分类模型,以及离散型特征的特征值对应的编码值;
编码值替换模块,用于将数据样本中的离散型特征的特征值替换为对应的编码值;
分类模块,用于在对数据样本中的每个离散型特征都完成特征值替换后,将更新后的数据样本输入至二分类模型进行分类。
第五方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供的方法的步骤。
第六方面,本发明实施例提供一种电子设备,包括存储器以及处理器,存储器中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。
本发明提供的技术方案至少包括如下有益效果:在本发明实施例提供二分类模型训练方法以及分类方法中,基于离散型特征的不同的特征值在训练集中的正样本中出现的概率(即特征值出现的次数与正样本的总个数的比值)对离散型特征进行编码,将其特征值由离散型值转化为连续型值。从而编码后的结构化数据可以被现有的机器学习算法正确地处理,即可以正常地用于训练二分类模型或者输入至训练好的二分类模型进行分类。同时,本发明实施例中对离散型特征的编码结果与特征的势无关,不会导致维灾难问题。此外,根据方法的步骤描述可知,编码值的计算过程非常简单高效,极大地缩减了对结构化数据进行预处理的时间,有效提升了数据建模的效率。
为使本发明的上述目的、技术方案和有益效果能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本发明实施例中的电子设备100的结构框图;
图2示出了本发明实施例提供的二分类模型训练方法的流程图;
图3示出了本发明实施例提供的二级哈希映射表的结构示意图;
图4示出了本发明第实施例提供的数据分类方法的流程图;
图5示出了本发明实施例提供的二分类模型训练装置的功能模块图;
图6示出了本发明实施例提供的数据分类装置的功能模块图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来,而不能理解为指示或暗示相对重要性,也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了一种可应用于本发明实施例中的电子设备100的结构框图。参照图1,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108,这些组件通过总线系统112和/或其他形式的连接机构(未示出)互连。
处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备100中的其他组件以执行期望的功能。
存储装置104可以各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行计算机程序指令,以实现下文的本发明实施例中的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
可以理解,图1所示的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中,电子设备100可以是服务器、个人计算机、移动设备、智能穿戴设备、车载设备等设备,也可以不限于物理设备,例如可以是虚拟机、云服务器等。
图2示出了本发明实施例提供的二分类模型训练方法的流程图。训练模型所使用的训练集中的训练样本均为结构化数据,例如一个训练样本可以是关系型数据库的表格中的一条记录,该结构化数据中包括至少一个离散型特征,例如表格中只能取离散型值的字段,离散型特征的特征值就是指离散型特征可能的取值,该值既可以是字符型的,也可以是数值型的,还可能是其他类型的,总之离散型特征的特征值只有有限种可能的取值。参照图2,该方法包括:
步骤S10:电子设备100的处理器102统计离散型特征的不同的特征值在训练集的正样本中出现的次数。
在二分类问题中,正样本和负样本的概念是相对的,被标记为一种分类的样本认为是正样本,被标记为另一种分类的样本被认为是负样本。例如,某一二分类模型用于预测病人是否患癌症,则患有癌症的病人对应的结构化数据就是正样本,未患有癌症的病人对应的结构化数据就是负样本,由于步骤S10处理的对象是测试集中的训练样本,这些样本都已经做过标记,因此哪些样本是正样本,哪些样本是负样本是已知的。
对于不同特征值出现的次数的统计,在结构化数据中是现有的方法,例如在关系型数据库的表格中,通过编写相应的SQL语句就可以进行统计。
步骤S11:电子设备100的处理器102基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值。
离散型特征的特征值出现的次数与正样本的总个数的比值也就是该特征值在所有正样本中出现的概率,在一种实施方式中,可以直接将这个概率定义为编码值,即利用(1)式计算编码值
其中,为离散型特征f的特征值vi在所有正样本中出现的次数,即步骤S10的统计结果,N+为正样本的总个数,显然,编码值是一个0至1之间的数值。在其他一些实施方式中,(1)式可以适当地扩展,编码值只要和离散型特征的特征值出现的次数与正样本的总个数的比值相关就可以了,例如可以是线性关系,此时,(1)式可以写作:
其中,a为非零的常数,b为任意常数,(1)式可以看作是(2)式在a=1,b=0时的特殊情况。
获得编码值后,可以将其缓存起来,在后续步骤中需要的时候再读取使用。
步骤S12:电子设备100的处理器102将训练样本中的离散型特征的特征值替换为对应的编码值。
以步骤S11中公式内的符号为例,步骤S12就是将训练样本中的离散特征f的特征值vi替换为编码值的过程,即对离散特征进行编码。由于编码值是连续型的数值,因此替换后离散型特征的特征值由离散型的转化为连续型的。
特别的,在步骤S11中已经指出,如果编码值通过(1)式定义,则其实际上表示一个概率,取值在0至1之间。因此在完成特征值的替换后,无需对编码值进行进一步的规范化或标准化。
步骤S13:电子设备100的处理器102在对训练样本中的每个离散型特征都完成特征值替换后,利用更新后的训练样本训练二分类模型。
步骤S10至步骤S12是针对训练样本中的每个离散型特征都要执行的步骤,即每个离散型特征的每个特征值都要被替换为对应的编码值。在完成所有的替换后,从特征的取值上看,训练样本中实质上已经不存在离散型特征,因此将更新后的训练样本作为输入,训练二分类模型是可行的,其中涉及的现有机器学习算法能够正确处理这样的训练样本并完成模型的训练。
在步骤S13中,并不限训练的二分类模型的种类,例如可以是支持向量机模型,神经网络模型等。
综上所述,本发明实施例提供二分类模型训练方法基于离散型特征的不同的特征值在训练集中的正样本中出现的概率对离散型特征进行编码,将其特征值由离散型的值转化为连续型的值。从而编码后的结构化数据可以被现有的机器学习算法正确地处理,进而完成二分类模型的训练。
同时,根据上述编码值的计算方法,编码值就是一个普通的数值,对其进行表示至多只要几个字节就够了,编码结果数据量不大,不会导致维灾难之类的问题。
此外,根据方法的步骤描述可知,离散型特征编码的主要的时间花销在于统计离散型特征的特征值在正样本中出现的次数,但这样的时间花销完全在可接受的范围内,相较于现有技术中一些复杂的编码算法,其编码过程非常高效,极大地缩减了在训练模型之前对结构化数据进行预处理的时间,有效提升了数据建模的效率。
在本发明实施例的一种实施方式中,在步骤S10执行之前,电子设备100的处理器102还可以对训练样本进行预处理,消除特征值为空值(缺失值)的情况,以使训练样本在后续机器学习环节中可以正常使用。实际上,无论是否为离散型特征,都可以进行消除空值的处理,由于本发明提出的方法主要针对离散型特征,因此在这里只讨论对于离散型特征中空值的处理。
在确定任一训练样本中的任一离散型特征的特征值为空值时,可以采取传统的方法进行处理,例如从训练样本中删除该离散型特征(用于离散型特征的特征值基本上全是空值的情况),众数替换(用离散型特征的特征值中的众数替换空值),SMOTE方法等。或者,也可以将样本中为空值的特征值设置为第一预设值,注意,第一预设值不同于该离散型特征当前的任一可能的特征值。这种处理方法相当于将空值转换为一个人为指定的特征值,在后续步骤中,该人为指定的特征值和离散型特征本来的特征值地位是相同的,采用同样的方法进行处理、编码。需要指出的是,不同的离散型特征,在替换空值时可以采用同一个值,也可以采用不同的值。
在本发明实施例的一种实施方式中,在步骤S10执行之后,在步骤S11执行之前,方法还可以包括如下的步骤:
步骤A:电子设备100的处理器102将离散型特征中出现的次数小于预设次数的特征值替换为第二预设值,第二预设值不同于离散型特征当前的任一可能的特征值。
预设次数通常是指一个低频阈值。步骤A实际上就是将离散型特征的在正样本中出现频率较低的那些特征值进行合并,统一替换为第二预设值。这样的合并操作可以降低离散型特征的势,节约后续的计算开销。此外,对于数据建模而言,一些低频特征值可以视为建模过程中的噪声,将其合并以后可以改善建模质量。
作为一种可选的方案,上述预设次数可以根据训练出的二分类模型的实际分类结果进行调整,以优化模型的分类性能。
步骤B:电子设备100的处理器102重新统计离散型特征的不同的特征值在训练集的正样本中出现的次数。
执行步骤A之后,离散型特征产生了一个新的特征值,在步骤S10中并未统计其在正样本中出现的次数,因此需要重新进行统计。作为一种简单的方式,将要进行合并的特征值出现的次数累加起来就可以了,对于离散型特征的其他特征值,在步骤S10中统计出的结果仍然可以继续使用。
在步骤S10中可以采用预设的数据结构存储次数统计结果。为提高访问效率,便于快速查找,在本发明实施例的一种实施方式中,上述数据结构采用二级哈希映射表,图3示出了本发明实施例提供的二级哈希映射表的结构示意图。参照图3,顾名思义,该哈希映射表分为两级,第一级存储离散型字段的标识(如名称、id等),第二级存储离散型特征的不同的特征值以及该特征值出现的次数。其中每一级都采用哈希的方式进行存储,第二级是从属于第一级的,例如在图2中,离散型特征f2包括三个不同的特征值v1、v2以及v3,其在正样本中出现的次数分别为12、899、234。在步骤S11中计算概率时,直接从该二级哈希映射表读取统计结果即可,速度很快。
进一步的,对于每个特征值对应的编码值也可以存储在上述二级哈希映射表中,例如可以存储在第二级,每个特征值对应一个编码值。此时该哈希映射表可以视为一个编码表,在步骤S13中进行特征值的替换时,直接从编码表中查找编码值即可完成替换,简单方便。
图4示出了本发明第实施例提供的数据分类方法的流程图。该方法用于对数据样本进行分类(二分类),数据样本为结构化数据,结构化数据中包括至少一个离散型特征。这里所称的数据样本,一般是指训练集之外的数据样本,例如测试集中的样本或者其他数据集中的样本。参照图4,该方法包括:
步骤S20:电子设备100的处理器102获得利用本发明实施例提供的二分类模型训练方法训练出的二分类模型,以及离散型特征的特征值对应的编码值。
步骤S20的具体过程在前述实施例中已经阐述,这里不再重复阐述,其中,获得的编码值可以存储在一个编码表中,例如之前提到的二级哈希映射表。
步骤S21:电子设备100的处理器102将数据样本中的离散型特征的特征值替换为对应的编码值。
类似步骤S12,不再重复阐述,在有编码表时,直接从编码表中查找特征值对应的编码值。
步骤S22:电子设备100的处理器102在对数据样本中的每个离散型特征都完成特征值替换后,将更新后的数据样本输入至二分类模型进行分类。
在完成所有的替换后,从特征的取值上看,数据样本中实质上已经不存在离散型特征,因此将更新后的数据样本作为二分类模型的输入,二分类模型可以对其进行正确的分类,不会因为其中涉及的机器学习算法不支持离散型的值导致分类失败的情况。此外,由于对离散型特征的特征值的编码结果较为简单,因此在进行分类时计算量不大,分类效率较高。
图5示出了本发明实施例提供的二分类模型训练装置200的功能模块图。该装置用于训练二分类模型,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征。参照图5,该装置包括:
次数统计模块210,用于统计离散型特征的不同的特征值在训练集的正样本中出现的次数;
编码值计算模块220,用于基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;
编码值替换模块230,用于将训练样本中的离散型特征的特征值替换为对应的编码值;
模型训练模块240,用于在对训练样本中的每个离散型特征都完成特征值替换后,利用更新后的训练样本训练二分类模型。
本发明实施例提供的二分类模型训练装置200,其实现原理及产生的技术效果在前述方法实施例中已经介绍,为简要描述,装置实施例部分未提及之处,可参考方法施例中相应内容。
图6示出了本发明实施例提供的数据分类装置300的功能模块图。该装置用于对数据样本进行分类,数据样本为结构化数据,结构化数据中包括至少一个离散型特征。参照图6,该装置包括:
模型获取模块310,用于获得利用本发明实施例提供的二分类模型训练方法训练出的二分类模型,以及离散型特征的特征值对应的编码值;
编码值替换模块320,用于将数据样本中的离散型特征的特征值替换为对应的编码值;
分类模块330,用于在对数据样本中的每个离散型特征都完成特征值替换后,将更新后的数据样本输入至二分类模型进行分类。
本发明实施例提供的数据分类装置300,其实现原理及产生的技术效果在前述方法实施例中已经介绍,为简要描述,装置实施例部分未提及之处,可参考方法施例中相应内容。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供的方法的步骤。该计算机可读存储介质可以实现为,但不限于图1示出的存储装置104。
本发明实施例还提供一种电子设备,包括存储器以及处理器,存储器中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供的方法的步骤。该电子设备可以实现为,但不限于图1示出的电子设备100。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括:个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备,前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种二分类模型训练方法,其特征在于,训练集中的训练样本均为结构化数据,所述结构化数据中包括至少一个离散型特征,所述方法包括:
统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数;
基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值;
将所述训练样本中的所述离散型特征的特征值替换为对应的所述编码值;
在对所述训练样本中的每个离散型特征都完成特征值替换后,利用更新后的所述训练样本训练二分类模型。
2.根据权利要求1所述的二分类模型训练方法,其特征在于,所述基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值,包括:
利用如下公式计算所述离散型特征的特征值对应的所述编码值
其中,为所述离散型特征f的特征值vi出现的次数,N+为所述正样本的总个数,a为非零的常数,b为任意常数。
3.根据权利要求1所述的二分类模型训练方法,其特征在于,在所述统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数之前,所述方法还包括:
在确定任一训练样本中的任一离散型特征的特征值为空值时,对所述训练样本中的所述离散型特征进行预处理,以消除空值。
4.根据权利要求3所述的二分类模型训练方法,其特征在于,所述在确定任一训练样本中的任一离散型特征的特征值为空值时,对所述训练样本中的所述离散型特征进行预处理,以消除空值,包括:
在确定任一训练样本中的任一离散型特征的特征值为空值时,将所述训练样本中的所述离散型特征的特征值设置为第一预设值,其中,所述第一预设值不同于所述离散型特征当前的任一可能的特征值。
5.根据权利要求1所述的二分类模型训练方法,其特征在于,在所述统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数之后,以及在所述基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值之前,所述方法还包括:
将所述离散型特征中出现的次数小于预设次数的特征值替换为第二预设值,所述第二预设值不同于所述离散型特征当前的任一可能的特征值;
重新统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数。
6.根据权利要求5所述的二分类模型训练方法,其特征在于,在所述利用更新后的所述训练样本训练二分类模型之后,所述方法还包括:
根据所述二分类模型的分类结果更新所述预设次数。
7.根据权利要求1-6中任一项所述的二分类模型训练方法,其特征在于,所述统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数,包括:
统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数,统计结果存储在二级哈希映射表中,所述二级哈希映射表的第一级存储所述离散型特征的标识,所述二级哈希映射表的第二级存储所述离散型特征的不同的特征值出现的次数。
8.一种数据分类方法,其特征在于,用于对数据样本进行分类,所述数据样本为结构化数据,所述结构化数据中包括至少一个离散型特征,所述方法包括:
获得利用权利要求1-7中任一项所述的方法训练出的二分类模型,以及所述离散型特征的特征值对应的编码值;
将所述数据样本中的所述离散型特征的特征值替换为对应的所述编码值;
在对所述数据样本中的每个离散型特征都完成特征值替换后,将更新后的所述数据样本输入至所述二分类模型进行分类。
9.一种二分类模型训练装置,其特征在于,训练集中的训练样本均为结构化数据,所述结构化数据中包括至少一个离散型特征,所述装置包括:
次数统计模块,用于统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数;
编码值计算模块,用于基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值;
编码值替换模块,用于将所述训练样本中的所述离散型特征的特征值替换为对应的所述编码值;
模型训练模块,用于在对所述训练样本中的每个离散型特征都完成特征值替换后,利用更新后的所述训练样本训练二分类模型。
10.一种数据分类装置,其特征在于,用于对数据样本进行分类,所述数据样本为结构化数据,所述结构化数据中包括至少一个离散型特征,所述装置包括:
模型获取模块,用于获得利用权利要求1-7中任一项所述的方法训练出的二分类模型,以及所述离散型特征的特征值对应的编码值;
编码值替换模块,用于将所述数据样本中的所述离散型特征的特征值替换为对应的所述编码值;
分类模块,用于在对所述数据样本中的每个离散型特征都完成特征值替换后,将更新后的所述数据样本输入至所述二分类模型进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052418.1A CN109213833A (zh) | 2018-09-10 | 2018-09-10 | 二分类模型训练方法、数据分类方法及对应装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052418.1A CN109213833A (zh) | 2018-09-10 | 2018-09-10 | 二分类模型训练方法、数据分类方法及对应装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109213833A true CN109213833A (zh) | 2019-01-15 |
Family
ID=64987376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811052418.1A Pending CN109213833A (zh) | 2018-09-10 | 2018-09-10 | 二分类模型训练方法、数据分类方法及对应装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213833A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796179A (zh) * | 2019-10-12 | 2020-02-14 | 上海上湖信息技术有限公司 | 用于模型训练的样本数据处理方法及装置、存储介质、终端 |
CN111753920A (zh) * | 2020-06-30 | 2020-10-09 | 重庆紫光华山智安科技有限公司 | 特征构建方法、装置、计算机设备及存储介质 |
CN113420165A (zh) * | 2021-06-11 | 2021-09-21 | 北京达佳互联信息技术有限公司 | 二分类模型的训练、多媒体数据的分类方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168965A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 特征工程策略确定方法及装置 |
CN107392319A (zh) * | 2017-07-20 | 2017-11-24 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及系统 |
WO2017218908A2 (en) * | 2016-06-16 | 2017-12-21 | The Johns Hopkins University | Methods and system for epigenetic analysis |
US20180101784A1 (en) * | 2016-10-05 | 2018-04-12 | D-Wave Systems Inc. | Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers |
CN108256699A (zh) * | 2018-04-10 | 2018-07-06 | 张永新 | 基于高校学生立体数据的毕业去向预测方法及系统 |
-
2018
- 2018-09-10 CN CN201811052418.1A patent/CN109213833A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168965A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 特征工程策略确定方法及装置 |
WO2017218908A2 (en) * | 2016-06-16 | 2017-12-21 | The Johns Hopkins University | Methods and system for epigenetic analysis |
US20180101784A1 (en) * | 2016-10-05 | 2018-04-12 | D-Wave Systems Inc. | Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers |
CN107392319A (zh) * | 2017-07-20 | 2017-11-24 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及系统 |
CN108256699A (zh) * | 2018-04-10 | 2018-07-06 | 张永新 | 基于高校学生立体数据的毕业去向预测方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796179A (zh) * | 2019-10-12 | 2020-02-14 | 上海上湖信息技术有限公司 | 用于模型训练的样本数据处理方法及装置、存储介质、终端 |
CN111753920A (zh) * | 2020-06-30 | 2020-10-09 | 重庆紫光华山智安科技有限公司 | 特征构建方法、装置、计算机设备及存储介质 |
CN111753920B (zh) * | 2020-06-30 | 2022-06-21 | 重庆紫光华山智安科技有限公司 | 特征构建方法、装置、计算机设备及存储介质 |
CN113420165A (zh) * | 2021-06-11 | 2021-09-21 | 北京达佳互联信息技术有限公司 | 二分类模型的训练、多媒体数据的分类方法及装置 |
CN113420165B (zh) * | 2021-06-11 | 2024-03-05 | 北京达佳互联信息技术有限公司 | 二分类模型的训练、多媒体数据的分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Kernel sparse representation for time series classification | |
WO2023024407A1 (zh) | 基于相邻卷积的模型剪枝方法、装置及存储介质 | |
CN111986792B (zh) | 医疗机构评分方法、装置、设备及存储介质 | |
KR20170102884A (ko) | 대량의 구조화되지 않은 데이터 필드에서 기술적 및 의미론적 신호 처리 | |
CN109213833A (zh) | 二分类模型训练方法、数据分类方法及对应装置 | |
CN105183792B (zh) | 一种基于局部敏感哈希的分布式快速文本分类方法 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN110134852B (zh) | 一种文档的去重方法、设备及可读介质 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN111522953B (zh) | 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质 | |
CN112579783A (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN111611390A (zh) | 一种数据处理方法及装置 | |
CN113282433B (zh) | 集群异常检测方法、装置和相关设备 | |
Minka et al. | Virtual vector machine for Bayesian online classification | |
CN106294689B (zh) | 一种基于文本类特征选择进行降维的方法和装置 | |
CN112632000A (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
CN116861287A (zh) | 基于多标签演变高维文本流的在线半监督分类算法 | |
CN112308703B (zh) | 用户分群方法、装置、设备及存储介质 | |
CN115577082A (zh) | 文档关键词的提取方法、装置、电子设备及存储介质 | |
CN114385845A (zh) | 基于图聚类的影像分类管理方法及系统 | |
CN113032553B (zh) | 信息处理装置和信息处理方法 | |
CN114153977A (zh) | 一种异常数据检测方法及系统 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN112632229A (zh) | 文本聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190115 |