CN106055911A - 一种基于组合归一的量化指标评价方法 - Google Patents

一种基于组合归一的量化指标评价方法 Download PDF

Info

Publication number
CN106055911A
CN106055911A CN201610420573.9A CN201610420573A CN106055911A CN 106055911 A CN106055911 A CN 106055911A CN 201610420573 A CN201610420573 A CN 201610420573A CN 106055911 A CN106055911 A CN 106055911A
Authority
CN
China
Prior art keywords
value
normalization
logarithm
norm
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610420573.9A
Other languages
English (en)
Inventor
文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Technology (shanghai) Co Ltd
Original Assignee
Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Technology (shanghai) Co Ltd filed Critical Information Technology (shanghai) Co Ltd
Priority to CN201610420573.9A priority Critical patent/CN106055911A/zh
Publication of CN106055911A publication Critical patent/CN106055911A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于组合归一的量化指标评价方法,具体公开了一种基于组合归一的量化指标评价方法。本发明包括:第一步为输入样本;第二步为预归一化;第三步为对数logistic归一化;第四步为输出归一化后样本。本发明能够克服单一归一化方法带来的缺陷,同时该方法可以按照指标分布自适应的确定对数转换模型。本发明提出的方法可广泛使用于在线商品的量化属性评估,可以根据商品属性特征和分布选择不同的对数logistic转换模型进行归一,本发明是量化商品评价指标的基础。

Description

一种基于组合归一的量化指标评价方法
技术领域
本发明涉及一种基于组合归一的量化指标评价方法,属于计算机应用技术领域。
背景技术
互联网商品的种类众多,例如电子商务网站的各种商品、在线阅读网站的书籍等,对于特定的网站的特定商品而言,一般都具备多个维度的不同量级的评价指标,如用户访问量、用户购买量、商品价格、平均用户评价等,这些指标是对商品不同维度的刻画,同时指标间的量级存在不同,访问量数据量级>购买量>评价量。由于各量化指标重要程度不同,量级也存在巨大的差异,因此在度量和量化商品时,需要将商品的各量化指标进行归一化。
数据归一化,或称数据标准化,是数据挖掘的一项基础工作,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。数据归一化方法众多,如极差归一化、Z标准化、对数标准化等等。
1.极差归一化表示如下:
新数据=(原数据–最小值)/(最大值–最小值);
2.Z标准化表示如下:
新数据=(原数据–均值)/标准差,其中均值、方差为原数据集合的均值和标准差;
3.对数标准化表示如下:
新数据=1/(1+h^(-原数据))。
以上归一化方法中,1、2属于线性变化,3属于非线性变化(logistic变化)。由于各指标数据分布不一,且数量级也不同,当归一化后的标准区间为[0,1]时,各种归一化方法中总是存在不同的缺陷:极差归一化方法对偏离的极大值极小值及其敏感;z标准化无法将原数据归一化到同一个闭区间;对数标准化要求原数据的取值区间从负无穷到正无穷。
发明内容
为了克服上述的缺陷,本发明提出一种基于组合归一的量化指标评价方法。
本发明采取方案如下:
第一步:输入样本;
第二步:预归一化,
第三步:对数logistic归一化,对数logistic归一化满足条件为属性值排序列表第q百分位数的归一化后的值为value,表示为第q百分位数的norm=value;对数logistic归一化实现步骤包括,
①对属性属性fi预归一化后的值列表,设第q百分位数为vq,归一化后的值为value;
②设对数转换函数为norm(x)=1/(1+h^(-x)),且norm(vq)=value;可设value=0.95或者value=0.8,即假设第q百分位数归一化的值为0.95或者0.8;
③数值归一化,即利用②中的q和value计算出对数转换函数的参数h,并进行所有属性值的归一化;利用第三步中的对数logistic归一化公式,对各属性值进行归一化;设物品k输入的特征向量v’=(v’1k,v’2k,……v’nk),归一化后输出为w=(w1k,w2k,……wnk);其中n表示特征向量的长度;
第四步:输出归一化后样本。
所述第二步的预归一化包括,便利属性特征矩阵计算属性fi的均值和方差,i≥1,z-score标准化预归一化后,各属性值表现为减去均值,然后除以该属性的标准差;转换后物品k的特征向量为v=(v1k,v2k,……vnk),其中n特征向量长度。
所述第四步输出归一化后样本的过程为;对特征向量v’=(v’1k,v’2k,……v’nk)中的每个值运用上述所求的归一化函数进行归一,输出为w=(w1k,w2k,……,wnk);即wik=norm(v’ik)。
第三步的③中涉及到的参数h的计算方法如下,
根据②中的对数归一化函数,由于norm(第q百分位数)=norm(vq)=/(1+h^(-vq))=value,得h=(value/(1-value))^(1/vq);
第三步的③中归一化的方法如下,
对数归一化函数为:norm(x)=1/(1+h^(-x)),其中h=(value/(1-value))^(1/vq)。
本发明的有益效果:
本发明提出了一种基于组合归一的量化指标评价方法,该方法能够克服单一归一化方法带来的种种缺陷,同时该方法可以按照指标分布自适应的确定对数转换模型,对于条件第q百分位数归一化的值为value,可以设定q和value的不同值来确定转换模型。本发明提出的方法可广泛使用于在线商品的量化属性评估,可以根据商品属性特征和分布选择不同的对数logistic转换模型进行归一,是量化商品评价指标的基础。
附图说明
图1示例性地示出了本发明的流程示意图。
具体实施方式
下面结合附图对本发明做进一步说明,
假设:物品的个数为n,量化指标数目为m,物品存在量化指标f1,f2,……fm,这些量化指标可以为点击量、购买量、评论量等数值型变量,即存在n个数值类型的属性特征;物品k的量化特征向量为v=(v1k,v2k,……vnk),其中vik表示物品k在属性i的值。
如图1所示:本发明包括如下步骤:
本发明包括如下步骤:
第一步:输入样本;
第二步:预归一化;
第三步:对数logistic归一化;
第四步:输出归一化后样本。
所述第一步后的样本k的初始特征向量为:v=(v1k,v2k,……vnk),其中n特征向量长度;
所述第二步的预归一化包括,便利属性特征矩阵计算属性fi的均值和方差,i≥1,z-score标准化预归一化后,各属性值表现为减去均值,然后除以该属性的标准差;转换后物品k的特征向量为v’=(v’1k,v’2k,……v’nk);
所述第三步的对数logistic归一化满足条件为属性值排序列表第q百分位数的归一化后的值为value,表示为第q百分位数归一化后的值为value;
对数logistic归一化实现步骤包括,
①对属性属性fi预归一化后的值列表,设第q百分位数为vq,归一化后的值为value;
②设对数转换函数为norm(x)=1/(1+h^(-x)),且norm(vq)=value;可设value=0.95或者value=0.8,即假设第q百分位数归一化的值为0.95或者0.8;
③数值归一化,即利用②中的q和value计算出对数转换函数的参数h,并进行所有属性值的归一化。
利用第三步中的对数logistic归一化公式,对各属性值进行归一化;设物品k输入的特征向量v’=(v’1k,v’2k,……v’nk),归一化后输出为w=(w1k,w2k,……wnk);其中n表示特征向量的长度。
③中参数h的计算方法如下,
根据②中的对数归一化函数,由于norm(第q百分位数)=norm(vq)=/(1+h^(-vq))=value,得h=(value/(1-value))^(1/vq);
③中归一化的方法如下,
对数归一化函数为:norm(x)=1/(1+h^(-x)),其中h=(value/(1-value))^(1/vq)。
所述第四步输出归一化后样本的过程为:对特征向量v’=(v’1k,v’2k,……v’nk)中的每个值运用上述所求的归一化函数进行归一,输出为w=(w1k,w2k,……,wnk);即wik=norm(v’ik)。上述所求的对数归一化转换函数为sigmoid函数,sigmoid函数可以确保输出属于(0,1)区间,同时norm(0)=0.5,由于本发明已经对原始输入进行了预归一化,当特征值输入小于均值,即输入特征值减去均值小于零,输出小于0.5;当特征值输入大于平均值,即输入特征值减去均值大于零,其值大于0.5。
本发明能够克服单一归一化方法带来的种种缺陷,同时该方法可以按照指标分布自适应的确定对数转换模型,对于条件第q百分位数vq,norm(vq)=value,可以设定q和value的不同值来确定转换模型。本发明提出的方法可广泛使用于在线商品的量化属性评估,可以根据商品属性特征和分布选择不同的对数logistic转换模型进行归一,是量化商品评价指标的基础。
对于本领域的普通技术人员而言,上述实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (4)

1.一种基于组合归一的量化指标评价方法,其特征在于:包括如下步骤;
第一步:输入样本;
第二步:预归一化,
第三步:对数logistic归一化,对数logistic归一化满足条件为属性值排序列表第q百分位数的归一化后的值为value,表示为第q百分位数的norm=value;对数logistic归一化实现步骤包括,
①对属性属性fi预归一化后的值列表,设第q百分位数为vq,归一化后的值为value;
②设对数转换函数为norm(x)=1/(1+h^(-x)),且norm(vq)=value;可设value=0.95或者value=0.8,即假设第q百分位数归一化的值为0.95或者0.8;
③数值归一化,即利用②中的q和value计算出对数转换函数的参数h,并进行所有属性值的归一化;利用第三步中的对数logistic归一化公式,对各属性值进行归一化;设物品k输入的特征向量v’=(v’1k,v’2k,……v’nk),归一化后输出为w=(w1k,w2k,……wnk);其中n表示特征向量的长度;
第四步:输出归一化后样本。
2.根据权利要求1所述的基于组合归一的量化指标评价方法,其特征在于:所述第二步的预归一化包括,便利属性特征矩阵计算属性fi的均值和方差,i≥1,z-score标准化预归一化后,各属性值表现为减去均值,然后除以该属性的标准差;转换后物品k的特征向量为v=(v1k,v2k,……vnk),其中n特征向量长度。
3.根据权利要求1所述的基于组合归一的量化指标评价方法,其特征在于:所述第四步输出归一化后样本的过程为;对特征向量v’=(v’1k,v’2k,……v’nk)中的每个值运用上述所求的归一化函数进行归一,输出为w=(w1k,w2k,……,wnk);即wik=norm(v’ik)。
4.根据权利要求1所述的基于组合归一的量化指标评价方法,其特征在于:第三步的③中涉及到的参数h的计算方法如下,
根据②中的对数归一化函数,由于norm(第q百分位数)=norm(vq)=/(1+h^(-vq))=value,得h=(value/(1-value))^(1/vq);
第三步的③中归一化的方法如下,
对数归一化函数为:norm(x)=1/(1+h^(-x)),其中h=(value/(1-value))^(1/vq)。
CN201610420573.9A 2016-06-13 2016-06-13 一种基于组合归一的量化指标评价方法 Pending CN106055911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610420573.9A CN106055911A (zh) 2016-06-13 2016-06-13 一种基于组合归一的量化指标评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610420573.9A CN106055911A (zh) 2016-06-13 2016-06-13 一种基于组合归一的量化指标评价方法

Publications (1)

Publication Number Publication Date
CN106055911A true CN106055911A (zh) 2016-10-26

Family

ID=57168084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610420573.9A Pending CN106055911A (zh) 2016-06-13 2016-06-13 一种基于组合归一的量化指标评价方法

Country Status (1)

Country Link
CN (1) CN106055911A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886517A (zh) * 2017-12-06 2019-06-14 中国石油天然气股份有限公司 一种油气层保护效果评价方法
CN110110176A (zh) * 2018-02-01 2019-08-09 新奥科技发展有限公司 一种数据显示方法及装置
CN111581499A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种数据归一化方法、装置、设备及可读存储介质
CN111723119A (zh) * 2019-03-18 2020-09-29 北京京东尚科信息技术有限公司 一种筛选方法及装置、存储介质
CN112651950A (zh) * 2020-12-30 2021-04-13 珠海碳云智能科技有限公司 数据处理方法、样本分类方法、模型训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470607A (zh) * 2007-12-29 2009-07-01 北京天融信网络安全技术有限公司 一种数据归一化方法
EP2157523A2 (en) * 2008-08-14 2010-02-24 Bond Innovation 1 Pty Ltd Cancer diagnostic method and system
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470607A (zh) * 2007-12-29 2009-07-01 北京天融信网络安全技术有限公司 一种数据归一化方法
EP2157523A2 (en) * 2008-08-14 2010-02-24 Bond Innovation 1 Pty Ltd Cancer diagnostic method and system
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886517A (zh) * 2017-12-06 2019-06-14 中国石油天然气股份有限公司 一种油气层保护效果评价方法
CN110110176A (zh) * 2018-02-01 2019-08-09 新奥科技发展有限公司 一种数据显示方法及装置
CN111723119A (zh) * 2019-03-18 2020-09-29 北京京东尚科信息技术有限公司 一种筛选方法及装置、存储介质
CN111581499A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种数据归一化方法、装置、设备及可读存储介质
CN112651950A (zh) * 2020-12-30 2021-04-13 珠海碳云智能科技有限公司 数据处理方法、样本分类方法、模型训练方法及装置
CN112651950B (zh) * 2020-12-30 2023-09-29 珠海碳云诊断科技有限公司 数据处理方法、样本分类方法、模型训练方法及装置

Similar Documents

Publication Publication Date Title
Wei et al. EDAS method for probabilistic linguistic multiple attribute group decision making and their application to green supplier selection
CN111553759A (zh) 一种产品信息推送方法、装置、设备及存储介质
CN106055911A (zh) 一种基于组合归一的量化指标评价方法
Sagaert et al. Temporal big data for tactical sales forecasting in the tire industry
CN111401777A (zh) 企业风险的评估方法、装置、终端设备及存储介质
CN107886241B (zh) 资源分析方法、装置、介质和电子设备
CN110704730A (zh) 基于大数据的产品数据推送方法、系统及计算机设备
CN112750029A (zh) 信用风险预测方法、装置、电子设备及存储介质
CN109815480B (zh) 一种数据处理方法和装置、及存储介质
Fan et al. Improved ML‐based technique for credit card scoring in Internet financial risk control
CN111639102B (zh) 客户数据资源共享方法、装置及电子设备
Mete et al. Impact of knowledge management performance on the efficiency of R&D active firms: Evidence from Turkey
CN108647714A (zh) 负面标签权重的获取方法、终端设备及介质
CN113408582B (zh) 特征评估模型的训练方法及装置
Xia et al. The research of online shopping customer churn prediction based on integrated learning
CN112949854A (zh) 多渠道用户购车意愿评估模型训练方法、装置及设备
Chevallier et al. Cross-market linkages between commodities, stocks and bonds
CN114707733A (zh) 风险指标的预测方法、装置、电子设备及存储介质
CN114493200A (zh) 企业品牌价值的在线评估方法、装置、设备及存储介质
Niknya et al. Financial distress prediction of Tehran Stock Exchange companies using support vector machine
Hessami Business risk evaluation and management of Iranian commercial insurance companies
CN114925895A (zh) 维修器材预测方法、终端及存储介质
CN115718740A (zh) 用于稀疏时间序列数据集的数据插补的方法和装置
Shybaiev et al. Predicting system for the estimated cost of real estate objects development using neural networks
Ayaz et al. Disruptive artificial intelligence (AI) use-cases in insurance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026