CN110633304A - 组合特征筛选方法、装置、计算机设备及存储介质 - Google Patents

组合特征筛选方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110633304A
CN110633304A CN201910752723.XA CN201910752723A CN110633304A CN 110633304 A CN110633304 A CN 110633304A CN 201910752723 A CN201910752723 A CN 201910752723A CN 110633304 A CN110633304 A CN 110633304A
Authority
CN
China
Prior art keywords
feature
combination
month
combined
variation coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910752723.XA
Other languages
English (en)
Other versions
CN110633304B (zh
Inventor
张海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910752723.XA priority Critical patent/CN110633304B/zh
Publication of CN110633304A publication Critical patent/CN110633304A/zh
Application granted granted Critical
Publication of CN110633304B publication Critical patent/CN110633304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了组合特征筛选方法、装置、计算机设备及存储介质。方法包括:根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵;根据预设的矩阵计算模型对所有单月二维矩阵进行计算以得到每一组合特征对应的特征计算信息;根据预设的变异系数计算模型对所有单月二维矩阵中的特征计算信息进行计算以得到每一组合特征对应的变异系数信息;根据预设的筛选规则及每一组合特征的变异系数信息对所有组合特征进行筛选以得到目标组合特征。本发明基于模型构建技术,能够更加高效地对组合特征进行针对性地筛选,以大幅提高对组合特征进行筛选的效率,以获取得到满足使用需求的组合特征。

Description

组合特征筛选方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种组合特征筛选方法、装置、计算机设备及存储介质。
背景技术
在基于神经网络构建分析模型、预测模型的过程中,需使用多个特征作为模型的输入节点,然而不同的特征在模型中的重要性存在较大区别,也即是不同的特征对模型的输出结果具有不同的影响,多个特征相互组合所得到的组合特征可用于体现组合特征之间的关联关系。传统的模型构建过程中均是将所有特征作为模型的输入节点,或是通过人工选择的方式对特征进行组合及筛选后将得到的部分组合特征作为模型的输入节点,然而通过人工选择的方式所选择得到的组合特征构建的模型无法获取客观、准确的输出结果,这一方法无法满足用户对组合特征的使用需求。因而,现有的技术方法存在对组合特征进行筛选的效率不高的问题。
发明内容
本发明实施例提供了一种组合特征筛选方法、装置、计算机设备及存储介质,旨在解决现有技术方法中所存在的组合特征筛选效率不高的问题。
第一方面,本发明实施例提供了一种组合特征筛选方法,其包括:
根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵;
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度;
根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数;
根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
第二方面,本发明实施例提供了一种组合特征筛选装置,其包括:
数据信息表二值化单元,用于根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵;
矩阵计算单元,用于根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度;
变异系数信息获取单元,用于根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数;
组合特征筛选单元,用于根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的组合特征筛选方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的组合特征筛选方法。
本发明实施例提供了一种组合特征筛选方法、装置、计算机设备及存储介质。根据组合特征从数据信息表中获取到多个单月二维矩阵,计算得到每一组合特征的特征计算信息并进一步计算得到每一组合特征的变异系数信息,根据筛选规则及变异系数信息对组合特征进行筛选得到目标组合特征。通过上述方法,能够更加高效地对组合特征进行针对性地筛选,以大幅提高对组合特征进行筛选的效率,以获取得到满足使用需求的组合特征,在实际应用过程中取得了良好的技术效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的组合特征筛选方法的流程示意图;
图2为本发明实施例提供的组合特征筛选方法的子流程示意图;
图3为本发明实施例提供的组合特征筛选方法的另一子流程示意图;
图4为本发明实施例提供的组合特征筛选方法的另一子流程示意图;
图5为本发明实施例提供的组合特征筛选方法的另一子流程示意图;
图6为本发明实施例提供的组合特征筛选装置的示意性框图;
图7为本发明实施例提供的组合特征筛选装置的子单元示意性框图;
图8为本发明实施例提供的组合特征筛选装置的另一子单元示意性框图;
图9为本发明实施例提供的组合特征筛选装置的另一子单元示意性框图;
图10为本发明实施例提供的组合特征筛选装置的另一子单元示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的组合特征筛选方法的流程示意图。该组合特征筛选方法应用于用户终端中,该方法通过安装于用户终端中的应用软件进行执行,用户终端即是用于执行组合特征筛选方法以对组合特征进行筛选的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。
如图1所示,该方法包括步骤S110~S140。
S110、根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵。
根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵。数据信息表中包含多条数据,数据信息表中还包含多个项目,每一条数据中包含每一项目对应的项目值,也即是该条数据所包含的数据信息;数据信息表中还包含月份信息,可通过月份信息对数据信息表进行拆分。组合特征中包含多个项目及二值化规则,通过二值化规则即可对数据信息表中的数据进行二值化,最终组合得到二维矩阵,针对一个月份的数据信息进行二值化即可得到一个单月二维矩阵。
例如,数据信息表中所包含的多条数据如表1所示。
Figure BDA0002167734000000041
表1
在一实施例中,如图2所示,步骤S110包括子步骤S111、S112和S113。
S111、根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息。
根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息。数据信息表中还包含月份信息,通过月份信息将数据信息表进行拆分即可得到每一月份的数据信息。
例如,根据月份信息将对表1中所示的数据信息表进行拆分后得到一个月份的数据信息如表2所示。
Figure BDA0002167734000000051
表2
S112、获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。
获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。每一组合特征中均包含多个项目,根据一个组合特征所包含的项目即可获取得到一个月份的数据信息与该合特征对应的一个单月特征数据,根据N个组合特征获取M个月份的数据信息即可对应得到N×M个单月特征数据。若数据信息表中包含24个月份的数据信息,根据某一个组合特征分别获取24个月份的数据信息即可得到与该组合特征对应的24个单月特征数据。
例如,某一组合特征中包括收入、购买本公司产品及是否为VIP客户三个项目,则根据表2中的单一月份的数据信息获取该组合特征对应的单月特征数据如表3所示。
Figure BDA0002167734000000052
表3
S113、根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。组合特征中还包括二值化规则。具体的,一个组合特征对一个单月特征数据进行二值化即可得到一组包含多个二值化数值的一维数组,将一个月份所包含的多个一维数组进行组合即可得到一个单月二维矩阵。
具体的,某一个组合特征中的二值化规则为,若某一客户在“是否为VIP客户”的项目值为“是”、“购买本公司产品”的项目值为“是”且“收入”的项目值超出所有客户当月收入的平均值,则将该客户对应的二值化数值记“1”;否则将该客户对应的二值化数值记为“0”。
例如,根据上述组合特征中的二值化规则对表3中的单月特征数据进行二值化得到对应的一维数组为表4所示。
客户 组合特征1
客户A 0
客户B 1
客户C 0
客户D 0
表4
对于“目标客户”这一项目,在生成单月二维矩阵时也需进行二值化,具体的,若“目标客户”的项目值为“是”则将该项目值对应的二值化数值记为“1”;若“目标客户”的项目值为“否”则将该项目值对应的二值化数值记“0”。
例如,根据多个组合特征中二值化规则获取得到一个单月二维矩阵如表5所示。
Figure BDA0002167734000000061
表5
S120、根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度。
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息。具体的,矩阵计算模型即是用于对所得到的单月二维矩阵进行计算的模型,矩阵计算模型中包括饱和度计算公式计算及重要度计算公式,根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月饱和度,根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月重要度,也即是得到每一组合特征的特征计算信息。
在一实施例中,如图3所示,步骤S120包括子步骤S121和S122。
S121、根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度。
根据所述矩阵计算模型中的饱和度计算公式Tni=fni/(fni+gni)计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度,其中,Tni为组合特征i在第n月份的饱和度,fni为组合特征i在第n个单月二维矩阵中二值化数值为“1”的数量,gni为组合特征i在第n个单月二维矩阵中二值化数值为“0”的数量。根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的饱和度,获取一个组合特征在所有月份的饱和度即可得到该组合特征的逐月饱和度,根据上述方法即可获取每一组合特征的逐月饱和度。
若组合特征1在月份1的单月二维矩阵中二值化数值为“1”的数量是“16”,在该单月二维矩阵中二值化数值为“0”的数量是“84”,则对应计算得到组合特征1在月份1的饱和度T=16/(16+84)=0.16。
例如,通过上述方法计算得到某一组合特征的逐月饱和度如表6所示。
月份 月份1 月份2 月份3 月份4 月份5
组合特征1 0.16 0.20 0.25 0.38 0.09
表6
S122、根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。具体的,重要度计算公式为:Uni=(sni1/(sni1+rni1)-sni0/(sni0+rni0))×ln((sni1×(sni0+rni0))/(sni0×(sni1+rni1)))+(rni1/(sni1+rni1)-rni0/(sni0+rni0))×ln((rni1×(sni0+rni0))/(rni0×(sni1+rni1))),其中,Uni为组合特征i在第n月份的重要度,sni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且目标客户二值化数值为“1”的数量,rni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且目标客户二值化数值为“0”的数量,sni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且目标客户二值化数值为“1”的数量,rni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且目标客户二值化数值为“0”的数量。
根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的重要度,获取一个组合特征在所有月份的重要度即可得到该组合特征的逐月重要度,根据上述方法即可获取每一组合特征的逐月重要度。
S130、根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数。
根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息。具体的,一个组合特征的变异系数信息中包括该组合特征的饱和度变异系数及重要度变异系数,饱和度变异系数即可用于对该组合特征的饱和度在所有月份中的波动程度进行量化,重要度变异系数即可用于对该组合特征的重要度在所有月份中的波动程度进行量化。
例如,计算得到组合特征1的饱和度变异系数为0.39,计算得到组合特征2的饱和度变异系数为0.21,则表明组合特征1的饱和度在所有月份中的波动程度大于组合特征2。
在一实施例中,如图4所示,步骤S130包括子步骤S13和S132。
S131、根据所述变异系数计算模型中的第一计算公式
Figure BDA0002167734000000081
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,
Figure BDA0002167734000000082
为组合特征i在所有月份中的饱和度平均值。
根据所述变异系数计算模型中的第一计算公式
Figure BDA0002167734000000083
即可计算得到每一所述组合特征的饱和度变异系数。
例如,对表6中组合特征1的逐月饱和度进行计算,得到组合特征1的饱和度在所有月份中的标准差FT1=0.10877,计算得到组合特征1的饱和度平均值
Figure BDA0002167734000000091
组合特征1的饱和度变异系数
Figure BDA0002167734000000092
S132、根据所述变异系数计算模型中的第二计算公式
Figure BDA0002167734000000093
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,为组合特征i在所有月份中的重要度平均值。
根据所述变异系数计算模型中的第二计算公式
Figure BDA0002167734000000095
即可计算得到每一所述组合特征的重要度变异系数,具体的计算过程与饱和度变异系数类似,在此不作赘述。
S140、根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。具体的,筛选规则即是用于对所有组合特征进行筛选的规则信息,通过筛选规则结合所得到的变异系数信息即可从所有组合特征中筛选得到满足要求的目标组合特征,使用目标组合特征作为分析模型、预测模型等模型的输入节点,可大幅提高模型输入结果的准确率。具体的,筛选规则中包括饱和度阈值、重要度阈值及筛选数量。
在一实施例中,如图5所示,步骤S140包括子步骤S141、S142、S143和S144。
S141、根据所述筛选规则中的饱和度阈值对每一所述组合特征的变异系数信息进行判断以得到饱和度变异系数大于所述饱和度阈值的第一组合特征。
根据所述筛选规则中的饱和度阈值对每一所述组合特征的变异系数信息进行判断以得到饱和度变异系数大于所述饱和度阈值的第一组合特征。具体的,组合特征的变异系数信息中包括该组合特征的饱和度平均值,根据饱和度阈值对每一组合特征的饱和度平均值进行判断,即可将获取到的大于饱和度阈值的组合特征作为第一组合特征。
例如,筛选规则中的饱和度阈值设置为0.20,表6中组合特征1的饱和度平均值
Figure BDA0002167734000000096
则将组合特征1为第一组合特征。
S142、根据所述筛选规则中的重要度阈值对所述第一组合特征的变异系数信息进行判断以得到重要度变异系数大于所述重要度阈值的第二组合特征。
根据所述筛选规则中的重要度阈值对所述第一组合特征的变异系数信息进行判断以得到重要度变异系数大于所述重要度阈值的第二组合特征。具体的,组合特征的变异系数信息中包括该组合特征的重要度平均值,根据重要度阈值对每一组合特征的重要度平均值进行判断,即可将获取到的大于重要度阈值的组合特征作为第一组合特征。
S143、根据所述第二组合特征的变异系数信息对所有所述第二组合特征进行排序以得到组合特征排序信息。
根据所述第二组合特征的变异系数信息对所有所述第二组合特征进行排序以得到组合特征排序信息。具体的,组合特征的变异系数中还包括饱和度变异系数及重要度变异系数,将所有第二组合特征的饱和度变异系数及重要度变异系数相加得到变异系数总值,即可根据第二组合特征的变异系数总值对第二组合特征进行排序,即可得到包含所有第二组合特征的组合特征排序信息,组合特征的变异系数总值越大,则该组合特征在组合特征排序信息中排序靠后。
S144、根据所述筛选规则中的筛选数量以及组合特征排序信息获取排序后的第二组合特征中与筛选数量相同的多个组合特征作为目标组合特征。
根据所述筛选规则中的筛选数量以及组合特征排序信息获取排序后的第二组合特征中与筛选数量相同的多个组合特征作为目标组合特征。筛选数量即是用于获取最终目标组合特征的数量信息,根据筛选数量即可获取组合特征排序信息中排序靠前的组合特征作为目标组合特征,目标组合特征的数量与筛选数量相同。
例如,筛选数量为20,则可对应获取组合特征排序信息中前20个组合特征作为目标组合特征。
在本发明实施例所提供的组合特征筛选方法中,根据组合特征从数据信息表中获取到多个单月二维矩阵,计算得到每一组合特征的特征计算信息并进一步计算得到每一组合特征的变异系数信息,根据筛选规则及变异系数信息对组合特征进行筛选得到目标组合特征。通过上述方法,能够更加高效地对组合特征进行针对性地筛选,以大幅提高对组合特征进行筛选的效率,以获取得到满足使用需求的组合特征,在实际应用过程中取得了良好的技术效果。
本发明实施例还提供一种组合特征筛选装置,该组合特征筛选装置用于执行前述组合特征筛选方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的组合特征筛选装置的示意性框图。该组合特征筛选装置可以配置于台式电脑、笔记本电脑、平板电脑或手机等用户终端中。
如图6所示,组合特征筛选装置100包括数据信息表二值化单元110、矩阵计算单元120、变异系数信息获取单元130和组合特征筛选单元140。
数据信息表二值化单元110,用于根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵。
根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵。数据信息表中包含多条数据,数据信息表中还包含多个项目,每一条数据中包含每一项目对应的项目值,也即是该条数据所包含的数据信息;数据信息表中还包含月份信息,可通过月份信息对数据信息表进行拆分。组合特征中包含多个项目及二值化规则,通过二值化规则即可对数据信息表中的数据进行二值化,最终组合得到二维矩阵,针对一个月份的数据信息进行二值化即可得到一个单月二维矩阵。
其他发明实施例中,如图7所示,所述组合特征获取单元110包括子单元:特征获取单元111和特征组合单元112。
数据信息表拆分单元111,用于根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息。
根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息。数据信息表中还包含月份信息,通过月份信息将数据信息表进行拆分即可得到每一月份的数据信息。
单月特征数据获取单元112,用于获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。
获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。每一组合特征中均包含多个项目,根据一个组合特征所包含的项目即可获取得到一个月份的数据信息与该合特征对应的一个单月特征数据,根据N个组合特征获取M个月份的数据信息即可对应得到N×M个单月特征数据。若数据信息表中包含24个月份的数据信息,根据某一个组合特征分别获取24个月份的数据信息即可得到与该组合特征对应的24个单月特征数据。
单月二维矩阵获取单元113,用于根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。组合特征中还包括二值化规则。具体的,一个组合特征对一个单月特征数据进行二值化即可得到一组包含多个二值化数值的一维数组,将一个月份所包含的多个一维数组进行组合即可得到一个单月二维矩阵。
具体的,某一个组合特征中的二值化规则为,若某一客户在“是否为VIP客户”的项目值为“是”、“购买本公司产品”的项目值为“是”且“收入”的项目值超出所有客户当月收入的平均值,则将该客户对应的二值化数值记“1”;否则将该客户对应的二值化数值记为“0”。
矩阵计算单元120,用于根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度。
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息。具体的,矩阵计算模型即是用于对所得到的单月二维矩阵进行计算的模型,矩阵计算模型中包括饱和度计算公式计算及重要度计算公式,根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月饱和度,根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月重要度,也即是得到每一组合特征的特征计算信息。
其他发明实施例中,如图8所示,所述矩阵计算单元120包括子单元:逐月饱和度计算单元121和逐月重要度计算单元122。
逐月饱和度计算单元121,用于根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度。
根据所述矩阵计算模型中的饱和度计算公式Tni=fni/(fni+gni)计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度,其中,Tni为组合特征i在第n月份的饱和度,fni为组合特征i在第n个单月二维矩阵中二值化数值为“1”的数量,gni为组合特征i在第n个单月二维矩阵中二值化数值为“0”的数量。根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的饱和度,获取一个组合特征在所有月份的饱和度即可得到该组合特征的逐月饱和度,根据上述方法即可获取每一组合特征的逐月饱和度。
逐月重要度计算单元122,用于根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。具体的,重要度计算公式为:Uni=(sni1/(sni1+rni1)-sni0/(sni0+rni0))×ln((sni1×(sni0+rni0))/(sni0×(sni1+rni1)))+(rni1/(sni1+rni1)-rni0/(sni0+rni0))×ln((rni1×(sni0+rni0))/(rni0×(sni1+rni1))),其中,Uni为组合特征i在第n月份的重要度,sni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且目标客户二值化数值为“1”的数量,rni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且目标客户二值化数值为“0”的数量,sni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且目标客户二值化数值为“1”的数量,rni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且目标客户二值化数值为“0”的数量。
根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的重要度,获取一个组合特征在所有月份的重要度即可得到该组合特征的逐月重要度,根据上述方法即可获取每一组合特征的逐月重要度。
变异系数信息获取单元130,用于根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数。
根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息。具体的,一个组合特征的变异系数信息中包括该组合特征的饱和度变异系数及重要度变异系数,饱和度变异系数即可用于对该组合特征的饱和度在所有月份中的波动程度进行量化,重要度变异系数即可用于对该组合特征的重要度在所有月份中的波动程度进行量化。
其他发明实施例中,如图9所示,所述变异系数信息获取单元130包括子单元:饱和度变异系数计算单元131和重要度变异系数计算单元132。
饱和度变异系数计算单元131,用于根据所述变异系数计算模型中的第一计算公式
Figure BDA0002167734000000131
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,
Figure BDA0002167734000000132
为组合特征i在所有月份中的饱和度平均值。
根据所述变异系数计算模型中的第一计算公式
Figure BDA0002167734000000141
即可计算得到每一所述组合特征的饱和度变异系数。
重要度变异系数计算单元132,用于根据所述变异系数计算模型中的第二计算公式
Figure BDA0002167734000000142
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,为组合特征i在所有月份中的重要度平均值。
根据所述变异系数计算模型中的第二计算公式即可计算得到每一所述组合特征的重要度变异系数,具体的计算过程与饱和度变异系数类似,在此不作赘述。
组合特征筛选单元140,用于根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。具体的,筛选规则即是用于对所有组合特征进行筛选的规则信息,通过筛选规则结合所得到的变异系数信息即可从所有组合特征中筛选得到满足要求的目标组合特征,使用目标组合特征作为分析模型、预测模型等模型的输入节点,可大幅提高模型输入结果的准确率。具体的,筛选规则中包括饱和度阈值、重要度阈值及筛选数量。
其他发明实施例中,如图10所示,所述组合特征筛选单元140包括子单元:饱和度平均值判断单元141、重要度平均值判断单元142、组合特征排序单元143和目标组合特征获取单元144。
饱和度平均值判断单元141,用于根据所述筛选规则中的饱和度阈值对每一所述组合特征的变异系数信息进行判断以得到饱和度变异系数大于所述饱和度阈值的第一组合特征。
根据所述筛选规则中的饱和度阈值对每一所述组合特征的变异系数信息进行判断以得到饱和度变异系数大于所述饱和度阈值的第一组合特征。具体的,组合特征的变异系数信息中包括该组合特征的饱和度平均值,根据饱和度阈值对每一组合特征的饱和度平均值进行判断,即可将获取到的大于饱和度阈值的组合特征作为第一组合特征。
重要度平均值判断单元142,用于根据所述筛选规则中的重要度阈值对所述第一组合特征的变异系数信息进行判断以得到重要度变异系数大于所述重要度阈值的第二组合特征。
根据所述筛选规则中的重要度阈值对所述第一组合特征的变异系数信息进行判断以得到重要度变异系数大于所述重要度阈值的第二组合特征。具体的,组合特征的变异系数信息中包括该组合特征的重要度平均值,根据重要度阈值对每一组合特征的重要度平均值进行判断,即可将获取到的大于重要度阈值的组合特征作为第一组合特征。
组合特征排序单元143,用于根据所述第二组合特征的变异系数信息对所有所述第二组合特征进行排序以得到组合特征排序信息。
根据所述第二组合特征的变异系数信息对所有所述第二组合特征进行排序以得到组合特征排序信息。具体的,组合特征的变异系数中还包括饱和度变异系数及重要度变异系数,将所有第二组合特征的饱和度变异系数及重要度变异系数相加得到变异系数总值,即可根据第二组合特征的变异系数总值对第二组合特征进行排序,即可得到包含所有第二组合特征的组合特征排序信息,组合特征的变异系数总值越大,则该组合特征在组合特征排序信息中排序靠后。
目标组合特征获取单元144,用于根据所述筛选规则中的筛选数量以及组合特征排序信息获取排序后的第二组合特征中与筛选数量相同的多个组合特征作为目标组合特征。
根据所述筛选规则中的筛选数量以及组合特征排序信息获取排序后的第二组合特征中与筛选数量相同的多个组合特征作为目标组合特征。筛选数量即是用于获取最终目标组合特征的数量信息,根据筛选数量即可获取组合特征排序信息中排序靠前的组合特征作为目标组合特征,目标组合特征的数量与筛选数量相同。
在本发明实施例所提供的组合特征筛选装置应用上述组合特征筛选方法,根据组合特征从数据信息表中获取到多个单月二维矩阵,计算得到每一组合特征的特征计算信息并进一步计算得到每一组合特征的变异系数信息,根据筛选规则及变异系数信息对组合特征进行筛选得到目标组合特征。通过上述方法,能够更加高效地对组合特征进行针对性地筛选,以大幅提高对组合特征进行筛选的效率,以获取得到满足使用需求的组合特征,在实际应用过程中取得了良好的技术效果。
上述组合特征筛选装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行组合特征筛选方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行组合特征筛选方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵;根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度;根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数;根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
在一实施例中,处理器502在执行根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵的步骤时,执行如下操作:根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息;获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
在一实施例中,处理器502在执行根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息的步骤时,执行如下操作:根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度;根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
在一实施例中,处理器502在执行根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息的步骤时,执行如下操作:根据所述变异系数计算模型中的第一计算公式
Figure BDA0002167734000000171
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,
Figure BDA0002167734000000172
为组合特征i在所有月份中的饱和度平均值;根据所述变异系数计算模型中的第二计算公式
Figure BDA0002167734000000173
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,
Figure BDA0002167734000000174
为组合特征i在所有月份中的重要度平均值。
在一实施例中,处理器502在执行根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征的步骤时,执行如下操作:根据所述筛选规则中的饱和度阈值对每一所述组合特征的变异系数信息进行判断以得到饱和度变异系数大于所述饱和度阈值的第一组合特征;根据所述筛选规则中的重要度阈值对所述第一组合特征的变异系数信息进行判断以得到重要度变异系数大于所述重要度阈值的第二组合特征;根据所述第二组合特征的变异系数信息对所有所述第二组合特征进行排序以得到组合特征排序信息;根据所述筛选规则中的筛选数量以及组合特征排序信息获取排序后的第二组合特征中与筛选数量相同的多个组合特征作为目标组合特征。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵;根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度;根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数;根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
在一实施例中,所述根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵的步骤,包括:根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息;获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
在一实施例中,所述根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息的步骤,包括:根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度;根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
在一实施例中,所述根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息的步骤,包括:根据所述变异系数计算模型中的第一计算公式
Figure BDA0002167734000000181
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,
Figure BDA0002167734000000182
为组合特征i在所有月份中的饱和度平均值;根据所述变异系数计算模型中的第二计算公式
Figure BDA0002167734000000183
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,
Figure BDA0002167734000000191
为组合特征i在所有月份中的重要度平均值。
在一实施例中,所述根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征的步骤,包括:根据所述筛选规则中的饱和度阈值对每一所述组合特征的变异系数信息进行判断以得到饱和度变异系数大于所述饱和度阈值的第一组合特征;根据所述筛选规则中的重要度阈值对所述第一组合特征的变异系数信息进行判断以得到重要度变异系数大于所述重要度阈值的第二组合特征;根据所述第二组合特征的变异系数信息对所有所述第二组合特征进行排序以得到组合特征排序信息;根据所述筛选规则中的筛选数量以及组合特征排序信息获取排序后的第二组合特征中与筛选数量相同的多个组合特征作为目标组合特征。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种组合特征筛选方法,其特征在于,包括:
根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵;
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度;
根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数;
根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
2.根据权利要求1所述的组合特征筛选方法,其特征在于,所述根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵,包括:
根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息;
获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;
根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
3.根据权利要求1所述的组合特征筛选方法,其特征在于,所述根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息,包括:
根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度;
根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
4.根据权利要求1所述的组合特征筛选方法,其特征在于,所述根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息,包括:
根据所述变异系数计算模型中的第一计算公式计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,为组合特征i在所有月份中的饱和度平均值;
根据所述变异系数计算模型中的第二计算公式
Figure FDA0002167733990000023
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,
Figure FDA0002167733990000024
为组合特征i在所有月份中的重要度平均值。
5.根据权利要求1所述的组合特征筛选方法,其特征在于,所述根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征,包括:
根据所述筛选规则中的饱和度阈值对每一所述组合特征的变异系数信息进行判断以得到饱和度变异系数大于所述饱和度阈值的第一组合特征;
根据所述筛选规则中的重要度阈值对所述第一组合特征的变异系数信息进行判断以得到重要度变异系数大于所述重要度阈值的第二组合特征;
根据所述第二组合特征的变异系数信息对所有所述第二组合特征进行排序以得到组合特征排序信息;
根据所述筛选规则中的筛选数量以及组合特征排序信息获取排序后的第二组合特征中与筛选数量相同的多个组合特征作为目标组合特征。
6.一种组合特征筛选装置,其特征在于,包括:
数据信息表二值化单元,用于根据多组预设的组合特征对预设的数据信息表中每一月份的数据信息进行二值化以得到多个单月二维矩阵;
矩阵计算单元,用于根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度和逐月重要度;
变异系数信息获取单元,用于根据预设的变异系数计算模型对所有所述单月二维矩阵中的特征计算信息进行计算以得到每一所述组合特征对应的变异系数信息;其中,所述变异系数信息包括饱和度变异系数及重要度变异系数;
组合特征筛选单元,用于根据预设的筛选规则及每一所述组合特征的变异系数信息对所有所述组合特征进行筛选以得到目标组合特征。
7.根据权利要求6所述的组合特征筛选装置,其特征在于,所述数据信息表二值化单元,包括:
数据信息表拆分单元,用于根据月份信息对所述数据信息表进行拆分以得到每一月份的数据信息;
单月特征数据获取单元,用于获取所述数据信息表中每一月份的数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;
单月二维矩阵获取单元,用于根据所有所述组合特征中的二值化规则对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
8.根据权利要求6所述的组合特征筛选装置,其特征在于,所述矩阵计算单元,包括:
逐月饱和度计算单元,用于根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度;
逐月重要度计算单元,用于根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的组合特征筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的组合特征筛选方法。
CN201910752723.XA 2019-08-15 2019-08-15 组合特征筛选方法、装置、计算机设备及存储介质 Active CN110633304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752723.XA CN110633304B (zh) 2019-08-15 2019-08-15 组合特征筛选方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752723.XA CN110633304B (zh) 2019-08-15 2019-08-15 组合特征筛选方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110633304A true CN110633304A (zh) 2019-12-31
CN110633304B CN110633304B (zh) 2023-08-22

Family

ID=68969745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752723.XA Active CN110633304B (zh) 2019-08-15 2019-08-15 组合特征筛选方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110633304B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689023A (zh) * 2019-08-15 2020-01-14 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
CN114511022A (zh) * 2022-01-24 2022-05-17 百度在线网络技术(北京)有限公司 特征筛选、行为识别模型训练、异常行为识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786860A (zh) * 2014-12-23 2016-07-20 华为技术有限公司 一种数据建模中的数据处理方法及装置
US20170032267A1 (en) * 2015-07-29 2017-02-02 International Business Machines Corporation Assisting database management
CN109146193A (zh) * 2018-09-05 2019-01-04 平安科技(深圳)有限公司 产品智能推荐方法、装置、计算机设备及存储介质
CN109299362A (zh) * 2018-09-21 2019-02-01 平安科技(深圳)有限公司 相似企业推荐方法、装置、计算机设备及存储介质
CN110110035A (zh) * 2018-01-24 2019-08-09 北京京东尚科信息技术有限公司 数据处理方法和装置以及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786860A (zh) * 2014-12-23 2016-07-20 华为技术有限公司 一种数据建模中的数据处理方法及装置
US20170032267A1 (en) * 2015-07-29 2017-02-02 International Business Machines Corporation Assisting database management
CN110110035A (zh) * 2018-01-24 2019-08-09 北京京东尚科信息技术有限公司 数据处理方法和装置以及计算机可读存储介质
CN109146193A (zh) * 2018-09-05 2019-01-04 平安科技(深圳)有限公司 产品智能推荐方法、装置、计算机设备及存储介质
CN109299362A (zh) * 2018-09-21 2019-02-01 平安科技(深圳)有限公司 相似企业推荐方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689023A (zh) * 2019-08-15 2020-01-14 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
CN110689023B (zh) * 2019-08-15 2024-01-16 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
CN114511022A (zh) * 2022-01-24 2022-05-17 百度在线网络技术(北京)有限公司 特征筛选、行为识别模型训练、异常行为识别方法及装置
CN114511022B (zh) * 2022-01-24 2022-12-27 百度在线网络技术(北京)有限公司 特征筛选、行为识别模型训练、异常行为识别方法及装置

Also Published As

Publication number Publication date
CN110633304B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN109858740B (zh) 企业风险的评估方法、装置、计算机设备及存储介质
CN109241415B (zh) 项目推荐方法、装置、计算机设备及存储介质
CN111222556B (zh) 一种基于决策树算法识别用电类别的方法及系统
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN107516246B (zh) 用户类型的确定方法、确定装置、介质及电子设备
CN111461180A (zh) 样本分类方法、装置、计算机设备及存储介质
CN109299356B (zh) 基于大数据的活动推荐方法、装置、电子设备及存储介质
WO2011133551A2 (en) Reducing the dissimilarity between a first multivariate data set and a second multivariate data set
Yvette Zhang A density‐ratio model of crop yield distributions
CN108062692B (zh) 一种录音推荐方法、装置、设备及计算机可读存储介质
CN110633304B (zh) 组合特征筛选方法、装置、计算机设备及存储介质
CN112541635A (zh) 业务数据统计预测方法、装置、计算机设备及存储介质
CN110688433B (zh) 一种基于路径的特征生成方法及装置
CN113139769A (zh) 基于人工智能的采购方法、装置、计算机设备及存储介质
CN115345530A (zh) 商场地址推荐方法、装置、设备及计算机可读存储介质
CN110674104B (zh) 特征组合筛选方法、装置、计算机设备及存储介质
CN111858245A (zh) 一种异常数据的分析方法、装置、电子设备及存储介质
CN110968802A (zh) 一种用户特征的分析方法、分析装置及可读存储介质
CN113205230A (zh) 基于模型集合的数据预测方法、装置、设备及存储介质
CN113590603A (zh) 基于数据源智能选择的数据处理方法、装置、设备及介质
CN110826008A (zh) 指标相关性分析方法、装置、计算机设备及存储介质
CN112416988A (zh) 基于人工智能的供求匹配方法、装置及计算机设备
JP2007188285A (ja) 閾値設定方法及びシステム
CN110674838A (zh) 基于组合特征筛选的模型构建方法、装置、计算机设备
CN112016975A (zh) 产品筛选方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant