CN110674104A - 特征组合筛选方法、装置、计算机设备及存储介质 - Google Patents

特征组合筛选方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110674104A
CN110674104A CN201910752721.0A CN201910752721A CN110674104A CN 110674104 A CN110674104 A CN 110674104A CN 201910752721 A CN201910752721 A CN 201910752721A CN 110674104 A CN110674104 A CN 110674104A
Authority
CN
China
Prior art keywords
feature
combination
rule
month
data information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910752721.0A
Other languages
English (en)
Other versions
CN110674104B (zh
Inventor
陈远波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910752721.0A priority Critical patent/CN110674104B/zh
Publication of CN110674104A publication Critical patent/CN110674104A/zh
Application granted granted Critical
Publication of CN110674104B publication Critical patent/CN110674104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了特征组合筛选方法、装置、计算机设备及存储介质。方法包括:若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征;根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵;根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征。本发明基于模型构建技术,能够高效地从用户所输入的数据信息表中筛选得到目标组合特征,大幅提高了获取目标组合特征的效率,提升了构建神经网络模型的效率及可靠性。

Description

特征组合筛选方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种特征组合筛选方法、装置、计算机设备及存储介质。
背景技术
在基于神经网络构建分析模型、预测模型的过程中,需使用多个特征作为模型的输入节点,为体现多个特征之间的关联关系,可将多个特征进行组合以得到组合特征。传统的模型构建过程中均是通过人工选择的方式对特征进行组合及筛选后将得到的部分组合特征作为模型的输入节点,然而传统的特征组合筛选方法在获取组合特征时的效率较低,导致无法高效率地对模型进行构建。因而,现有的技术方法存在特征组合筛选效率较低的问题。
发明内容
本发明实施例提供了一种特征组合筛选方法、装置、计算机设备及存储介质,旨在解决现有技术方法中所存在对特征进行组合及筛选的效率不高的问题。
第一方面,本发明实施例提供了一种特征组合筛选方法,其包括:
若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征;
根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵;
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数;
根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
第二方面,本发明实施例提供了一种特征组合筛选装置,其包括:
组合特征获取单元,用于若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征;
数据信息表二值化单元,用于根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵;
特征计算信息获取单元,用于根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数;
目标组合特征获取单元,用于根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的特征组合筛选方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的特征组合筛选方法。
本发明实施例提供了一种特征组合筛选方法、装置、计算机设备及存储介质。根据特征组合规则从数据信息表中获取到多个组合特征,根据组合特征从数据信息表中获取到多个单月二维矩阵,计算得到每一组合特征的特征计算信息,根据获取规则及特征计算信息对组合特征进行筛选得到目标组合特征。通过上述方法,能够更加高效地从用户所输入的数据信息表中筛选得到目标组合特征,大幅提高了获取目标组合特征的效率,提升了构建神经网络模型的效率及可靠性,在实际应用过程中取得了良好的技术效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的特征组合筛选方法的流程示意图;
图2为本发明实施例提供的特征组合筛选方法的子流程示意图;
图3为本发明实施例提供的特征组合筛选方法的另一子流程示意图;
图4为本发明实施例提供的特征组合筛选方法的另一子流程示意图;
图5为本发明实施例提供的特征组合筛选方法的另一子流程示意图;
图6为本发明实施例提供的特征组合筛选装置的示意性框图;
图7为本发明实施例提供的特征组合筛选装置的子单元示意性框图;
图8为本发明实施例提供的特征组合筛选装置的另一子单元示意性框图;
图9为本发明实施例提供的特征组合筛选装置的另一子单元示意性框图;
图10为本发明实施例提供的特征组合筛选装置的另一子单元示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的特征组合筛选方法的流程示意图。该特征组合筛选方法应用于用户终端中,该方法通过安装于用户终端中的应用软件进行执行,用户终端即是用于执行特征组合筛选方法以对特征进行组合及筛选的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。
如图1所示,该方法包括步骤S110~S140。
S110、若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征。
若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征。数据信息表中包含多条数据,数据信息表中还包含多个项目及一个响应条件,每一项目即对应一个特征,特征组合规则即是用于对多个特征进行组合的规则信息,通过特征组合规则对多个特征进行组合后即可得到组合特征。数据表中的每一条数据中还包含每一项目对应的项目值,也即是该条数据所包含的数据信息;数据信息表中还包含月份信息,可通过月份信息对数据信息表进行拆分。数据信息表中还包括每一条数据对应的响应信息,响应信息即是用于对每一条数据是否响应该响应条件进行记录的信息。
例如,数据信息表中所包含的多条数据如表1所示。
Figure BDA0002167741150000041
表1
在一实施例中,如图2所示,步骤S110包括子步骤S111和S112。
S111、根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征。
根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征。具体的,数据信息表中每一月份对应的数据信息均包含多个项目,每一月份的数据信息中所包含的多个项目均相同,每一项目即对应一个特征,因此根据一个月份的数据信息中所包含的项目即可得到对应的多个特征。
例如,根据表1中所示的数据信息表即可对应得到四个特征:加班时长、是否请假、是否迟到及收入。
S112、根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。
根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。具体的,预设特征数即是所得到的组合特征中所包含特征的数量信息,根据预设特征数对所有特征进行组合,即可对应得到多个组合特征,组合特征即可用于体现多个特征之间所存在的关联关系。其中,预设特征数中所包含的数量信息可以是一个也可以是多个。
例如,若所得到的特征数量为8,特征组合规则中的预设特征数为“2或3”,则根据“2”对所得到的8个特征进行两两组合,得到28个组合特征(双因子组合特征);根据“3”对所得到的8个特征进行组合,得到56个组合特征(三因子组合特征),最终所得到的组合特征的数量为84。
S120、根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵。
根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵。根据组合特征即可对数据信息表进行二值化以得到对应的二值化数值,二值化即是用“0”或“1”对数据信息进行表示的信息,通过将数据信息表进行二值化即可得到多个单月二维矩阵。计算机无法对数据信息表中的文字信息进行计算,但可对二值化数值进行计算,因此可根据二值化数值对数据信息表中的信息进行量化计算。针对一个月份的数据信息进行二值化即可得到一个单月二维矩阵,数据信息表中包含多个月份的数据信息,因此可对应得到多个单月二维矩阵。
在一实施例中,如图3所示,步骤S120包括子步骤S121、S122和S123。
S121、根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息。
根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息。具体的,根据月份信息获取数据信息表中每一月份的数据信息,并获取每一条数据对应的响应信息,将每一月份的数据信息与每一条数据的响应信息进行组合即可得到多个单月数据信息,每一月份的数据信息即可对应生成一个单月数据信息,也即是数据信息表中包含月份的数量即是最终所得到的单月数据信息的数量。
例如,对表1中的数据信息表进行拆分所得到的一个单月数据信息如表2所示。
Figure BDA0002167741150000061
表2
S122、获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。
获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。每一组合特征中均包含多个项目,根据一个组合特征所包含的项目即可获取得到一个单月数据信息与该组合特征对应的一个单月特征数据,根据N个组合特征获取M个单月数据信息即可对应得到N×M个单月特征数据。若从数据信息表中获取得到18个单月数据信息,根据10个组合特征分别从18个单月数据信息中获取得到与所有组合特征对应的180个单月特征数据。
例如,某一组合特征中包括是否请假及是否迟到,则根据表2中的单月数据信息获取与该组合特征对应的单月特征数据如表3所示。
Figure BDA0002167741150000062
表3
S123、根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。具体的,根据一个组合特征对一个单月特征数据进行二值化即可得到一组包含多个二值化数值的一维数组,将一个月份所包含的所有一维数组及相应信息对应转换得到的响应信息数组进行组合即可得到与该单月特征数据对应的一个单月二维矩阵。
具体的,某一个组合特征为某一组合特征中包括是否请假及是否迟到,若某一员工在“是否请假”的项目值为“是”且“是否迟到”的项目值为“是”,则将该员工对应的二值化数值记“1”;否则将该员工对应的二值化数值记为“0”。
例如,根据上述组合特征对表3中的单月特征数据进行二值化得到对应的一维数组如表4所示。
组合特征1
员工A 0
员工B 0
员工C 1
员工D 0
表4
对于“工作是否积极”这一响应条件,在生成单月二维矩阵时也需进行二值化,具体的,若“工作是否积极”的响应信息为“是”则将该响应信息对应的二值化数值记为“1”;若“工作是否积极”的响应信息为“否”则将该响应信息对应的二值化数值记“0”。
例如,根据多个组合特征中二值化规则获取得到一个单月二维矩阵如表5所示。
表5
S130、根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数。
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息。具体的,矩阵计算模型即是用于对所得到的单月二维矩阵进行计算的模型,矩阵计算模型中包括饱和度计算公式计算、重要度计算公式、饱和度变异系数公式及重要度变异系数公式。根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月饱和度,根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月重要度,根据饱和度变异系数公式对每一组合特征的逐月饱和度进行计算即可得到每一组合特征的饱和度变异系数,根据重要度变异系数公式对每一组合特征的逐月重要度进行计算即可得到每一组合特征的重要度变异系数,也即是得到每一组合特征的特征计算信息。
在一实施例中,如图4所示,步骤S130包括子步骤S131、S132、S133和S134。
S131、根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度。
根据所述矩阵计算模型中的饱和度计算公式Tni=fni/(fni+gni)计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度,其中,Tni为组合特征i在第n月份的饱和度,fni为组合特征i在第n个单月二维矩阵中二值化数值为“1”的数量,gni为组合特征i在第n个单月二维矩阵中二值化数值为“0”的数量。根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的饱和度,获取一个组合特征在所有月份的饱和度即可得到该组合特征的逐月饱和度,根据上述方法即可获取每一组合特征的逐月饱和度。
若组合特征1在月份1的单月二维矩阵中二值化数值为“1”的数量是“22”,在该单月二维矩阵中二值化数值为“0”的数量是“78”,则对应计算得到组合特征1在月份1的饱和度T=22/(22+78)=0.22。
例如,通过上述方法计算得到某一组合特征的逐月饱和度如表6所示。
月份 月份1 月份2 月份3 月份4 月份5
组合特征1 0.22 0.16 0.29 0.41 0.19
表6
S132、根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。具体的,重要度计算公式为:Uni=(sni1/(sni1+rni1)-sni0/(sni0+rni0))×ln((sni1×(sni0+rni0))/(sni0×(sni1+rni1)))+(rni1/(sni1+rni1)-rni0/(sni0+rni0))×ln((rni1×(sni0+rni0))/(rni0×(sni1+rni1))),其中,Uni为组合特征i在第n月份的重要度,sni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且响应信息二值化数值为“1”的数量,rni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且响应信息二值化数值为“0”的数量,sni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且响应信息二值化数值为“1”的数量,rni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且响应信息二值化数值为“0”的数量。
根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的重要度,获取一个组合特征在所有月份的重要度即可得到该组合特征的逐月重要度,根据上述方法即可获取每一组合特征的逐月重要度。
S133、根据所述矩阵计算模型中的饱和度变异系数公式计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,为组合特征i在所有月份中的饱和度平均值。
根据所述矩阵计算模型中的饱和度变异系数公式即可计算得到每一所述组合特征的饱和度变异系数。具体的,饱和度变异系数即可用于对该组合特征的饱和度在所有月份中的波动程度进行量化。
例如,对表6中组合特征1的逐月饱和度进行计算,得到组合特征1的饱和度在所有月份中的标准差FT1=0.0996,计算得到组合特征1的饱和度平均值
Figure BDA0002167741150000094
组合特征1的饱和度变异系数
Figure BDA0002167741150000095
S134、根据所述矩阵计算模型中的重要度变异系数公式
Figure BDA0002167741150000096
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,
Figure BDA0002167741150000097
为组合特征i在所有月份中的重要度平均值。
根据所述矩阵计算模型中的重要度变异系数公式
Figure BDA0002167741150000098
即可计算得到每一所述组合特征的重要度变异系数,重要度变异系数即可用于对该组合特征的重要度在所有月份中的波动程度进行量化。具体的计算过程与饱和度变异系数类似,在此不作赘述。
S140、根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征。具体的,获取规则即是用于对所有组合特征进行筛选以获取得到目标组合特征的规则信息,通过获取规则结合所得到的特征计算信息即可从所有组合特征中筛选得到满足要求的目标组合特征,使用目标组合特征作为分析模型、预测模型等模型的输入节点,可大幅提高模型输入结果的准确率。具体的,筛选规则中包括保留规则及剔除规则。
在一实施例中,如图5所示,步骤S140包括子步骤S141、S142和S143。
S141、对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。
对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。具体的保留规则中可包含一条或多条规则,若某一组合特征满足保留规则中的任一条规则,则判断得到该组合特征满足保留规则,将该组合特征作为第一组合特征;若某一组合特征不满足保留规则中的任一条规则,则判断得到该组合特征不满足保留规则,将该组合特征作为第二组合特征。具体的,保留规则中所包含的规则可以是:重要度平均值的绝对值大于阈值α且饱和度变异系数小于阈值γ,重要度平均值的绝对值大于α且饱和度平均值大于阈值β。
例如,保留规则中仅包含一条规则为:重要度平均值的绝对值大于阈值α=0.35且饱和度变异系数小于阈值γ=0.40,则将满足该条保留规则的组合特征作为第一组合特征;将不满足该条保留规则的组合特征作为第二组合特征。
S142、对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的第二组合特征进行剔除以得到第三组合特征。
对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的第二组合特征进行剔除以得到第三组合特征。具体的剔除规则中可包含一条或多条规则,若某一组合特征满足剔除规则中的任一条规则,则判断得到该组合特征满足剔除规则,将该组合特征从第二组合特征中剔除;若某一组合特征不满足剔除规则中每一条规则,则判断得到该组合特征不满足剔除规则,不对该组合特征进行剔除处理。
具体的,剔除规则中所包含的规则可以是:饱和度间隔月份差值大于阈值η,重要度间隔月份差值大于阈值λ,逐月重要度中同时包含正值及负值,逐月重要度中最大值与逐月重要度中最小值的差大于阈值σ,(饱和度平均值-逐月饱和度后三位的均值)/饱和度平均值的计算结果大于阈值ν,饱和度平均值或重要度平均值均为“0”。
S143、获取所述第一组合特征及所述第三组合特征作为目标组合特征。
获取所述第一组合特征及所述第三组合特征作为目标组合特征。将所得到的第一组合特征及第三组合特征作为满足获取规则的组合特征,也即是最终所得到的目标组合特征。
在本发明实施例所提供的特征组合筛选方法中,根据特征组合规则从数据信息表中获取到多个组合特征,根据组合特征从数据信息表中获取到多个单月二维矩阵,计算得到每一组合特征的特征计算信息,根据获取规则及特征计算信息对组合特征进行筛选得到目标组合特征。通过上述方法,能够更加高效地从用户所输入的数据信息表中筛选得到目标组合特征,大幅提高了获取目标组合特征的效率,提升了构建神经网络模型的效率及可靠性,在实际应用过程中取得了良好的技术效果。
本发明实施例还提供一种特征组合筛选装置,该特征组合筛选装置用于执行前述特征组合筛选方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的特征组合筛选装置的示意性框图。该特征组合筛选装置可以配置于台式电脑、笔记本电脑、平板电脑或手机等用户终端中。
如图6所示,特征组合筛选装置100包括组合特征获取单元110、数据信息表二值化单元120、特征计算信息获取单元130和目标组合特征获取单元140。
组合特征获取单元110,用于若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征。
若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征。数据信息表中包含多条数据,数据信息表中还包含多个项目及一个响应条件,每一项目即对应一个特征,特征组合规则即是用于对多个特征进行组合的规则信息,通过特征组合规则对多个特征进行组合后即可得到组合特征。数据表中的每一条数据中还包含每一项目对应的项目值,也即是该条数据所包含的数据信息;数据信息表中还包含月份信息,可通过月份信息对数据信息表进行拆分。数据信息表中还包括每一条数据对应的响应信息,响应信息即是用于对每一条数据是否响应该响应条件进行记录的信息。
其他发明实施例中,如图7所示,所述组合特征获取单元110包括子单元:特征获取单元111和特征组合单元112。
特征获取单元111,用于根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征。
根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征。具体的,数据信息表中每一月份对应的数据信息均包含多个项目,每一月份的数据信息中所包含的多个项目均相同,每一项目即对应一个特征,因此根据一个月份的数据信息中所包含的项目即可得到对应的多个特征。
特征组合单元112,用于根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。
根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。具体的,预设特征数即是所得到的组合特征中所包含特征的数量信息,根据预设特征数对所有特征进行组合,即可对应得到多个组合特征,组合特征即可用于体现多个特征之间所存在的关联关系。其中,预设特征数中所包含的数量信息可以是一个也可以是多个。
数据信息表二值化单元120,用于根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵。
根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵。根据组合特征即可对数据信息表进行二值化以得到对应的二值化数值,二值化即是用“0”或“1”对数据信息进行表示的信息,通过将数据信息表进行二值化即可得到多个单月二维矩阵。计算机无法对数据信息表中的文字信息进行计算,但可对二值化数值进行计算,因此可根据二值化数值对数据信息表中的信息进行量化计算。针对一个月份的数据信息进行二值化即可得到一个单月二维矩阵,数据信息表中包含多个月份的数据信息,因此可对应得到多个单月二维矩阵。
其他发明实施例中,如图8所示,所述数据信息表二值化单元120包括子单元:数据信息表拆分单元121、单月特征数据获取单元122和单月特征数据二值化单元123。
数据信息表拆分单元121,用于根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息。
根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息。具体的,根据月份信息获取数据信息表中每一月份的数据信息,并获取每一条数据对应的响应信息,将每一月份的数据信息与每一条数据的响应信息进行组合即可得到多个单月数据信息,每一月份的数据信息即可对应生成一个单月数据信息,也即是数据信息表中包含月份的数量即是最终所得到的单月数据信息的数量。
单月特征数据获取单元122,用于获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。
获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据。每一组合特征中均包含多个项目,根据一个组合特征所包含的项目即可获取得到一个单月数据信息与该组合特征对应的一个单月特征数据,根据N个组合特征获取M个单月数据信息即可对应得到N×M个单月特征数据。若从数据信息表中获取得到18个单月数据信息,根据10个组合特征分别从18个单月数据信息中获取得到与所有组合特征对应的180个单月特征数据。
单月特征数据二值化单元123,用于根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。具体的,根据一个组合特征对一个单月特征数据进行二值化即可得到一组包含多个二值化数值的一维数组,将一个月份所包含的所有一维数组及相应信息对应转换得到的响应信息数组进行组合即可得到与该单月特征数据对应的一个单月二维矩阵。
具体的,某一个组合特征为某一组合特征中包括是否请假及是否迟到,若某一员工在“是否请假”的项目值为“是”且“是否迟到”的项目值为“是”,则将该员工对应的二值化数值记“1”;否则将该员工对应的二值化数值记为“0”。
特征计算信息获取单元130,用于根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数。
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息。具体的,矩阵计算模型即是用于对所得到的单月二维矩阵进行计算的模型,矩阵计算模型中包括饱和度计算公式计算、重要度计算公式、饱和度变异系数公式及重要度变异系数公式。根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月饱和度,根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征对应的逐月重要度,根据饱和度变异系数公式对每一组合特征的逐月饱和度进行计算即可得到每一组合特征的饱和度变异系数,根据重要度变异系数公式对每一组合特征的逐月重要度进行计算即可得到每一组合特征的重要度变异系数,也即是得到每一组合特征的特征计算信息。
其他发明实施例中,如图9所示,所述特征计算信息获取单元130包括子单元:逐月饱和度计算单元131、逐月重要度计算单元132、饱和度变异系数计算单元133和重要度变异系数计算单元134。
逐月饱和度计算单元131,用于根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度。
根据所述矩阵计算模型中的饱和度计算公式Tni=fni/(fni+gni)计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度,其中,Tni为组合特征i在第n月份的饱和度,fni为组合特征i在第n个单月二维矩阵中二值化数值为“1”的数量,gni为组合特征i在第n个单月二维矩阵中二值化数值为“0”的数量。根据饱和度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的饱和度,获取一个组合特征在所有月份的饱和度即可得到该组合特征的逐月饱和度,根据上述方法即可获取每一组合特征的逐月饱和度。
逐月重要度计算单元132,用于根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。
根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度。具体的,重要度计算公式为:Uni=(sni1/(sni1+rni1)-sni0/(sni0+rni0))×ln((sni1×(sni0+rni0))/(sni0×(sni1+rni1)))+(rni1/(sni1+rni1)-rni0/(sni0+rni0))×ln((rni1×(sni0+rni0))/(rni0×(sni1+rni1))),其中,Uni为组合特征i在第n月份的重要度,sni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且响应信息二值化数值为“1”的数量,rni1为组合特征i在第n个单月二维矩阵中二维数值为“1”且响应信息二值化数值为“0”的数量,sni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且响应信息二值化数值为“1”的数量,rni0为组合特征i在第n个单月二维矩阵中二维数值为“0”且响应信息二值化数值为“0”的数量。
根据重要度计算公式对所有单月二维矩阵进行计算即可得到每一组合特征在所有月份的重要度,获取一个组合特征在所有月份的重要度即可得到该组合特征的逐月重要度,根据上述方法即可获取每一组合特征的逐月重要度。
饱和度变异系数计算单元133,用于根据所述矩阵计算模型中的饱和度变异系数公式
Figure BDA0002167741150000151
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,为组合特征i在所有月份中的饱和度平均值。
根据所述矩阵计算模型中的饱和度变异系数公式
Figure BDA0002167741150000153
即可计算得到每一所述组合特征的饱和度变异系数。具体的,饱和度变异系数即可用于对该组合特征的饱和度在所有月份中的波动程度进行量化。
重要度变异系数计算单元134,用于根据所述矩阵计算模型中的重要度变异系数公式
Figure BDA0002167741150000154
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,为组合特征i在所有月份中的重要度平均值。
根据所述矩阵计算模型中的重要度变异系数公式
Figure BDA0002167741150000156
即可计算得到每一所述组合特征的重要度变异系数,重要度变异系数即可用于对该组合特征的重要度在所有月份中的波动程度进行量化。具体的计算过程与饱和度变异系数类似,在此不作赘述。
目标组合特征获取单元140,用于根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征。具体的,获取规则即是用于对所有组合特征进行筛选以获取得到目标组合特征的规则信息,通过获取规则结合所得到的特征计算信息即可从所有组合特征中筛选得到满足要求的目标组合特征,使用目标组合特征作为分析模型、预测模型等模型的输入节点,可大幅提高模型输入结果的准确率。具体的,筛选规则中包括保留规则及剔除规则。
其他发明实施例中,如图10所示,所述目标组合特征获取单元140包括子单元:第一判断单元141、第二判断单元142和组合特征获取单元143。
第一判断单元141,用于对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。
对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。具体的保留规则中可包含一条或多条规则,若某一组合特征满足保留规则中的任一条规则,则判断得到该组合特征满足保留规则,将该组合特征作为第一组合特征;若某一组合特征不满足保留规则中的任一条规则,则判断得到该组合特征不满足保留规则,将该组合特征作为第二组合特征。具体的,保留规则中所包含的规则可以是:重要度平均值的绝对值大于阈值α且饱和度变异系数小于阈值γ,重要度平均值的绝对值大于α且饱和度平均值大于阈值β。
第二判断单元142,用于对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的第二组合特征进行剔除以得到第三组合特征。
对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的第二组合特征进行剔除以得到第三组合特征。具体的剔除规则中可包含一条或多条规则,若某一组合特征满足剔除规则中的任一条规则,则判断得到该组合特征满足剔除规则,将该组合特征从第二组合特征中剔除;若某一组合特征不满足剔除规则中每一条规则,则判断得到该组合特征不满足剔除规则,不对该组合特征进行剔除处理。
具体的,剔除规则中所包含的规则可以是:饱和度间隔月份差值大于阈值η,重要度间隔月份差值大于阈值λ,逐月重要度中同时包含正值及负值,逐月重要度中最大值与逐月重要度中最小值的差大于阈值σ,(饱和度平均值-逐月饱和度后三位的均值)/饱和度平均值的计算结果大于阈值ν,饱和度平均值或重要度平均值均为“0”。
组合特征获取单元143,用于获取所述第一组合特征及所述第三组合特征作为目标组合特征。
获取所述第一组合特征及所述第三组合特征作为目标组合特征。将所得到的第一组合特征及第三组合特征作为满足获取规则的组合特征,也即是最终所得到的目标组合特征。
在本发明实施例所提供的特征组合筛选装置应用上述特征组合筛选方法,根据特征组合规则从数据信息表中获取到多个组合特征,根据组合特征从数据信息表中获取到多个单月二维矩阵,计算得到每一组合特征的特征计算信息,根据获取规则及特征计算信息对组合特征进行筛选得到目标组合特征。通过上述方法,能够更加高效地从用户所输入的数据信息表中筛选得到目标组合特征,大幅提高了获取目标组合特征的效率,提升了构建神经网络模型的效率及可靠性,在实际应用过程中取得了良好的技术效果。
上述特征组合筛选装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行特征组合筛选方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行特征组合筛选方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征;根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵;根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数;根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
在一实施例中,处理器502在执行若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征的步骤时,执行如下操作:根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征;根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。
在一实施例中,处理器502在执行根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵的步骤时,执行如下操作:根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息;获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
在一实施例中,处理器502在执行根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息的步骤时,执行如下操作:根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度;根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度;根据所述矩阵计算模型中的饱和度变异系数公式
Figure BDA0002167741150000181
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,为组合特征i在所有月份中的饱和度平均值;根据所述矩阵计算模型中的重要度变异系数公式
Figure BDA0002167741150000183
计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,为组合特征i在所有月份中的重要度平均值。
在一实施例中,处理器502在执行根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征的步骤时,执行如下操作:对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征;对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的第二组合特征进行剔除以得到第三组合特征;获取所述第一组合特征及所述第三组合特征作为目标组合特征。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征;根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵;根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数;根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
在一实施例中,所述若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征的步骤,包括:根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征;根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。
在一实施例中,所述根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵的步骤,包括:根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息;获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
在一实施例中,所述根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息的步骤,包括:根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度;根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度;根据所述矩阵计算模型中的饱和度变异系数公式
Figure BDA0002167741150000203
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,
Figure BDA0002167741150000201
为组合特征i在所有月份中的饱和度平均值;根据所述矩阵计算模型中的重要度变异系数公式计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,为组合特征i在所有月份中的重要度平均值。
在一实施例中,所述根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征的步骤,包括:对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征;对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的第二组合特征进行剔除以得到第三组合特征;获取所述第一组合特征及所述第三组合特征作为目标组合特征。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种特征组合筛选方法,其特征在于,包括:
若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征;
根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵;
根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数;
根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
2.根据权利要求1所述的特征组合筛选方法,其特征在于,所述根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征,包括:
根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征;
根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。
3.根据权利要求1所述的特征组合筛选方法,其特征在于,所述根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵,包括:
根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息;
获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;
根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
4.根据权利要求1所述的特征组合筛选方法,其特征在于,所述根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息,包括:
根据所述矩阵计算模型中的饱和度计算公式计算所有单月二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的逐月饱和度;
根据所述矩阵计算模型中的重要度计算公式计算所有单月二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的逐月重要度;
根据所述矩阵计算模型中的饱和度变异系数公式
Figure FDA0002167741140000021
计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有月份中饱和度的标准差,
Figure FDA0002167741140000022
为组合特征i在所有月份中的饱和度平均值;
根据所述矩阵计算模型中的重要度变异系数公式计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有月份中重要度的标准差,
Figure FDA0002167741140000024
为组合特征i在所有月份中的重要度平均值。
5.根据权利要求1所述的特征组合筛选方法,其特征在于,所述根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征,包括:
对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征;
对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的第二组合特征进行剔除以得到第三组合特征;
获取所述第一组合特征及所述第三组合特征作为目标组合特征。
6.一种特征组合筛选装置,其特征在于,包括:
组合特征获取单元,用于若接收到用户所输入的数据信息表,根据预设的特征组合规则从所述数据信息表中获取与所述特征组合规则对应的多个组合特征;
数据信息表二值化单元,用于根据所述组合特征对所述数据信息表进行二值化以得到多个单月二维矩阵;
特征计算信息获取单元,用于根据预设的矩阵计算模型对所有所述单月二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;其中,所述特征计算信息包括逐月饱和度、逐月重要度、饱和度变异系数及重要度变异系数;
目标组合特征获取单元,用于根据预设的获取规则及所述特征计算信息对所有所述组合特征的进行筛选以得到满足所述获取规则的目标组合特征;其中,所述获取规则包括保留规则及剔除规则。
7.根据权利要求6所述的特征组合筛选装置,其特征在于,所述组合特征获取单元,包括:
特征获取单元,用于根据所述数据信息表中所包含的项目获取与所述项目数量相同的多个特征;
特征组合单元,用于根据所述特征组合规则中的预设特征数对所有所述特征进行组合以得到多个组合特征。
8.根据权利要求6所述的特征组合筛选装置,其特征在于,所述数据信息表二值化单元,包括:
数据信息表拆分单元,用于根据月份信息对所述数据信息表进行拆分以得到多个单月数据信息;
单月特征数据获取单元,用于获取每一所述单月数据信息中与所有所述组合特征对应的数据信息作为单月特征数据;
单月特征数据二值化单元,用于根据所有所述组合特征对每一所述单月特征数据进行二值化以得到多个单月二维矩阵。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的特征组合筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的特征组合筛选方法。
CN201910752721.0A 2019-08-15 2019-08-15 特征组合筛选方法、装置、计算机设备及存储介质 Active CN110674104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752721.0A CN110674104B (zh) 2019-08-15 2019-08-15 特征组合筛选方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752721.0A CN110674104B (zh) 2019-08-15 2019-08-15 特征组合筛选方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110674104A true CN110674104A (zh) 2020-01-10
CN110674104B CN110674104B (zh) 2023-07-25

Family

ID=69075342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752721.0A Active CN110674104B (zh) 2019-08-15 2019-08-15 特征组合筛选方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110674104B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689023A (zh) * 2019-08-15 2020-01-14 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
WO2023050490A1 (zh) * 2021-09-30 2023-04-06 深圳前海环融联易信息科技服务有限公司 数据关联特征分析方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232540A1 (en) * 2015-02-10 2016-08-11 EverString Innovation Technology Predictive analytics for leads generation and engagement recommendations
US20170132509A1 (en) * 2015-11-06 2017-05-11 Adobe Systems Incorporated Item recommendations via deep collaborative filtering
US20180150746A1 (en) * 2016-02-05 2018-05-31 Huawei Technologies Co., Ltd. Feature Set Determining Method and Apparatus
CN109146193A (zh) * 2018-09-05 2019-01-04 平安科技(深圳)有限公司 产品智能推荐方法、装置、计算机设备及存储介质
CN109345198A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 简历筛选方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232540A1 (en) * 2015-02-10 2016-08-11 EverString Innovation Technology Predictive analytics for leads generation and engagement recommendations
US20170132509A1 (en) * 2015-11-06 2017-05-11 Adobe Systems Incorporated Item recommendations via deep collaborative filtering
US20180150746A1 (en) * 2016-02-05 2018-05-31 Huawei Technologies Co., Ltd. Feature Set Determining Method and Apparatus
CN109146193A (zh) * 2018-09-05 2019-01-04 平安科技(深圳)有限公司 产品智能推荐方法、装置、计算机设备及存储介质
CN109345198A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 简历筛选方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689023A (zh) * 2019-08-15 2020-01-14 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
CN110689023B (zh) * 2019-08-15 2024-01-16 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
WO2023050490A1 (zh) * 2021-09-30 2023-04-06 深圳前海环融联易信息科技服务有限公司 数据关联特征分析方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110674104B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
WO2021184727A1 (zh) 数据异常检测方法、装置、电子设备及存储介质
CN111461180B (zh) 样本分类方法、装置、计算机设备及存储介质
US20170140309A1 (en) Database analysis device and database analysis method
CN108833458A (zh) 一种应用推荐方法、装置、介质及设备
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN110674104B (zh) 特征组合筛选方法、装置、计算机设备及存储介质
CN114780606B (zh) 一种大数据挖掘方法及系统
CN112416590A (zh) 服务器系统资源调整方法、装置、计算机设备及存储介质
CN110633304B (zh) 组合特征筛选方法、装置、计算机设备及存储介质
CN110378543A (zh) 离职风险预测方法、装置、计算机设备和存储介质
CN110674838B (zh) 基于组合特征筛选的模型构建方法、装置、计算机设备
CN115881304B (zh) 基于智能检测的风险评估方法、装置、设备及介质
CN112084262A (zh) 数据信息筛选方法、装置、计算机设备及存储介质
CN110826008A (zh) 指标相关性分析方法、装置、计算机设备及存储介质
CN108961071B (zh) 自动预测组合业务收益的方法及终端设备
CN112085509A (zh) 通知信息发送方法、装置、计算机设备及存储介质
CN110263496B (zh) 岩芯特征尺寸确定方法及装置
CN110689023B (zh) 可靠组合特征提取方法、装置、计算机设备及存储介质
CN109447134B (zh) 数据合并方法、装置、计算机设备及存储介质
CN110008100A (zh) 用于网页访问量异常检测的方法及装置
CN114329213B (zh) 基于用户行为的电商平台优化方法、装置、设备及介质
CN113434574B (zh) 基于小样本的数据可靠性分析方法、装置、设备及介质
CN110992183A (zh) 企业交易信息分析方法、装置、计算机设备及存储介质
CN110659841B (zh) 风险资产筛选方法、装置、计算机设备及存储介质
CN109359197A (zh) 一种税费种类认证方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant