CN110689023B - 可靠组合特征提取方法、装置、计算机设备及存储介质 - Google Patents

可靠组合特征提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110689023B
CN110689023B CN201910752722.5A CN201910752722A CN110689023B CN 110689023 B CN110689023 B CN 110689023B CN 201910752722 A CN201910752722 A CN 201910752722A CN 110689023 B CN110689023 B CN 110689023B
Authority
CN
China
Prior art keywords
feature
information
combined
target item
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910752722.5A
Other languages
English (en)
Other versions
CN110689023A (zh
Inventor
陈远波
张海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910752722.5A priority Critical patent/CN110689023B/zh
Publication of CN110689023A publication Critical patent/CN110689023A/zh
Application granted granted Critical
Publication of CN110689023B publication Critical patent/CN110689023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了可靠组合特征提取方法、装置、计算机设备及存储介质。方法包括:根据数据信息表及目标项目分箱规则确定与目标项目分箱规则中所包含的目标项目对应的分箱区间信息,根据分箱区间信息对目标项目进行组合得到多个组合特征,根据组合特征及目标项目对数据信息表进行二值化得到多个二维矩阵,根据预置矩阵计算模型对所有二维矩阵进行计算得到每一组合特征的特征计算信息,根据预置组合特征提取规则对每一组合特征的特征计算信息进行判断以得到满足组合特征提取规则的可靠组合特征。本发明基于模型构建技术,能够根据从用户所输入的数据信息表中高效、准确地提取得到可靠组合特征,可大幅提升通过可靠组合特征所构建模型的可靠性。

Description

可靠组合特征提取方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种可靠组合特征提取方法、装置、计算机设备及存储介质。
背景技术
在基于神经网络构建分析模型、预测模型的过程中,为体现多个特征之间的关联关系,需将多个特征进行组合以得到组合特征,并以所得到的组合特征作为模型的输入节点。所得到的组合特征中,部分组合特征对模型的输入结果具有重要影响,这些组合特征为可靠组合特征,部分组合特征对模型的输出结果影响轻微,这些组合特征为非可靠组合特征,传统的模型构建过程中均是通过人工选择的方式将数据信息表中的项目进行组合得到组合特征以作为模型的输入节点,然而传统方法难以准确地将可靠组合特征从数据信息表中进行提取,从而导致对组合特征进行获取的准确率较低。因而,现有的技术方法存在对可靠组合特征进行获取时准确率较低的问题。
发明内容
本发明实施例提供了一种可靠组合特征提取方法、装置、计算机设备及存储介质,旨在解决现有技术方法中存在的对可靠组合特征进行获取时准确率较低的问题。
第一方面,本发明实施例提供了一种可靠组合特征提取方法,其包括:
若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间;
根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征;
根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵;
根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;
根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征。
第二方面,本发明实施例提供了一种可靠组合特征提取装置,其包括:
分箱区间信息获取单元,用于若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间;
目标项目组合单元,用于根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征;
二值化处理单元,用于根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵;
特征计算信息获取单元,用于根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;
可靠组合特征获取单元,用于根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的可靠组合特征提取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的可靠组合特征提取方法。
本发明实施例提供了一种可靠组合特征提取方法、装置、计算机设备及存储介质。根据数据信息表及目标项目分箱规则确定与目标项目分箱规则中所包含的目标项目对应的分箱区间信息,根据分析区间信息对目标项目进行组合得到多个组合特征,根据组合特征对数据信息表进行二值化,并根据矩阵计算模型计算得到每一组合特征的特征计算信息,根据组合特征提取规则从多个组合特征中提取可靠组合特征。通过上述方法,能够根据从用户所输入的数据信息表中高效、准确地提取得到可靠组合特征,可大幅提升通过可靠组合特征所构建模型的可靠性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的可靠组合特征提取方法的流程示意图;
图2为本发明实施例提供的可靠组合特征提取方法的子流程示意图;
图3为本发明实施例提供的可靠组合特征提取方法的另一子流程示意图;
图4为本发明实施例提供的可靠组合特征提取方法的另一子流程示意图;
图5为本发明实施例提供的可靠组合特征提取方法的另一子流程示意图;
图6为本发明实施例提供的可靠组合特征提取装置的示意性框图;
图7为本发明实施例提供的可靠组合特征提取装置的子单元示意性框图;
图8为本发明实施例提供的可靠组合特征提取装置的另一子单元示意性框图;
图9为本发明实施例提供的可靠组合特征提取装置的另一子单元示意性框图;
图10为本发明实施例提供的可靠组合特征提取装置的另一子单元示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的可靠组合特征提取方法的流程示意图。该可靠组合特征提取方法应用于用户终端中,该方法通过安装于用户终端中的应用软件进行执行,用户终端即是用于执行可靠组合特征提取方法以从用户所输入的数据信息表中提取可靠组合特征的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。
如图1所示,该方法包括步骤S110~S150。
S110、若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间。
若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息。用户所输入的数据信息表中包含多条数据,数据信息表中还包含多个项目及一个响应条件,预置的目标项目分箱规则即是用于确定数据信息表中对应目标项目的分箱区间的规则信息,目标项目分箱规则中包含多个目标项目,每一目标项目即与数据信息表中的一个项目相对应,目标项目可从数据信息表所包含的项目中确定,因此目标项目的数量可以与数据信息表中所包含项目的数量相同,目标项目的数量也可以少于数据信息表中所包含项目的数量,根据一个目标项目对应的分箱规则及数据信息表中与该目标项目对应的项目值,将该目标项目分箱并可生成与该目标项目对应的多个特征,将多个目标项目分别对应的特征进行排列组合即可得到多个组合特征。数据信息表中的每一条数据中还包含每一项目对应的项目值,也即是该条数据所包含的数据信息;数据信息表中还包含时间信息,时间信息可以是天、周、月、季度或年,因此可通过预置单位时间对包含时间信息的数据信息表进行拆分。数据信息表中还包括每一条数据对应的响应信息,响应信息即是用于对每一条数据是否响应该响应条件进行记录的信息。
例如,数据信息表中所包含的多条数据如表1所示。
表1
如表1中所示,儿童A对应的一行即为数据信息表中所包含的一条数据,“身高、体重、性别、是否城镇户籍”即为该数据信息表中所包含的项目,“是否发育正常”即为响应条件,响应条件即与每一条数据中的响应信息相对应,数据信息表中的时间信息为“月”。
在一实施例中,如图2所示,步骤S110包括子步骤S111和S112。
S111、获取所述数据信息表中与每一所述目标项目对应的项目的极值信息,其中,所述数据信息表包含有多个项目,每个所述项目对应有多个项目值,所述极值信息包括所述项目值中的极大值及极小值。
获取所述数据信息表中与每一所述目标项目对应的项目的极值信息,其中,所述极值信息包括极大值及极小值。具体的,数据信息表中每一天、周、月、季度或年所对应的数据信息中均包含多个项目,每一条数据中还包含每一项目对应的项目值,根据数据信息表中与每一目标项目对应的项目的项目值即可获取每一目标项目在数据信息表中的极大值及极小值,也即是每一目标项目对应的项目的的极值信息。
例如,某一目标项目为身高,则根据表1中所示的数据信息表即可对应得到“身高”这一目标项目的极值信息为:极大值131、极小值114。
S112、根据所述目标项目分箱规则及每一所述目标项目的极值信息确定每一所述目标项目的分箱区间信息。
根据所述项目分箱规则及每一所述目标项目的极值信息获取每一所述目标项目的分箱区间信息。具体的,目标项目分箱规则中包括每一目标项目对应所需生成特征的数量信息,根据目标项目对应所需生成特征的数量信息对某一个目标项目的极值信息进行分箱,即可将得到该目标项目对应包含多个分箱区间的分箱区间信息。每一个分箱区间的区间范围可通过公式Fi=(Xi-Yi)/Si计算并确定,根据分箱区间的区间范围结合极值信息即可确定每一目标项目的分箱区间信息,所述分箱区间信息中包含每一目标项目对应的多个分箱区间,通过分箱区间信息即可将数据信息表中目标项目对应项目值进行分类。其中,Fi为目标项目i的区间范围,Xi为目标项目i的极大值,Yi为目标项目i的极小值,Si为目标项目i在目标项目分箱规则中对应生成特征的数量信息。具体的,将极值信息中的极小值作为第一分箱区间的边界值,将极小值与区间范围之和作为第一分箱区间的另一边界值,通过上述方法即可确定每一分箱区间的区间范围,也即是得到分箱区间信息。
例如,目标项目分箱规则中“身高”这一目标项目对应生成特征的数量信息为“3”,则根据“身高”的极值信息:极大值131、极小值114,根据上述公式计算得到区间范围为(131-114)/3=5.67,根据区间范围对应获取到该目标项目的分箱区间信息为:身高区间1:[114,119.67)、身高区间2:[119.67,125.34)、身高区间3:[125.34,131]。
在一实施例中,步骤S110包括子步骤S111a。
S111a、获取所述数据信息表中所包含数据的条数信息,根据所述目标项目分箱规则及所述条数信息确定每一所述目标项目的分箱区间信息,所述数据信息表包含多条数据。
获取所述数据信息表中所包含数据的条数信息,根据所述目标项目分箱规则及所述条数信息确定每一所述目标项目的分箱区间信息。具体的,由于所述数据信息表包含多条数据,因此可获取数据信息表中所包含数据的条数信息,目标项目分箱规则中包括每一目标项目对应所需生成特征的数量。若对某一目标项目进行分箱,获取每一条数据与该目标项目对应的项目的项目值的平均值,也即为项目平均值,对该目标项目对应的多个项目平均值进行排序,根据该目标项目对应所需生成特征的数量及数据的条数进行分箱,即可将得到该目标项目对应包含多个分箱区间的分箱区间信息,每一分箱区间中所包含数据的数量Ji=Z/Si,其中,Ji为目标项目i每一分箱区间所包含数据的数量,Z为数据信息表中数据的数量信息,Si为目标项目i在目标项目分箱规则中对应生成特征的数量信息。
例如,表1中所包含数据的数量信息为“4”,目标项目分箱规则中“体重”这一目标项目对应生成特征的数量信息为“2”,则将“体重”这一目标项目分为两个分箱区间,每一分箱区间包含2条数据,对“体重”这一目标项目的项目平均值进行排序得到的排序结果如表2所示。
表2
根据表2中的排序结果得到该目标项目的分箱区间信息为:体重区间1:[37.5,44)、体重区间2:[44,49.5]。
S120、根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征。
对所有所述目标项目的分箱区间信息进行组合以得到多个组合特征。具体的,获取每一目标项目分箱区间信息中所包含的分箱区间,并对不同目标项目的分箱区间进行交叉组合,最终得到多个组合特征,每一个组合特征均包含所有目标项目中的一个分箱区间。
例如,“身高”这一目标项目的分箱区间信息中包含三个分箱区间,“体重”这一目标项目的分箱区间信息中包含两个分箱区间,则将两个目标项目的分箱区间进行交叉组合,即可得到六个组合特征。
S130、根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵。
根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵。根据组合特征及即可对数据信息表中与目标项目对应的数据信息进行二值化以得到对应的二值化数值,二值化即是用“0”或“1”对数据信息进行表示的信息,通过将数据信息表进行二值化即可得到多个二维矩阵。计算机无法对数据信息表中的文字信息进行计算,但可对二值化数值进行计算,因此可根据二值化数值对数据信息表中的信息进行量化计算。针对一个单位时间的数据信息进行二值化即可得到一个二维矩阵,对数据信息表中所包含的全部数据信息二值化,即可得到对应的多个二维矩阵。
在一实施例中,如图3所示,步骤S130包括子步骤S131、S132和S133。
S131、根据所述单位时间对所述数据信息表进行拆分以得到多份单元数据信息。
根据所述单位时间对所述数据信息表进行拆分以得到多份单元数据信息。具体的,获取数据信息表中每一单位时间对应的数据信息,并获取每一条数据对应的响应信息,将每一单位时间对应的数据信息与每一条数据的响应信息进行组合即可得到多个单元数据信息,每一单位时间对应的数据信息即可对应生成一个单元数据信息。
例如,数据信息表中所包含的时间信息为“天”,则预置的单位时间可以是天、周、月、季度或年;数据信息表中所包含的时间信息为“月”,则预置的单位时间可以是月、季度或年。若数据信息表中所包含的时间信息为“月”,且预置的单位时间为季度,则按照季度对时间信息为“月”的数据信息表进行拆分,每一季度中包含三个月份对应的数据信息,则将三个月份对应的数据信息取平均值作为该季度对应的数据信息。
例如,预置的单位时间为月,通过上述方法对应生成得到的一个单元数据信息如表3所示。
表3
S132、获取每一所述单元数据信息中与所有所述目标项目对应的单元数据信息作为单元特征数据。
获取每一所述单元数据信息中与所有所述目标项目对应的单元数据信息作为单元特征数据。根据项目组合信息中所包含的目标项目即可获取得到一个单元数据信息与所有目标项目对应的一个单元特征数据。
若从数据信息表中获取得到20个单元数据信息,根据所有目标项目分别从20个单元数据信息中获取得到与对应的20个单元特征数据。
例如,项目组合信息中所包含的目标项目为“身高”和“体重”,则根据表3中的单元数据信息获取得到对应的一个单元特征数据如表4所示。
表4
S133、根据所有所述组合特征对每一所述单元特征数据进行二值化以得到多个二维矩阵。
根据所有所述组合特征对每一所述单元特征数据进行二值化以得到多个二维矩阵。具体的,每一个组合特征均包含所有目标项目中的一个分箱区间,根据一个组合特征中所包含的分箱区间对一个单元特征数据进行二值化即可得到一组包含多个二值化数值的一维数组,单元特征数据中某一条数据的项目值均包含于该组合特征中所有的分箱区间,则将该条数据对应的二值化数值记“1”;否则将该条数据对应的二值化数值记为“0”;将一个单位时间所对应的所有一维数组及相应信息对应转换得到的响应信息数组进行组合即可得到与该单元特征数据对应的一个二维矩阵。
例如,某一个组合特征中所包含的分箱区间为身高区间2:[119.67,125.34)、体重区间1:[37.5,44),根据上述组合特征对表4中的单元特征数据进行二值化得到对应的一维数组如表5所示。
组合特征1
儿童A 0
儿童B 0
儿童C 0
儿童D 1
表5
对于“发育是否正常”这一响应条件,在生成二维矩阵时也需进行二值化,具体的,若“发育是否正常”的响应信息为“是”则将该响应信息对应的二值化数值记为“1”;若“发育是否正常”的响应信息为“否”则将该响应信息对应的二值化数值记“0”。
例如,根据多个组合特征获取得到一个二维矩阵如表6所示。
表6
S140、根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息,其中,所述特征计算信息包括饱和度信息、重要度信息、饱和度变异系数及重要度变异系数。
根据预设的矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息。具体的,矩阵计算模型即是用于对所得到的二维矩阵进行计算的模型,矩阵计算模型中包括饱和度计算公式计算、重要度计算公式、饱和度变异系数计算公式及重要度变异系数计算公式。根据饱和度计算公式对所有二维矩阵进行计算即可得到每一组合特征对应的饱和度信息,根据重要度计算公式对所有二维矩阵进行计算即可得到每一组合特征对应的重要度信息,根据饱和度变异系数计算公式对每一组合特征的饱和度信息进行计算即可得到每一组合特征的饱和度变异系数,根据重要度变异系数计算公式对每一组合特征的重要度信息进行计算即可得到每一组合特征的重要度变异系数,也即是得到每一组合特征的特征计算信息。
在一实施例中,如图4所示,步骤S140包括子步骤S141、S142、S143和S144。
S141、根据所述矩阵计算模型中的饱和度计算公式计算所有二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的饱和度信息。
每一组合特征对应的饱和度以得到每一所述组合特征的饱和度信息,其中,Tni为组合特征i中第n个饱和度,fni为组合特征i在第n个二维矩阵中二值化数值为“1”的数量,gni为组合特征i在第n个二维矩阵中二值化数值为“0”的数量。根据饱和度计算公式对所有二维矩阵进行计算即可得到每一组合特征对应的所有饱和度,获取一个组合特征在所有单位时间对应的饱和度即可得到该组合特征的饱和度信息,根据上述方法即可获取每一组合特征的饱和度信息。
若组合特征1在月份1的二维矩阵中二值化数值为“1”的数量是“69”,在该二维矩阵中二值化数值为“0”的数量是“131”,则对应计算得到组合特征1在月份1的饱和度T=69/(69+131)=0.345。
例如,通过上述方法计算得到某一组合特征的饱和度信息如表7所示。
月份 月份1 月份2 月份3 月份4 月份5
组合特征1 0.345 0.180 0.375 0.195 0.080
表7
S142、根据所述矩阵计算模型中的重要度计算公式计算所有二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的重要度信息。
根据所述矩阵计算模型中的重要度计算公式计算所有二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的重要度信息。具体的,重要度计算公式为:Uni=(sni1/(sni1+rni1)-sni0/(sni0+rni0))×ln((sni1×(sni0+rni0))/(sni0×(sni1+rni1)))+(rni1/(sni1+rni1)-rni0/(sni0+rni0))×ln((rni1×(sni0+rni0))/(rni0×(sni1+rni1))),其中,Uni为组合特征i中第n个重要度,sni1为组合特征i在第n个二维矩阵中二维数值为“1”且响应信息二值化数值为“1”的数量,rni1为组合特征i在第n个二维矩阵中二维数值为“1”且响应信息二值化数值为“0”的数量,sni0为组合特征i在第n个二维矩阵中二维数值为“0”且响应信息二值化数值为“1”的数量,rni0为组合特征i在第n个二维矩阵中二维数值为“0”且响应信息二值化数值为“0”的数量。
根据重要度计算公式对所有二维矩阵进行计算即可得到每一组合特征在所有单位时间对应的重要度,获取一个组合特征在所有单位时间对应的重要度即可得到该组合特征的重要度信息,根据上述方法即可获取每一组合特征的重要度信息。
S143、根据所述矩阵计算模型中的饱和度变异系数计算公式计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有单位时间对应饱和度的标准差,/>为组合特征i在所有单位时间对应饱和度的平均值。
根据所述矩阵计算模型中的饱和度变异系数计算公式即可计算得到每一所述组合特征的饱和度变异系数。具体的,饱和度变异系数即可用于对该组合特征的饱和度在一段时间内的波动程度进行量化。
例如,对表7中组合特征1的饱和度信息进行计算,得到组合特征1的饱和度在所有单位时间对应的标准差FT1=0.1228,计算得到组合特征1的饱和度平均值组合特征1的饱和度变异系数/>
S144、根据所述矩阵计算模型中的重要度变异系数计算公式计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有单位时间对应重要度的标准差,/>为组合特征i在所有单位时间对应重要度的平均值。
根据所述矩阵计算模型中的重要度变异系数计算公式即可计算得到每一所述组合特征的重要度变异系数,重要度变异系数即可用于对该组合特征的重要度在一段时间内的波动程度进行量化。具体的计算过程与饱和度变异系数类似,在此不作赘述。
S150、根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征,其中,所述组合特征提取规则包括保留规则及剔除规则。
根据预设的获取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述获取规则的优势组合特征。具体的,获取规则即是用于对所有组合特征进行筛选以获取得到优势组合特征的规则信息,通过获取规则结合所得到的特征计算信息即可从所有组合特征中筛选得到满足要求的优势组合特征。具体的,组合特征提取规则中包括保留规则及剔除规则。
在一实施例中,如图5所示,步骤S150包括子步骤S151、S152和S153。
S151、对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。
对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。具体的保留规则中可包含一条或多条规则,若某一组合特征满足保留规则中的任一条规则,则判断得到该组合特征满足保留规则,将该组合特征作为第一组合特征;若某一组合特征不满足保留规则中的任一条规则,则判断得到该组合特征不满足保留规则,将该组合特征作为第二组合特征。
具体的,保留规则中所包含的规则可以是:重要度平均值的绝对值大于阈值P1且饱和度变异系数小于阈值P2,重要度平均值的绝对值大于P1且饱和度平均值大于阈值P3
例如,保留规则中仅包含一条规则为:重要度平均值的绝对值大于阈值P1=0.35且饱和度变异系数小于阈值P2=0.40,则将满足该条保留规则的组合特征作为第一组合特征;将不满足该条保留规则的组合特征作为第二组合特征。
S152、对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的组合特征进行剔除以得到第三组合特征。
对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的组合特征进行剔除以得到第三组合特征。具体的剔除规则中可包含一条或多条规则,若某一组合特征满足剔除规则中的任一条规则,则判断得到该组合特征满足剔除规则,将该组合特征从第二组合特征中剔除;若某一组合特征不满足剔除规则中每一条规则,则判断得到该组合特征不满足剔除规则,不对该组合特征进行剔除处理。
具体的,剔除规则中所包含的规则可以是:饱和度间隔差值大于阈值P4,重要度间隔差值大于阈值P5,重要度信息中同时包含正值及负值,重要度信息中最大值与重要度信息中最小值的差大于阈值P6,(饱和度平均值-饱和度信息后三位的均值)/饱和度平均值的计算结果大于阈值P7,饱和度平均值或重要度平均值均为“0”。
S153、获取所述第一组合特征及所述第三组合特征作为所得到的优势组合特征;
获取所述第一组合特征及所述第三组合特征作为所得到的优势组合特征。将所得到的第一组合特征及第三组合特征作为满足获取规则的组合特征,也即是最终所得到的优势组合特征,使用优势组合特征作为分析模型、预测模型等模型的输入节点,可大幅提高模型输入结果的准确率。
在本发明实施例所提供的可靠组合特征提取方法中,根据数据信息表及目标项目分箱规则确定与目标项目分箱规则中所包含的目标项目对应的分箱区间信息,根据分析区间信息对目标项目进行组合得到多个组合特征,根据组合特征对数据信息表进行二值化,并根据矩阵计算模型计算得到每一组合特征的特征计算信息,根据组合特征提取规则从多个组合特征中提取可靠组合特征。通过上述方法,能够根据从用户所输入的数据信息表中高效、准确地提取得到可靠组合特征,可大幅提升通过可靠组合特征所构建模型的可靠性,在实际应用过程中取得了良好的技术效果。
本发明实施例还提供一种可靠组合特征提取装置,该可靠组合特征提取装置用于执行前述可靠组合特征提取方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的可靠组合特征提取装置的示意性框图。该可靠组合特征提取装置可以配置于台式电脑、笔记本电脑、平板电脑或手机等用户终端中。
如图6所示,可靠组合特征提取装置100包括分箱区间信息获取单元110、目标项目组合单元120、二值化处理单元130、特征计算信息获取单元140和可靠组合特征获取单元150。
分箱区间信息获取单元110,用于若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间。
若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息。用户所输入的数据信息表中包含多条数据,数据信息表中还包含多个项目及一个响应条件,预置的目标项目分箱规则即是用于确定数据信息表中对应目标项目的分箱区间的规则信息,目标项目分箱规则中包含多个目标项目,每一目标项目即与数据信息表中的一个项目相对应,目标项目可从数据信息表所包含的项目中确定,因此目标项目的数量可以与数据信息表中所包含项目的数量相同,目标项目的数量也可以少于数据信息表中所包含项目的数量,根据一个目标项目对应的分箱规则及数据信息表中与该目标项目对应的项目值,将该目标项目分箱并可生成与该目标项目对应的多个特征,将多个目标项目分别对应的特征进行排列组合即可得到多个组合特征。数据信息表中的每一条数据中还包含每一项目对应的项目值,也即是该条数据所包含的数据信息;数据信息表中还包含时间信息,时间信息可以是天、周、月、季度或年,因此可通过预置单位时间对包含时间信息的数据信息表进行拆分。数据信息表中还包括每一条数据对应的响应信息,响应信息即是用于对每一条数据是否响应该响应条件进行记录的信息。
其他发明实施例中,如图7所示,所述分箱区间信息获取单元110包括子单元:极值信息获取单元111和第一分箱区间信息确定单元112。
极值信息获取单元111,用于获取所述数据信息表中与每一所述目标项目对应的项目的极值信息,其中,所述数据信息表包含有多个项目,每个所述项目对应有多个项目值,所述极值信息包括所述项目值中的极大值及极小值。
获取所述数据信息表中与每一所述目标项目对应的项目的极值信息其中所述极值信息包括极大值及极小值。具体的,数据信息表中每一天、周、月、季度或年所对应的数据信息中均包含多个项目,每一条数据中还包含每一项目对应的项目值,根据数据信息表中与每一目标项目对应的项目的项目值即可获取每一目标项目在数据信息表中的极大值及极小值,也即是每一目标项目对应的项目的的极值信息。
第一分箱区间信息确定单元112,用于根据所述目标项目分箱规则及每一所述目标项目的极值信息确定每一所述目标项目的分箱区间信息。
根据所述项目分箱规则及每一所述目标项目的极值信息获取每一所述目标项目的分箱区间信息。具体的,目标项目分箱规则中包括每一目标项目对应所需生成特征的数量信息,根据目标项目对应所需生成特征的数量信息对某一个目标项目的极值信息进行分箱,即可将得到该目标项目对应包含多个分箱区间的分箱区间信息。每一个分箱区间的区间范围可通过公式Fi=(Xi-Yi)/Si计算并确定,根据分箱区间的区间范围结合极值信息即可确定每一目标项目的分箱区间信息,所述分箱区间信息中包含每一目标项目对应的多个分箱区间,通过分箱区间信息即可将数据信息表中目标项目对应项目值进行分类。其中,Fi为目标项目i的区间范围,Xi为目标项目i的极大值,Yi为目标项目i的极小值,Si为目标项目i在目标项目分箱规则中对应生成特征的数量信息。具体的,将极值信息中的极小值作为第一分箱区间的边界值,将极小值与区间范围之和作为第一分箱区间的另一边界值,通过上述方法即可确定每一分箱区间的区间范围,也即是得到分箱区间信息。
其他发明实施例中,所述分箱区间信息获取单元110包括子单元:第二分箱区间信息确定单元111a。
第二分箱区间信息确定单元111a,用于获取所述数据信息表中所包含数据的条数信息,根据所述目标项目分箱规则及所述条数信息确定每一所述目标项目的分箱区间信息,所述数据信息表包含多条数据。
获取所述数据信息表中所包含数据的条数信息,根据所述目标项目分箱规则及所述条数信息确定每一所述目标项目的分箱区间信息。具体的,由于所述数据信息表包含多条数据,因此可获取数据信息表中所包含数据的条数信息,目标项目分箱规则中包括每一目标项目对应所需生成特征的数量。若对某一目标项目进行分箱,获取每一条数据与该目标项目对应的项目的项目值的平均值,也即为项目平均值,对该目标项目对应的多个项目平均值进行排序,根据该目标项目对应所需生成特征的数量及数据的条数进行分箱,即可将得到该目标项目对应包含多个分箱区间的分箱区间信息,每一分箱区间中所包含数据的数量Ji=Z/Si,其中,Ji为目标项目i每一分箱区间所包含数据的数量,Z为数据信息表中数据的数量信息,Si为目标项目i在目标项目分箱规则中对应生成特征的数量信息。
目标项目组合单元120,用于根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征。
对所有所述目标项目的分箱区间信息进行组合以得到多个组合特征。具体的,获取每一目标项目分箱区间信息中所包含的分箱区间,并对不同目标项目的分箱区间进行交叉组合,最终得到多个组合特征,每一个组合特征均包含所有目标项目中的一个分箱区间。
二值化处理单元130,用于根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵。
根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵。根据组合特征及即可对数据信息表中与目标项目对应的数据信息进行二值化以得到对应的二值化数值,二值化即是用“0”或“1”对数据信息进行表示的信息,通过将数据信息表进行二值化即可得到多个二维矩阵。计算机无法对数据信息表中的文字信息进行计算,但可对二值化数值进行计算,因此可根据二值化数值对数据信息表中的信息进行量化计算。针对一个单位时间的数据信息进行二值化即可得到一个二维矩阵,对数据信息表中所包含的全部数据信息二值化,即可得到对应的多个二维矩阵。
其他发明实施例中,如图8所示,所述二值化处理单元130包括子单元:数据信息表拆分单元131、单元特征数据获取单元132和二维矩阵获取单元133。
数据信息表拆分单元131,用于根据所述单位时间对所述数据信息表进行拆分以得到多份单元数据信息。
根据所述单位时间对所述数据信息表进行拆分以得到多份单元数据信息。具体的,获取数据信息表中每一单位时间对应的数据信息,并获取每一条数据对应的响应信息,将每一单位时间对应的数据信息与每一条数据的响应信息进行组合即可得到多个单元数据信息,每一单位时间对应的数据信息即可对应生成一个单元数据信息。
单元特征数据获取单元132,用于获取每一所述单元数据信息中与所有所述目标项目对应的单元数据信息作为单元特征数据。
获取每一所述单元数据信息中与所有所述目标项目对应的单元数据信息作为单元特征数据。根据项目组合信息中所包含的目标项目即可获取得到一个单元数据信息与所有目标项目对应的一个单元特征数据。
二维矩阵获取单元133,用于根据所有所述组合特征对每一所述单元特征数据进行二值化以得到多个二维矩阵。
根据所有所述组合特征对每一所述单元特征数据进行二值化以得到多个二维矩阵。具体的,每一个组合特征均包含所有目标项目中的一个分箱区间,根据一个组合特征中所包含的分箱区间对一个单元特征数据进行二值化即可得到一组包含多个二值化数值的一维数组,单元特征数据中某一条数据的项目值均包含于该组合特征中所有的分箱区间,则将该条数据对应的二值化数值记“1”;否则将该条数据对应的二值化数值记为“0”;将一个单位时间所对应的所有一维数组及相应信息对应转换得到的响应信息数组进行组合即可得到与该单元特征数据对应的一个二维矩阵。
特征计算信息获取单元140,用于根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息,其中,所述特征计算信息包括饱和度信息、重要度信息、饱和度变异系数及重要度变异系数。
根据预设的矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息。具体的,矩阵计算模型即是用于对所得到的二维矩阵进行计算的模型,矩阵计算模型中包括饱和度计算公式计算、重要度计算公式、饱和度变异系数计算公式及重要度变异系数计算公式。根据饱和度计算公式对所有二维矩阵进行计算即可得到每一组合特征对应的饱和度信息,根据重要度计算公式对所有二维矩阵进行计算即可得到每一组合特征对应的重要度信息,根据饱和度变异系数计算公式对每一组合特征的饱和度信息进行计算即可得到每一组合特征的饱和度变异系数,根据重要度变异系数计算公式对每一组合特征的重要度信息进行计算即可得到每一组合特征的重要度变异系数,也即是得到每一组合特征的特征计算信息。
其他发明实施例中,如图9所示,所述特征计算信息获取单元140包括子单元:饱和度信息计算单元141、重要度信息计算单元142、饱和度变异系数计算单元143和重要度变异系数计算单元144。
饱和度信息计算单元141,用于根据所述矩阵计算模型中的饱和度计算公式计算所有二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的饱和度信息。
每一组合特征对应的饱和度以得到每一所述组合特征的饱和度信息,其中,Tni为组合特征i中第n个饱和度,fni为组合特征i在第n个二维矩阵中二值化数值为“1”的数量,gni为组合特征i在第n个二维矩阵中二值化数值为“0”的数量。根据饱和度计算公式对所有二维矩阵进行计算即可得到每一组合特征对应的所有饱和度,获取一个组合特征在所有单位时间对应的饱和度即可得到该组合特征的饱和度信息,根据上述方法即可获取每一组合特征的饱和度信息。
重要度信息计算单元142,用于根据所述矩阵计算模型中的重要度计算公式计算所有二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的重要度信息。
根据所述矩阵计算模型中的重要度计算公式计算所有二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的重要度信息。具体的,重要度计算公式为:Uni=(sni1/(sni1+rni1)-sni0/(sni0+rni0))×ln((sni1×(sni0+rni0))/(sni0×(sni1+rni1)))+(rni1/(sni1+rni1)-rni0/(sni0+rni0))×ln((rni1×(sni0+rni0))/(rni0×(sni1+rni1))),其中,Uni为组合特征i中第n个重要度,sni1为组合特征i在第n个二维矩阵中二维数值为“1”且响应信息二值化数值为“1”的数量,rni1为组合特征i在第n个二维矩阵中二维数值为“1”且响应信息二值化数值为“0”的数量,sni0为组合特征i在第n个二维矩阵中二维数值为“0”且响应信息二值化数值为“1”的数量,rni0为组合特征i在第n个二维矩阵中二维数值为“0”且响应信息二值化数值为“0”的数量。
根据重要度计算公式对所有二维矩阵进行计算即可得到每一组合特征在所有单位时间对应的重要度,获取一个组合特征在所有单位时间对应的重要度即可得到该组合特征的重要度信息,根据上述方法即可获取每一组合特征的重要度信息。
饱和度变异系数计算单元143,用于根据所述矩阵计算模型中的饱和度变异系数计算公式计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有单位时间对应饱和度的标准差,/>为组合特征i在所有单位时间对应饱和度的平均值。
根据所述矩阵计算模型中的饱和度变异系数计算公式即可计算得到每一所述组合特征的饱和度变异系数。具体的,饱和度变异系数即可用于对该组合特征的饱和度在一段时间内的波动程度进行量化。
重要度变异系数计算单元144,用于根据所述矩阵计算模型中的重要度变异系数计算公式计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有单位时间对应重要度的标准差,/>为组合特征i在所有单位时间对应重要度的平均值。
根据所述矩阵计算模型中的重要度变异系数计算公式即可计算得到每一所述组合特征的重要度变异系数,重要度变异系数即可用于对该组合特征的重要度在一段时间内的波动程度进行量化。具体的计算过程与饱和度变异系数类似,在此不作赘述。
可靠组合特征获取单元150,用于根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征,其中,所述组合特征提取规则包括保留规则及剔除规则。
根据预设的获取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述获取规则的优势组合特征。具体的,获取规则即是用于对所有组合特征进行筛选以获取得到优势组合特征的规则信息,通过获取规则结合所得到的特征计算信息即可从所有组合特征中筛选得到满足要求的优势组合特征。具体的,组合特征提取规则中包括保留规则及剔除规则。
其他发明实施例中,如图10所示,所述可靠组合特征获取单元150包括子单元:第一判断单元151、第二判断单元152和组合特征获取单元153。
第一判断单元151,用于对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。
对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征。具体的保留规则中可包含一条或多条规则,若某一组合特征满足保留规则中的任一条规则,则判断得到该组合特征满足保留规则,将该组合特征作为第一组合特征;若某一组合特征不满足保留规则中的任一条规则,则判断得到该组合特征不满足保留规则,将该组合特征作为第二组合特征。
第二判断单元152,用于对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的组合特征进行剔除以得到第三组合特征。
对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的组合特征进行剔除以得到第三组合特征。具体的剔除规则中可包含一条或多条规则,若某一组合特征满足剔除规则中的任一条规则,则判断得到该组合特征满足剔除规则,将该组合特征从第二组合特征中剔除;若某一组合特征不满足剔除规则中每一条规则,则判断得到该组合特征不满足剔除规则,不对该组合特征进行剔除处理。
组合特征获取单元153,用于获取所述第一组合特征及所述第三组合特征作为所得到的优势组合特征;
获取所述第一组合特征及所述第三组合特征作为所得到的优势组合特征。将所得到的第一组合特征及第三组合特征作为满足获取规则的组合特征,也即是最终所得到的优势组合特征,使用优势组合特征作为分析模型、预测模型等模型的输入节点,可大幅提高模型输入结果的准确率。
在本发明实施例所提供的可靠组合特征提取装置应用上述可靠组合特征提取方法,根据数据信息表及目标项目分箱规则确定与目标项目分箱规则中所包含的目标项目对应的分箱区间信息,根据分析区间信息对目标项目进行组合得到多个组合特征,根据组合特征对数据信息表进行二值化,并根据矩阵计算模型计算得到每一组合特征的特征计算信息,根据组合特征提取规则从多个组合特征中提取可靠组合特征。通过上述方法,能够根据从用户所输入的数据信息表中高效、准确地提取得到可靠组合特征,可大幅提升通过可靠组合特征所构建模型的可靠性,在实际应用过程中取得了良好的技术效果。
上述可靠组合特征提取装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行可靠组合特征提取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行可靠组合特征提取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间;根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征;根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵;根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征。
在一实施例中,处理器502在执行若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息的步骤时,执行如下操作:获取所述数据信息表中与每一所述目标项目对应的项目的极值信息,其中,所述数据信息表包含有多个项目,每个所述项目对应有多个项目值,所述极值信息包括所述项目值中的极大值及极小值;根据所述目标项目分箱规则及每一所述目标项目的极值信息确定每一所述目标项目的分箱区间信息。
在一实施例中,处理器502在执行若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息的步骤时,执行如下操作:获取所述数据信息表中所包含数据的条数信息,根据所述目标项目分箱规则及所述条数信息确定每一所述目标项目的分箱区间信息,所述数据信息表包含多条数据。
在一实施例中,处理器502在执行根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵的步骤时,执行如下操作:根据所述单位时间对所述数据信息表进行拆分以得到多份单元数据信息,所述单位时间为天、周、月、季度或年;获取每一所述单元数据信息中与所有所述目标项目对应的单元数据信息作为单元特征数据;根据所有所述组合特征对每一所述单元特征数据进行二值化以得到多个二维矩阵。
在一实施例中,处理器502在执行根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息的步骤时,执行如下操作:根据所述矩阵计算模型中的饱和度计算公式计算所有二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的饱和度信息;根据所述矩阵计算模型中的重要度计算公式计算所有二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的重要度信息;根据所述矩阵计算模型中的饱和度变异系数计算公式计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有单位时间对应饱和度的标准差,/>为组合特征i在所有单位时间对应饱和度的平均值;根据所述矩阵计算模型中的重要度变异系数计算公式/>计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有单位时间对应重要度的标准差,/>为组合特征i在所有单位时间对应重要度的平均值。
在一实施例中,处理器502在执行根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征的步骤时,执行如下操作:对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征;对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的组合特征进行剔除以得到第三组合特征;获取所述第一组合特征及所述第三组合特征作为所得到的优势组合特征。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间;根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征;根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵;根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征。
在一实施例中,所述若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息的步骤,包括::获取所述数据信息表中与每一所述目标项目对应的项目的极值信息,其中,所述数据信息表包含有多个项目,每个所述项目对应有多个项目值,所述极值信息包括所述项目值中的极大值及极小值;根据所述目标项目分箱规则及每一所述目标项目的极值信息确定每一所述目标项目的分箱区间信息。
在一实施例中,所述若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息的步骤,包括:获取所述数据信息表中所包含数据的条数信息,根据所述目标项目分箱规则及所述条数信息确定每一所述目标项目的分箱区间信息,所述数据信息表包含多条数据。
在一实施例中,所述根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵的步骤,包括:根据所述单位时间对所述数据信息表进行拆分以得到多份单元数据信息,所述单位时间为天、周、月、季度或年;获取每一所述单元数据信息中与所有所述目标项目对应的单元数据信息作为单元特征数据;根据所有所述组合特征对每一所述单元特征数据进行二值化以得到多个二维矩阵。
在一实施例中,所述根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息的步骤,包括:根据所述矩阵计算模型中的饱和度计算公式计算所有二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的饱和度信息;根据所述矩阵计算模型中的重要度计算公式计算所有二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的重要度信息;根据所述矩阵计算模型中的饱和度变异系数计算公式计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有单位时间对应饱和度的标准差,/>为组合特征i在所有单位时间对应饱和度的平均值;根据所述矩阵计算模型中的重要度变异系数计算公式/>计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有单位时间对应重要度的标准差,/>为组合特征i在所有单位时间对应重要度的平均值。
在一实施例中,所述根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征的步骤,包括:对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征;对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的组合特征进行剔除以得到第三组合特征;获取所述第一组合特征及所述第三组合特征作为所得到的优势组合特征。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种可靠组合特征提取方法,其特征在于,包括:
若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间;
根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征;
根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵;
根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;
根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征;
所述特征计算信息包括饱和度信息、重要度信息、饱和度变异系数及重要度变异系数,所述根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息,包括:
根据所述矩阵计算模型中的饱和度计算公式计算所有二维矩阵中每一组合特征对应的饱和度以得到每一所述组合特征的饱和度信息;所述饱和度的计算公式为Tni=fni/(fni+gni),其中,Tni为组合特征i中第n个饱和度,fni为组合特征i在第n个二维矩阵中二值化数值为“1”的数量,gni为组合特征i在第n个二维矩阵中二值化数值为“0”的数量;
根据所述矩阵计算模型中的重要度计算公式计算所有二维矩阵中每一组合特征对应的重要度以得到每一所述组合特征的重要度信息;所述重要度的计算公式为:Uni=(sni1/(sni1+rni1)-sni0/(sni0+rni0))×ln((sni1×(sni0+rni0))/(sni0×(sni1+rni1)))+(rni1/(sni1+rni1)-rni0/(sni0+rni0))×ln((rni1×(sni0+rni0))/(rni0×(sni1+rni1))),其中,Uni为组合特征i中第n个重要度,sni1为组合特征i在第n个二维矩阵中二维数值为“1”且响应信息二值化数值为“1”的数量,rni1为组合特征i在第n个二维矩阵中二维数值为“1”且响应信息二值化数值为“0”的数量,sni0为组合特征i在第n个二维矩阵中二维数值为“0”且响应信息二值化数值为“1”的数量,rni0为组合特征i在第n个二维矩阵中二维数值为“0”且响应信息二值化数值为“0”的数量;
根据所述矩阵计算模型中的饱和度变异系数计算公式计算得到每一所述组合特征的饱和度变异系数,其中,Bi为组合特征i的饱和度变异系数,FTi为组合特征i在所有单位时间对应饱和度的标准差,/>为组合特征i在所有单位时间对应饱和度的平均值;
根据所述矩阵计算模型中的重要度变异系数计算公式计算得到每一所述组合特征的重要度变异系数,其中,Zi为组合特征i的重要度变异系数,FUi为组合特征i在所有单位时间对应重要度的标准差,/>为组合特征i在所有单位时间对应重要度的平均值。
2.根据权利要求1所述的可靠组合特征提取方法,其特征在于,所述根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,包括:
获取所述数据信息表中与每一所述目标项目对应的项目的极值信息,其中,所述数据信息表包含有多个项目,每个所述项目对应有多个项目值,所述极值信息包括所述项目值中的极大值及极小值;
根据所述目标项目分箱规则及每一所述目标项目的极值信息确定每一所述目标项目的分箱区间信息。
3.根据权利要求1所述的可靠组合特征提取方法,其特征在于,所述根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,包括:
获取所述数据信息表中所包含数据的条数信息,根据所述目标项目分箱规则及所述条数信息确定每一所述目标项目的分箱区间信息,所述数据信息表包含多条数据。
4.根据权利要求1所述的可靠组合特征提取方法,其特征在于,所述根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵,包括:
根据所述单位时间对所述数据信息表进行拆分以得到多份单元数据信息,所述单位时间为天、周、月、季度或年;
获取每一所述单元数据信息中与所有所述目标项目对应的单元数据信息作为单元特征数据;
根据所有所述组合特征对每一所述单元特征数据进行二值化以得到多个二维矩阵。
5.根据权利要求1所述的可靠组合特征提取方法,其特征在于,所述组合特征提取规则包括保留规则及剔除规则,所述根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征,包括:
对每一所述组合特征的特征计算信息是否满足所述保留规则进行判断,以获取满足所述保留规则的第一组合特征及不满足所述保留规则的第二组合特征;
对每一所述第二组合特征的特征计算信息是否满足所述剔除规则进行判断,将满足所述剔除规则的组合特征进行剔除以得到第三组合特征;
获取所述第一组合特征及所述第三组合特征作为所得到的优势组合特征。
6.一种可靠组合特征提取装置,所述装置用于执行如权利要求1-5任一项所述的可靠组合特征提取方法,其特征在于,所述装置包括:
分箱区间信息获取单元,用于若接收到用户所输入的数据信息表,根据所述数据信息表及预设的目标项目分箱规则确定与所述目标项目分箱规则中所包含的目标项目对应的分箱区间信息,其中,所述分箱区间信息中包含每一目标项目对应的多个分箱区间;
目标项目组合单元,用于根据所述分箱区间信息对所述目标项目进行组合以得到多个组合特征;
二值化处理单元,用于根据所有所述组合特征、预置单位时间及所述目标项目对所述数据信息表进行二值化以得到多个二维矩阵;
特征计算信息获取单元,用于根据预置矩阵计算模型对所有所述二维矩阵进行计算以得到每一所述组合特征对应的特征计算信息;
可靠组合特征获取单元,用于根据预置组合特征提取规则对每一所述组合特征的特征计算信息进行判断以得到满足所述组合特征提取规则的可靠组合特征。
7.根据权利要求6所述的可靠组合特征提取装置,其特征在于,所述分箱区间信息获取单元,包括:
极值信息获取单元,用于获取所述数据信息表中与每一所述目标项目对应的项目的极值信息,其中,所述数据信息表包含有多个项目,每个所述项目对应有多个项目值,所述极值信息包括所述项目值中的极大值及极小值;
第一分箱区间信息确定单元,用于根据所述目标项目分箱规则及每一所述目标项目的极值信息确定每一所述目标项目的分箱区间信息。
8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的可靠组合特征提取方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的可靠组合特征提取方法。
CN201910752722.5A 2019-08-15 2019-08-15 可靠组合特征提取方法、装置、计算机设备及存储介质 Active CN110689023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752722.5A CN110689023B (zh) 2019-08-15 2019-08-15 可靠组合特征提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752722.5A CN110689023B (zh) 2019-08-15 2019-08-15 可靠组合特征提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110689023A CN110689023A (zh) 2020-01-14
CN110689023B true CN110689023B (zh) 2024-01-16

Family

ID=69108264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752722.5A Active CN110689023B (zh) 2019-08-15 2019-08-15 可靠组合特征提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110689023B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6647139B1 (en) * 1999-02-18 2003-11-11 Matsushita Electric Industrial Co., Ltd. Method of object recognition, apparatus of the same and recording medium therefor
CN107977461A (zh) * 2017-12-21 2018-05-01 厦门美图之家科技有限公司 一种视频特征提取方法及装置
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN109829306A (zh) * 2019-02-20 2019-05-31 哈尔滨工程大学 一种优化特征提取的恶意软件分类方法
CN110633304A (zh) * 2019-08-15 2019-12-31 中国平安人寿保险股份有限公司 组合特征筛选方法、装置、计算机设备及存储介质
CN110674104A (zh) * 2019-08-15 2020-01-10 中国平安人寿保险股份有限公司 特征组合筛选方法、装置、计算机设备及存储介质
CN110674838A (zh) * 2019-08-15 2020-01-10 中国平安人寿保险股份有限公司 基于组合特征筛选的模型构建方法、装置、计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6647139B1 (en) * 1999-02-18 2003-11-11 Matsushita Electric Industrial Co., Ltd. Method of object recognition, apparatus of the same and recording medium therefor
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN107977461A (zh) * 2017-12-21 2018-05-01 厦门美图之家科技有限公司 一种视频特征提取方法及装置
CN109829306A (zh) * 2019-02-20 2019-05-31 哈尔滨工程大学 一种优化特征提取的恶意软件分类方法
CN110633304A (zh) * 2019-08-15 2019-12-31 中国平安人寿保险股份有限公司 组合特征筛选方法、装置、计算机设备及存储介质
CN110674104A (zh) * 2019-08-15 2020-01-10 中国平安人寿保险股份有限公司 特征组合筛选方法、装置、计算机设备及存储介质
CN110674838A (zh) * 2019-08-15 2020-01-10 中国平安人寿保险股份有限公司 基于组合特征筛选的模型构建方法、装置、计算机设备

Also Published As

Publication number Publication date
CN110689023A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
Cherfi et al. Very fast C4. 5 decision tree algorithm
CN111798273B (zh) 产品的购买概率预测模型的训练方法及购买概率预测方法
US10606862B2 (en) Method and apparatus for data processing in data modeling
Senay et al. Novel three-step pseudo-absence selection technique for improved species distribution modelling
CN107016026B (zh) 一种用户标签确定、信息推送方法和设备
CN111461180B (zh) 样本分类方法、装置、计算机设备及存储介质
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
Drury et al. An assessment of phylogenetic tools for analyzing the interplay between interspecific interactions and phenotypic evolution
Pavoine et al. Testing for phylogenetic signal in biological traits: the ubiquity of cross-product statistics
CN112348079B (zh) 数据降维处理方法、装置、计算机设备及存储介质
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
Jeyakumar et al. Support vector machine classifiers with uncertain knowledge sets via robust optimization
CN115801463B (zh) 工业互联网平台入侵检测的方法、装置和电子设备
CN111160604A (zh) 缺失信息预测方法、装置、计算机设备及存储介质
CN111709775A (zh) 一种房产价格评估方法、装置、电子设备及存储介质
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
CN113590603A (zh) 基于数据源智能选择的数据处理方法、装置、设备及介质
CN110674104B (zh) 特征组合筛选方法、装置、计算机设备及存储介质
Lee et al. Life history changes and fisheries assessment performance: a case study for small yellow croaker
CN110633304B (zh) 组合特征筛选方法、装置、计算机设备及存储介质
WO2019218482A1 (zh) 基于大数据的人群筛选方法、装置、终端设备及可读存储介质
CN110689023B (zh) 可靠组合特征提取方法、装置、计算机设备及存储介质
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
US11227288B1 (en) Systems and methods for integration of disparate data feeds for unified data monitoring
CN110674838B (zh) 基于组合特征筛选的模型构建方法、装置、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant