CN108874879A - 特征筛选方法、装置、计算机设备和存储介质 - Google Patents

特征筛选方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108874879A
CN108874879A CN201810419513.4A CN201810419513A CN108874879A CN 108874879 A CN108874879 A CN 108874879A CN 201810419513 A CN201810419513 A CN 201810419513A CN 108874879 A CN108874879 A CN 108874879A
Authority
CN
China
Prior art keywords
feature
set
target service
service function
degree
Prior art date
Application number
CN201810419513.4A
Other languages
English (en)
Inventor
叶俊锋
龙觉刚
孙成
赖云辉
罗先贤
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Priority to CN201810419513.4A priority Critical patent/CN108874879A/zh
Publication of CN108874879A publication Critical patent/CN108874879A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

本发明揭示了一种特征筛选方法、装置、计算机设备和存储介质,属于数据处理技术领域,该方法包括:提取目标对象的初始特征集合,从所述初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合,通过分别计算所述候选特征集合及所述候选特征集合中至少两个互不相同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征集合中确定与所述目标业务功能相关的有效特征。此外,还提供了特征筛选装置、计算机设备和存储介质。上述特征筛选方法、装置、计算机设备和存储介质能够简化与目标业务功能之间进行关联判断的计算量,缩减特征筛选的时间,有效提高特征筛选效率。

Description

特征筛选方法、装置、计算机设备和存储介质

技术领域

[0001] 本发明涉及数据处理技术领域,特别是涉及特征筛选方法、装置、计算机设备和存 储介质。

背景技术

[0002] 在对客户进行业务功能的判断时,需从客户的初始特征集合中提取有效特征,进 而根据提取的有效特征进行业务功能的判断。例如,对客户做欺诈判断时,需要从该客户的 初始特征集合中提取与欺诈相关的特征,进而根据提取的特征,对该客户进行欺诈判断。

[0003] 目前,在对客户进行业务功能的判断而从客户的初始特征集合中提取有效特征 时,只是通过启发式选择方法从客户的初始特征集合中进行特征筛选,而从初始特征集合 中进行特征筛选时,需从初始特征集合中逐个提取特征加入到备选特征集合中,以对备选 特征集合与业务功能之间进行关联度的计算,进而进行特征的筛选。但这种特征筛选方式 的计算量太大,大大影响了特征筛选的效率。

发明内容

[0004] 基于此,为解决相关技术中特征筛选的效率较低的技术问题,本发明提供了一种 特征筛选方法、装置、计算机设备和存储介质。

[0005] 第一方面,提供了一种特征筛选方法,包括:

[0006] 提取目标对象的初始特征集合;

[0007] 从所述初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合;

[0008] 通过分别计算所述候选特征集合及所述候选特征集合中至少两个互不相同的特 征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征集合中确定 与所述目标业务功能相关的有效特征。

[0009] 在其中一个实施例中,所述通过大数据分析从所述初始特征集合中排除与目标业 务功能不相关的特征,得到候选特征集合的步骤包括:

[0010] 通过大数据分析计算所述初始特征集合中各特征与所述目标业务功能之间的OR 值;

[0011] 通过所述OR值排除所述初始特征集合中与目标业务功能不相关的特征,得到候选 特征集合。

[0012] 在其中一个实施例中,所述通过分别计算所述候选特征集合及所述候选特征集合 中不同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征 集合中确定与所述目标业务功能相关的有效特征的步骤包括:

[0013] 从所述候选特征集合中选取至少两个互不相同的特征组合;

[0014] 计算各特征组合与所述目标业务功能之间的关联度;

[0015] 根据至少两个互不相同的特征组合及其对应关联度的比对,确定与所述目标业务 功能相关的有效特征。

[0016] 在其中一个实施例中,所述通过分别计算所述候选特征集合及所述候选特征集合 中不同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征 集合中确定与所述目标业务功能相关的有效特征的步骤包括:

[0017] 从所述候选特征集合中进行至少两个互不相同的特征剔除得到第一特征组合;

[0018] 通过所述候选特征集合、第一特征组合与所述目标业务功能之间的关联度比对, 确定所述目标业务功能相关的核特征,得到核特征集合,并将所述核特征集合中的特征作 为有效特征。

[0019] 在其中一个实施例中,所述通过所述候选特征集合、第一特征组合与所述业务功 能之间的关联度比对,确定所述目标业务功能相关的核特征,得到核特征集合,并将所述核 特征集合中的特征作为有效特征的步骤之后,所述方法还包括:

[0020] 向所述核特征集合中添加特征得到第二特征组合;

[0021] 根据所述核特征集合、第二特征组合与所述业务功能之间的关联度确定备选有效 特征,得到备选有效特征集合;

[0022] 将所述备选有效特征集合与所述核特征集合中的特征均确定为所述目标业务功 能相关的有效特征。

[0023] 第二方面,提供了一种特征筛选装置,包括:

[0024] 初始特征集合提取模块,用于提取目标对象的初始特征集合;

[0025] 特征排除模块,用于从所述初始特征集合中排除与目标业务功能不相关的特征, 得到候选特征集合;

[0026] 有效特征确定模块,用于通过分别计算所述候选特征集合及所述候选特征集合中 至少两个互不相同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所 述候选特征集合中确定与所述目标业务功能相关的有效特征。

[0027] 在其中一个实施例中,所述特征排除模块包括:

[0028] OR值计算子模块,用于通过大数据分析计算所述初始特征集合中各特征与所述目 标业务功能之间的OR值;

[0029] 特征排除子模块,用于通过所述OR值排除所述初始特征集合中与目标业务功能不 相关的特征,得到候选特征集合。

[0030] 在其中一个实施例中,所述有效特征确定模块包括:

[0031] 特征组合选取子模块,用于从所述候选特征集合中选取至少两个互不相同的特征 组合;

[0032] 关联度计算子模块,用于计算各特征组合与所述目标业务功能之间的关联度;

[0033] 有效特征确定子模块,用于根据至少两个互不相同的特征组合及其对应关联度的 比对,确定与所述目标业务功能相关的有效特征。

[0034] 第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计 算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述 特征筛选方法的步骤。

[0035] 第四方面,提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令 被一个或多个处理器执行时,使得一个或多个处理器执行上述所述特征筛选方法的步骤。

[0036] 本公开的实施例提供的技术方案可以包括以下有益效果:

[0037] 上述特征筛选方法、装置、计算机设备和存储介质,在对目标对象进行目标业务功 能的判断时,通过提取目标对象的初始特征集合,在通过大数据分析从初始特征集合中排 除与目标业务功能不相关的特征,得到候选特征集合,再分别计算候选特征集合及候选特 征集合中至少两个互不相同的特征组合与目标业务功能之间的关联度,并根据关联度从候 选特征集合中确定与目标业务功能相关的有效特征,从而无需对初始特征集合中数量巨大 的特征一个一个地与目标业务功能之间进行关联判断,极大简化了与目标业务功能之间进 行关联判断的计算量,缩减了特征筛选的时间,有效提高了特征筛选效率。

[0038] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本 公开。

附图说明

[0039] 图1是根据一示例性实施例示出的一种计算机设备100的框图。

[0040] 图2是根据一示例性实施例示出的一种特征筛选方法流程图。

[0041] 图3是根据图2对应实施例示出的特征筛选方法中步骤S120的一种具体实现流程 图。

[0042] 图4是根据图2对应实施例示出的特征筛选方法中步骤S130的一种具体实现流程 图。

[0043] 图5是根据图2对应实施例示出的特征筛选方法中步骤S130的另一种具体实现流 程图。

[0044] 图6是根据图2对应实施例示出的特征筛选方法中步骤S130的另一种具体实现流 程图。

[0045] 图7是根据一示例性实施例示出的一种特征筛选装置的框图。

[0046] 图8是图7对应实施例示出的特征筛选装置中特征排除模块120的一种框图。

[0047] 图9是图7对应实施例示出的特征筛选装置中有效特征确定模块130的一种框图。

具体实施方式

[0048] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。

[0049] 图1是根据一示例性实施例示出的一种计算机设备100的框图,计算机设备100将 用于执行如下示例性实施例示出的特征筛选方法。

[0050] 计算机设备100可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限 于此。

[0051] 参考图1,计算机设备100可以包括以下一个或者多个组件:处理组件101,存储器 102,电源组件103,多媒体组件104,音频组件105,传感器组件107以及通信组件108。其中, 上述组件并不全是必须的,计算机设备100可以根据自身功能需求增加其他组件或减少某 些组件,本实施例不作限定。

[0052] 处理组件101通常控制计算机设备100的整体操作,诸如与显示,电话呼叫,数据通 信,相机操作以及日志数据处理相关联的操作等。处理组件101可以包括一个或多个处理器 109来执行指令,以完成上述操作的全部或部分步骤。此外,处理组件101可以包括一个或多 个模块,便于处理组件101和其他组件之间的交互。例如,处理组件1 〇 1可以包括多媒体模 块,以方便多媒体组件104和处理组件101之间的交互。

[0053] 存储器102被配置为存储各种类型的数据以支持在计算机设备100的操作。这些数 据的示例包括用于在计算机设备100上操作的任何应用程序或方法的指令。存储器102可以 由任何类型的易失性或非易失性存储设备或者它们的组合实现,如SRAM (Static Random Access Memory,静态随机存取存储器),EEPR0M (Electrically Erasable Programmable Read-Only Memory,电可擦除可编程只读存储器),EPR0M (Erasable Programmable Read Only Memory,可擦除可编程只读存储器),PR0M (Programmable Read-Only Memory,可编程 只读存储器),R〇M (Read-Only Memory,只读存储器),磁存储器,快闪存储器,磁盘或光盘。 存储器102中还存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理 器109执行,以完成以下任一所示方法中的全部或者部分步骤。

[0054] 电源组件103为计算机设备100的各种组件提供电力。电源组件103可以包括电源 管理系统,一个或多个电源,及其他与为计算机设备100生成、管理和分配电力相关联的组 件。

[0055] 多媒体组件104包括在所述计算机设备100和用户之间的提供一个输出接口的屏 幕。在一些实施例中,屏幕可以包括LCD (Liquid Crystal Display,液晶显示器)和TP (Touch Panel,触摸面板)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自 用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的 手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑 动操作相关的持续时间和压力。

[0056] 音频组件105被配置为输出和/或输入音频信号。例如,音频组件105包括一个麦克 风,当计算机设备100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配 置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组 件108发送。在一些实施例中,音频组件105还包括一个扬声器,用于输出音频信号。

[0057] 传感器组件107包括一个或多个传感器,用于为计算机设备100提供各个方面的状 态评估。例如,传感器组件107可以检测到计算机设备100的打开/关闭状态,组件的相对定 位,传感器组件107还可以检测计算机设备100或计算机设备100—个组件的坐标改变以及 计算机设备100的温度变化。在一些实施例中,该传感器组件107还可以包括磁传感器,压力 传感器或温度传感器。

[0058] 通信组件108被配置为便于计算机设备100和其他设备之间有线或无线方式的通 信。计算机设备100可以接入基于通信标准的无线网络,如WiFi (Wireless-Fidelity,无线 网络),2G或3G,或它们的组合。在一个示例性实施例中,通信组件108经由广播信道接收来 自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件 108还包括NFC (Near Field Communication,近场通信)模块,以促进短程通信。例如,在NFC 模块可基于RFID (Radio Frequency Identif i cat ion,射频识别)技术,IrDA (Infrared Data Association,红外数据协会)技术,UWB (Ultra-Wideband,超宽带)技术,BT (Bluetooth,蓝牙)技术和其他技术来实现。

[0059] 在示例性实施例中,计算机设备100可以被一个或多个ASIC (Application Specific Integrated Circuit,应用专用集成电路)、DSP (Digital Signal Processing, 数字信号处理器)、PLD (Programmable Logic Device,可编程逻辑器件)、FPGA (Field — Programmable Gate Array,现场可编程门阵列)、控制器、微控制器、微处理器或其他电子 元件实现,用于执行上述方法。

[0060] 该实施例中的计算机设备100中处理器执行操作的具体方式将在有关特征筛选方 法的实施例中进行详细描述,此处将不做详细阐述说明。

[0061] 如图2所示,在一个实施例中,提出了一种特征筛选方法,该特征筛选方法可以应 用于上述图1所示的计算机设备100中,具体可以包括以下步骤:

[0062] 步骤SI 10,提取目标对象的初始特征集合。

[0063] 目标对象是将进行目标业务功能判断的对象。例如,将进行欺诈判断的客户。

[0064] 可以理解的是,各对象均体现出或多或少的特征。

[0065] 通过提取目标对象所有的特征,组成初始特征集合。

[0066] 步骤S120,从初始特征集合中排除与目标业务功能不相关的特征,得到候选特征 集合。

[0067] 初始特征集合是预先获取的某一对象相关的特征的集合。例如,初始特征集合是 与某一客户相关的注册信息、该客户进行网页浏览的历史记录信息等各种信息的集合。

[0068] 初始特征集合中的特征可以是通过大数据抓取而获取的,也可以是用客户使用时 而保存至计算机设备中的,还可以是通过其他方式获取的。

[0069] 业务功能是与用户相关的行为特征,例如刷单行为、用户信用等级、用户的偿还能 力等。

[0070] 而目标业务功能是对目标对象进行检测的业务功能。

[0071] 从初始特征集合中排除与目标业务功能不相关的特征时,可以通过大数据分析获 取与目标业务功能无关联或关联度较低的特征,进而从初始特征集合中排除这部分特征; 也可以通过各特征与目标业务功能之间的OR值(Odds Ratio,比值比)在初始特征集合中进 行特征初选,还可以通过其他方式从初始特征集合中排除与目标业务功能不相关的特征。

[0072] 从初始特征集合中排除与目标业务功能不相关的特征后,将排除后初始特征集合 中剩余的特征组成的集合作为候选特征集合。

[0073] 步骤S130,通过分别计算候选特征集合及候选特征集合中至少两个互不相同的特 征组合与目标业务功能之间的关联度,并根据关联度从候选特征集合中确定与目标业务功 能相关的有效特征。

[0074] 经过步骤120的特征排除后,候选特征集合中特征的数量要比初始特征集合中少 得多。

[0075] 通过对候选特征集合中的特征逐个地与业务功能进行关联判断,判断候选特征集 合中的各特征与该业务功能是否相关联。

[0076] 根据候选特征集合中的特征组合与目标业务功能之间的关联度,从候选特征集合 中确定与目标业务功能相关的有效特征的方式有多种,可以是对候选特征集合中的特征进 行任意组合,再计算各特征组合与目标业务功能之间的关联度,进而根据各关联度对各特 征与目标业务功能之间进行关联判断;也可以是根据两个特征组合(这两个特征组合之间 的差别只是相差某一个特征)与业务功能之间的关联度对该特征与目标业务功能之间进行 关联判断;还可以通过其他方式对候选特征集合中的特征与目标业务功能之间进行关联判 断。

[0077] 利用如上所述的方法,在对目标对象进行目标业务功能的判断时,通过提取目标 对象的初始特征集合,在通过大数据分析从初始特征集合中排除与目标业务功能不相关的 特征,得到候选特征集合,再分别计算候选特征集合及候选特征集合中特征组合与目标业 务功能之间的关联度,并根据关联度从候选特征集合中确定与目标业务功能相关的有效特 征,从而无需对初始特征集合中数量巨大的特征一个一个地与目标业务功能之间进行关联 判断,极大简化了与目标业务功能之间进行关联判断的计算量,缩减了特征筛选的时间,有 效提尚了特征筛选效率。

[0078] 可选的,图3是根据图2对应实施例示出的特征筛选方法中步骤S120的细节描述, 该特征筛选方法中,步骤S120可以包括以下步骤:

[0079] 步骤S121,通过大数据分析计算初始特征集合中各特征与目标业务功能之间的OR 值(优势比)。

[0080] OR值又称比值比,也称优势比,通常出现在病例-对照研究里。

[0081] OR值指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露 人数的比值。反映的是疾病和暴露的关联强度。

[0082] 举个具体的例子,研究心梗的病因时选择100名心梗患者作为病例,以100名没有 发生过心梗的患者作为对照,比较他们发生心梗的可能病因。假设在发生心梗的人群中,患 高血压是40人,而在没发生过心梗的人群中患高血压20人。那么我们可以得到以下的四格 表:

Figure CN108874879AD00091

[0084] 那么OR= (40/60) Λ20/80) =40*80/20*60 = 2.67。那么这2.67说明什么呢?其意 义基本上可以等同为:患高血压的人发生心梗的风险是未患高血压的人的2.67倍。

[0085] 在得到OR值的时候,会把OR值和1进行比较,如果某个因素OR值大于1,那么这个因 素就是患病的危险因素,也就是携带这个因素的人,患病的风险高;如果OR值小于1,那么这 个因素就是患病的保护因素,有这个因素的人患病的风险低。

[0086] 与病例-对照研究中类似,在对一客户进行某一业务功能的判断过程中,通过OR值 进行特征排除时,计算该客户的初始特征集合中每一特征与目标业务功能之间的OR值,即 通过OR值判断每一特征与目标业务功能的关联程度。

[0087] 例如,计算特征Cl与目标业务功能Fl之间的OR值时,通过大数据提取各客户的所 有特征,进而计算具备目标业务功能Fl的客户中,其初始特征集合含有特征Cl的客户数Al, 与其初始特征集合不含有特征Cl的客户数A2,并计算不具备目标业务功能Fl的客户中,其 初始特征集合含有特征Cl的客户数A3,与其初始特征集合不含有特征Cl的客户数A4。因此, 特征Cl与目标业务功能Fl之间的OR值为(A1/A2) / (A3/A4)。

[0088] 步骤S122,通过OR值排除初始特征集合中与目标业务功能不相关的特征,得到候 选特征集合。

[0089] 在通过OR值从客户的初始特征集合中进行特征初选时,可以根据OR值剔除与目标 业务功能之间的关联度不高的特征;也可以根据OR值选取与目标业务功能之间的关联度较 高的特征,进而排除初始特征集合中未选取的特征,在此不对根据OR值进行特征初选的具 体方式进行限定。

[0090] 例如,客户Kl的初始特征集合中包含有特征Cl、C2、C3、C4、C5,在通过OR值对客户 K1进行目标业务功能F1的判断时,计算特征CI、C2、C3、C4、C5各自的OR值分别为1.3、1.1、 0.2、0.9、3,通过选取OR值大于1的特征,即选取特征Cl、C2、C5,排除特征C3、C4,也就是说, 得到的候选特征集合包括特征Cl、C2、C5。

[0091] 又例如,客户Kl的初始特征集合中包含有特征(:1工2、03工4、05,在通过0对直对客 户Kl进行目标业务功能Fl的判断时,计算特征Cl、C2、C3、C4、C5各自的OR值分别为1.3、1.1、 0.2、0.9、3,通过剔除OR值小于0.8的特征,即剔除特征C3,也就是说,得到的候选特征集合 包括特征C1、C2、C4、C5。

[0092] 因此,在通过OR值进行特征排除时,可以通过调节排除方式及进行特征排除的OR 阈值,实现对候选特征集合的调节,从而调节特征筛选的有效程度。

[0093] 利用如上所述的方法,预先通过大数据分析计算初始特征集合中各特征与目标业 务功能之间的OR值,进而采用OR值进行特征排除,由于计算各特征的OR值的计算量较小,相 比对初始特征集合中数量巨大的特征一个一个地与业务功能之间进行关联判断,极大减小 了与目标业务功能相关的有效特征的计算量,缩减了特征筛选的时间,有效提高了特征筛 选效率。

[0094] 可选的,图4是根据图2对应实施例示出的特征筛选方法中步骤S130的细节描述, 该特征筛选方法中,步骤S130可以包括以下步骤:

[0095] 步骤S131,从候选特征集合中选取至少两个互不相同的特征组合。

[0096] 特征组合是从候选特征集合中选取一个或多个特征所形成的集合

[0097] 不同的特征组合所包含的特征是不同的。

[0098] 步骤S132,计算各特征组合与目标业务功能之间的关联度。

[0099] 关联度是通过一定的算法计算特征组合与目标业务功能之间的关联程度。

[0100] 目标业务功能是对目标对象进行某一业务功能判断的业务功能。

[0101] 例如,将对目标对象〇进行业务功能Fl的判断时,则业务功能Fl即为目标业务功 能。

[0102] 特征组合与目标业务功能之间的关联程度越高,则其之间的关联度就越大,特征 组合具备目标业务功能的可能性就越大。

[0103] 计算各特征组合与目标业务功能之间关联度的算法不作限定,可以是任何可以计 算关联度的算法,但是不同特征组合与目标业务功能之间关联度的计算算法是统一的。 [0104] 可选的,可以采用使用Apriori算法或FP-growth算法进行关联度的计算,也可以 通过KMP (The Knuth-Morris-Pratt Algorithm,克努特-莫里斯-普拉特)文本匹配算法进 行匹配运算,也可以通过BM (Boyer-Moore)算法进行匹配运算,还可以通过其他的匹配算法 进行关联度的计算,在此不作限定。

[0105] 步骤S133,根据至少两个互不相同的特征组合及其对应关联度的比对,确定与目 标业务功能相关的有效特征。

[0106] 由于不同的特征组合所包含的特征是不同的,因而通过至少两个互不相同的特征 组合与目标业务功能之间的关联度比对及其各自所包含的特征,即可确定不同特征组合之 间的区别特征是否为有效特征。

[0107] 例如,候选特征集合包括特征Cl、C2、C3、C4、C5,候选特征集合与目标业务功能Kl 之间的候选关联度为90 %,通过从候选特征集合中选取不同的特征组合,分别得到特征组 合Xl包括特征02工3、04、05,特征组合乂2包括特征(:1工3、04工5,特征组合乂3包括特征(:1、 C2、C4、C5,特征组合X4包括特征Cl、C2、C3、C5,特征组合X5包括特征Cl、C2、C3、C4,而特征组 合Xl、特征组合X2、特征组合X3、特征组合X4、特征组合X5与目标业务功能Kl之间的关联度 分别为30 %、10%、95%、20 %、85%,可以看出特征组合Xl、特征组合X2、特征组合X3、特征 组合X4、特征组合X5分别是从候选特征集合中分别剔除特征Cl、C2、C3、C4、C5所得的的特征 组合。由于相比候选特征集合与目标业务功能Kl之间的关联度,特征组合Π、特征组合X2、 特征组合X4与目标业务功能Kl之间的关联度急剧减小,而特征组合Π、特征组合X2、特征组 合X4分别是从候选特征集合中分别剔除特征C1、C2、C4所得的的特征组合,因此,特征C1、 C2、C4与目标业务功能Kl高度相关。从而通过将特征组合Π、特征组合X2、特征组合X3、特征 组合X4、特征组合X5分别与候选特征集合进行关联度比对,则可确定特征C1、C2、C4为目标 业务功能Kl相关的有效特征。

[0108] 利用如上所述的方法,在根据关联度从候选特征集合中确定与目标业务功能相关 的有效特征时,通过至少两个互不相同的特征组合的关联度对比及其各自所包含特征的不 同,确定与目标业务功能相关的有效特征,从而保证了确定有效特征的准确性。

[0109] 可选的,图5是根据图2对应实施例示出的特征筛选方法中步骤S130的细节描述, 该特征筛选方法中,步骤S130可以包括以下步骤:

[0110] 步骤S135,从候选特征集合中进行特征剔除得到第一特征组合。

[0111] 可以理解的是,客户的初始特征集合中,各特征与目标业务功能的相关程度存在 一定的差异,有的特征与该业务功能关联度较高,而有的特征与该业务功能基本没有关联。

[0112] 而步骤110中,只是对根据目标业务功能在初始特征集合中进行特征排除,候选特 征集合中仍存在与目标业务功能之间的关联度不大的部分特征。因此,为提高最终得到的 有效特征的准确性,需从候选特征集合中进一步进行特征筛选。

[0113] 可以理解的是,当对一个特征组合进行特征剔除得到另一特征组合后,这两个特 征组合与目标业务功能之间的关联度却并未改变,则可得知剔除的特征与目标业务功能之 间基本无关联,即该剔除的特征不是目标业务功能的有效特征。

[0114] 本实施例中,通过特征剔除从候选特征集合中选取特征组合。

[0115] 第一特征组合是对候选特征集合进行特征剔除后得到的特征组合。

[0116] 步骤S136,通过候选特征集合、第一特征组合与业务功能之间的关联度比对,确定 目标业务功能相关的核特征,得到核特征集合,并将核特征集合中的特征作为有效特征。

[0117] 核特征集合是与业务功能高度相关的核心特征的集合。

[0118] 进行特征剔除时,可以从候选特征集合中逐个地剔除特征,再根据特征剔除前后 之间的关联度对比,确定与目标业务功能高度相关的核心特征。

[0119] 在一示例性实施例中,通过计算候选特征集合与目标业务功能之间的关联度,该 关联度称之为候选关联度,再剔除候选特征集合中的任一特征,得到多个第一特征组合,进 而分别计算剔除特征后的第一特征组合与目标业务功能之间的关联度,该关联度称之为第 一关联度,最后比较第一关联度与候选关联度之间的大小,若第一关联度小于候选关联度, 则表明第一特征组合相对候选特征集合剔除的特征与该业务功能的关联程度较高,因此将 剔除的该特征作为核特征;若第一关联度大于或等于候选关联度,则表明剔除的特征与目 标业务功能的关联程度较小。

[0120] 在另一示例性实施例中,通过计算候选特征集合与目标业务功能之间的关联度, 该关联度称之为候选关联度,再剔除候选特征集合中的任一特征,得到多个第一特征组合, 进而分别计算剔除特征后的第一特征组合与目标业务功能之间的关联度,该关联度称之为 第一关联度,最后比较第一关联度与候选关联度之间的大小,若第一关联度小于候选关联 度的一定比例,则表明第一特征组合相对候选特征集合剔除的特征与该业务功能的关联程 度较高,因此将剔除的该特征作为核特征;若第一关联度大于或等于候选关联度的一定比 例,则表明剔除的特征与目标业务功能的关联程度较小。

[0121] 例如,候选特征集合包括特征(:1工2、03工4、05,候选特征集合与目标业务功能1(1 之间的候选关联度为90%,预设选择核特征的阈值是0.9,则要求剔除特征后的备选关联度 必须小于0.9*90 % = 81 %,才能将剔除的特征作为核特征。通过分别剔除特征Cl、C2、C3、 C4、C5,分别得到第一特征组合Xl包括特征C2、C3、C4、C5,第一特征组合X2包括特征Cl、C3、 C4、C5,第一特征组合X3包括特征Cl、C2、C4、C5,第一特征组合X4包括特征Cl、C2、C3、C5,第 一特征组合X5包括特征Cl、C2、C3、C4,而第一特征组合Xl、第一特征组合X2、第一特征组合 X3、第一特征组合X4、第一特征组合X5与目标业务功能Kl之间的关联度分别为30%、10%、 95%、20%、85%,则得到的核特征为Cl、C2、C4,即核特征集合包括特征Cl、C2、C4。

[0122] 在一示例性实施例中,将核特征集合中的特征作为目标业务功能相关的有效特 征。

[0123] 利用如上所述的方法,从候选特征集合中进行特征剔除得到第一特征组合,再通 过候选特征集合、第一特征组合与业务功能之间的关联度比对,即可确定目标业务功能相 关的核特征,得到核特征集合,并将核特征集合中的特征作为目标业务功能相关的有效特 征,从而保证了确定有效特征的准确性。

[0124] 可选的,图6是根据图5对应实施例示出的另一种特征筛选方法,步骤S136之后,该 特征筛选方法还可以包括以下步骤:

[0125] 步骤S137,向核特征集合中添加特征,得到第二特征组合。

[0126] 为避免由于计算失误而将部分与目标业务功能的关联程度较大的特征剔除,通过 向核特征集合添加候选特征集合中的其他特征,以进一步进行特征的关联判断,从而进一 步提尚得到与目标业务功能相关的有效特征的准确性。

[0127] 向核特征集合中添加候选特征集合中的特征时,可以一次添加一个特征,也可以 一次添加多个特征。

[0128] 可以理解的是,通过向核特征集合中添加候选特征集合中的特征,每次添加的特 征是并不完全相同的。

[0129] 因此,每次添加特征后将得到一个第二特征集合。

[0130] 步骤S138,根据核特征集合、第二特征组合与业务功能之间的关联度确定备选有 效特征,得到备选有效特征集合。

[0131] 在一示例性实施例中,通过计算核特征集合与目标业务功能之间的关联度,该关 联度称之为核关联度,再向核特征集合中添加候选特征集合中的其他特征,得到多个第二 特征组合,进而分别计算向核特征集合中添加特征后的第二特征组合与目标业务功能之间 的关联度,该关联度称之为第二关联度,最后比较第二关联度与核关联度之间的大小,若第 二关联度小于核关联度,则表明第二特征组合相对核特征集合添加的特征与目标业务功能 之间的关联程度较高,因此将添加的该特征作为备选有效特征;若第二关联度大于或等于 核关联度,则表明添加的特征与目标业务功能的关联程度较小。

[0132] 在另一示例性实施例中,通过计算核特征集合与目标业务功能之间的关联度,该 关联度称之为核关联度,再向核特征集合中添加候选特征集合中的其他特征,得到多个第 二特征组合,进而分别计算向核特征集合中添加特征后的第二特征组合与目标业务功能之 间的关联度,该关联度称之为第二关联度,最后比较第二关联度与核关联度之间的大小,若 第二关联度小于核关联度的一定比例,则表明第二特征组合相对核特征集合添加的特征与 目标业务功能之间的关联程度较高,因此将添加的该特征作为备选有效特征;若第二关联 度大于或等于核关联度的一定比例,则表明添加的特征与目标业务功能的关联程度较小。

[0133] 例如,核特征集合包括特征Cl、C2、C4,核特征集合与目标业务功能Kl之间的核关 联度RO为90%,通过依次添加候选特征集合中的特征C3、C5,分别得到第二特征组合Yl包括 特征Cl、C2、C3、C4,第二特征组合Y2包括特征Cl、C2、C4、C5,而第二特征组合Yl、第二特征组 合Y2与目标业务功能Kl之间的第二关联度Rl、R2分别为90 %、95 %,第二关联度R2相比核关 联度RO具有关联度的提升,因此,将第二特征组合Y2中的特征作为有效特征,即得到有效特 征为特征C1、C2、C4、C5。

[0134] 在另一示例性实施例中,在向核特征集合中添加候选特征集合中的特征时,每次 添加一个特征。因此,得到备选特征集合相比核特征集合只有一个区别特征。

[0135] 通过预先判断是否存在第二特征组合,该第二特征组合与目标业务功能之间的关 联度相比核关联度具有关联度提升。若不存在有这样的第二特征组合,则根据核特征集合 确定业务功能的有效特征;若存在有这样的第二特征组合,则根据该第二特征组合,对核特 征集合进行更新,即将该第二特征组合作为新核特征集合,进而重复执行步骤S127、步骤 S128(即重新计算新核特征集合与目标业务功能之间的核关联度,并向新核特征集合中添 加候选特征集合中的特征,得到新的第二特征组合,计算新的第二特征组合与目标业务功 能之间的新第二关联度,再通过新第二关联度与新核关联度之间的比对,从第二特征组合 和核特征集合中确定有效特征),直至更新后不存在有与目标业务功能之间的关联度相比 新核关联度具有关联度提升的第二特征组合,并根据最终更新后的新核特征集合确定业务 功能的有效特征。

[0136] 例如,在得到有效特征为特征Cl、02、04工5时,将该有效特征作为新的核特征,对 核特征集合进行更新,即新核特征集合包括特征Cl、C2、C4、C5,进而从候选特征集合中添加 特征C3,得到新第二特征组合Zl包括特征Cl、C2、C3、C4、C5,计算新第二特征组合Zl与目标 业务功能Kl之间的第二关联度Sl为90%,而90%〈95%,可知更新后,新第二特征组合关联 度相比新核关联度并无关联度提升的,即新核特征集合中加入其他特征后无效果,则可确 定最终的新核特征集合中的特征为有效特征,即最后一次更新前确定的有效特征(特征Cl、 C2、C4、C5)为最终的有效特征。

[0137] 步骤S139,将备选有效特征集合与核特征集合中的特征均确定为目标业务功能相 关的有效特征。

[0138] 利用如上所述的方法,对候选特征集合中的特征与目标业务功能之间进行关联判 断的过程中,在先从候选特征集合中进行特征剔除确定目标业务功能的核特征集合时,再 通过向核特征集合中添加候选特征集合中的特征得到第二特征组合,并通过第二特征组合 与目标业务功能之间的第二关联度,与核关联度之间的比对,从第二特征组合和核特征集 合中确定有效特征,进一步提高了确定有效特征的准确性。

[0139] 如图7所示,在一个实施例中,提供了一种特征筛选装置,该特征筛选装置可以集 成于上述的计算机设备100中,具体可以包括初始特征集合提取模块110、特征排除模块120 以及有效特征确定模块130。

[0140] 初始特征集合提取模块110,用于提取目标对象的初始特征集合;

[0141] 特征排除模块120,用于从所述初始特征集合中排除与目标业务功能不相关的特 征,得到候选特征集合;

[0142] 有效特征确定模块130,用于通过分别计算候选特征集合及候选特征集合中至少 两个互不相同的特征组合与目标业务功能之间的关联度,并根据关联度从候选特征集合中 确定与目标业务功能相关的有效特征。

[0143] 上述装置中各个模块的功能和作用的实现过程具体详见上述特征筛选方法中对 应步骤的实现过程,在此不再赘述。

[0144] 可选的,如图8所示,图7对应实施例示出示出的特征筛选装置中,特征排除模块 120包括但不限于:0R值计算子模块121和特征排除子模块122。

[0145] OR值计算子模块121,用于通过大数据分析计算所述初始特征集合中各特征与所 述目标业务功能之间的OR值;

[0146] 特征排除子模块122,用于通过所述OR值排除所述初始特征集合中与目标业务功 能不相关的特征,得到候选特征集合。

[0147] 可选的,如图9所示,图7对应实施例示出示出的特征筛选装置中,有效特征确定模 块130包括但不限于:特征组合选取子模块131、关联度计算子模块132和有效特征确定子模 块 133〇

[0148] 特征组合选取子模块131,用于从所述候选特征集合中选取至少两个互不相同的 特征组合;

[0149] 关联度计算子模块132,用于计算各特征组合与所述目标业务功能之间的关联度;

[0150] 有效特征确定子模块133,用于根据至少两个互不相同特征组合及其对应关联度 的比对,确定与所述目标业务功能相关的有效特征。

[0151] 在一个实施例中,提出了一种计算机设备,执行上述任一所示的特征筛选方法的 全部或者部分步骤。该计算机设备包括:

[0152] 至少一个处理器;以及

[0153] 与所述至少一个处理器通信连接的存储器;其中,

[0154] 所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一 个处理器执行,以使所述至少一个处理器能够执行如上述任一个示例性实施例所示出的特 征筛选方法。

[0155] 在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读 指令被一个或多个处理器执行时,使得一个或多个处理器执行上述特征筛选方法实施例中 的步骤。

[0156] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以 通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介 质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为 磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记 忆体(Random Access Memory,RAM)等。

[0157] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实 施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存 在矛盾,都应当认为是本说明书记载的范围。

[0158] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保 护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1. 一种特征筛选方法,其特征在于,所述方法包括: 提取目标对象的初始特征集合; 从所述初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合; 通过分别计算所述候选特征集合及所述候选特征集合中至少两个互不相同的特征组 合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征集合中确定与所 述目标业务功能相关的有效特征。
2. 如权利要求1所述的方法,其特征在于,所述从所述初始特征集合中排除与目标业务 功能不相关的特征,得到候选特征集合的步骤包括: 通过大数据分析计算所述初始特征集合中各特征与所述目标业务功能之间的OR值(优 势比); 通过所述OR值排除所述初始特征集合中与目标业务功能不相关的特征,得到候选特征 集合。
3. 如权利要求1所述的方法,其特征在于,所述通过分别计算所述候选特征集合及所述 候选特征集合中至少两个互不相同的特征组合与所述目标业务功能之间的关联度,并根据 所述关联度从所述候选特征集合中确定与所述目标业务功能相关的有效特征的步骤包括: 从所述候选特征集合中选取至少两个互不相同的特征组合; 计算各特征组合与所述目标业务功能之间的关联度; 根据至少两个互不相同的特征组合及其对应关联度的比对,确定与所述目标业务功能 相关的有效特征。
4. 如权利要求1所述的方法,其特征在于,所述通过分别计算所述候选特征集合及所述 候选特征集合中至少两个互不相同的特征组合与所述目标业务功能之间的关联度,并根据 所述关联度从所述候选特征集合中确定与所述目标业务功能相关的有效特征的步骤包括: 从所述候选特征集合中进行特征剔除得到第一特征组合; 通过所述候选特征集合、所述第一特征组合与所述目标业务功能之间的关联度比对, 确定所述目标业务功能相关的核特征,得到核特征集合,并将所述核特征集合中的特征作 为有效特征。
5. 如权利要求4所述的方法,其特征在于,所述通过所述候选特征集合、所述第一特征 组合与所述业务功能之间的关联度比对,确定所述目标业务功能相关的核特征,得到核特 征集合,并将所述核特征集合中的特征作为有效特征的步骤之后,所述方法还包括: 向所述核特征集合中添加特征得到第二特征组合; 根据所述核特征集合、所述第二特征组合与所述业务功能之间的关联度确定备选有效 特征,得到备选有效特征集合; 将所述备选有效特征集合与所述核特征集合中的特征均确定为所述目标业务功能相 关的有效特征。
6. —种特征筛选装置,其特征在于,所述装置包括: 初始特征集合提取模块,用于提取目标对象的初始特征集合; 特征排除模块,用于从所述初始特征集合中排除与目标业务功能不相关的特征,得到 候选特征集合; 有效特征确定模块,用于通过分别计算所述候选特征集合及所述候选特征集合中至少 两个互不相同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候 选特征集合中确定与所述目标业务功能相关的有效特征。
7. 如权利要求6所述的装置,其特征在于,所述特征排除模块包括: OR值计算子模块,用于通过大数据分析计算所述初始特征集合中各特征与所述目标业 务功能之间的OR值; 特征排除子模块,用于通过所述OR值排除所述初始特征集合中与目标业务功能不相关 的特征,得到候选特征集合。
8. 如权利要求6所述的装置,其特征在于,所述有效特征确定模块包括: 特征组合选取子模块,用于从所述候选特征集合中选取至少两个互不相同的特征组 合; 关联度计算子模块,用于计算各特征组合与所述目标业务功能之间的关联度; 有效特征确定子模块,用于根据至少两个互不相同的特征组合及其对应关联度的比 对,确定与所述目标业务功能相关的有效特征。
9. 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述 计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述 的方法。
10. —种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理 器执行时,使得一个或多个处理器执行如权利要求1至5中任一项所述的方法。
CN201810419513.4A 2018-05-04 2018-05-04 特征筛选方法、装置、计算机设备和存储介质 CN108874879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810419513.4A CN108874879A (zh) 2018-05-04 2018-05-04 特征筛选方法、装置、计算机设备和存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810419513.4A CN108874879A (zh) 2018-05-04 2018-05-04 特征筛选方法、装置、计算机设备和存储介质
PCT/CN2018/102152 WO2019210624A1 (zh) 2018-05-04 2018-08-24 特征筛选方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN108874879A true CN108874879A (zh) 2018-11-23

Family

ID=64327580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810419513.4A CN108874879A (zh) 2018-05-04 2018-05-04 特征筛选方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN108874879A (zh)
WO (1) WO2019210624A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786851A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 问答知识库的构建方法、提供搜索的方法及装置
CN105930473B (zh) * 2016-04-25 2019-04-05 安徽富驰信息技术有限公司 一种基于随机森林技术的相似文件检索方法
CN106725532B (zh) * 2016-12-13 2018-04-24 兰州大学 基于语音特征与机器学习的抑郁症自动评估系统和方法

Also Published As

Publication number Publication date
WO2019210624A1 (zh) 2019-11-07

Similar Documents

Publication Publication Date Title
Kodinariya et al. Review on determining number of Cluster in K-Means Clustering
CN105165110B (zh) 无线通信设备和用于检测的方法
Vittayakorn et al. Runway to realway: Visual analysis of fashion
US9576248B2 (en) Record linkage sharing using labeled comparison vectors and a machine learning domain classification trainer
Pencina et al. Interpreting incremental value of markers added to risk prediction models
US20170364737A1 (en) Grouping and ranking images based on facial recognition data
Bekkar et al. Evaluation measures for models assessment over imbalanced data sets
Kruppa et al. Consumer credit risk: Individual probability estimates using machine learning
Dietterich Approximate statistical tests for comparing supervised classification learning algorithms
Cao et al. GCHAR: An efficient Group-based Context—Aware human activity recognition on smartphone
Mirza et al. Ensemble of subset online sequential extreme learning machine for class imbalance and concept drift
US7287013B2 (en) Multimodal fusion decision logic system
Kiadaliri et al. Frontier-based techniques in measuring hospital efficiency in Iran: a systematic review and meta-regression analysis
Gonçalves et al. ROC curve estimation: An overview
Squillero et al. Applications of Evolutionary Computation: 19th European Conference, EvoApplications 2016, Porto, Portugal, March 30--April 1, 2016, Proceedings, Part I
AU2014341919A1 (en) Systems and methods for facial representation
Hand Assessing the performance of classification methods
Zhang et al. Local density adaptive similarity measurement for spectral clustering
Cao et al. An integrated framework for human activity classification.
Li et al. An adaptive hidden Markov model for activity recognition based on a wearable multi-sensor device
Lachiche et al. Improving accuracy and cost of two-class and multi-class probabilistic classifiers using ROC curves
US20150127385A1 (en) Clinical outcome tracking and analysis
CN105144203B (zh) 信号处理系统
Moeyersoms et al. Including high-cardinality attributes in predictive models: A case study in churn prediction in the energy sector
Yang et al. A sequential three-way approach to multi-class decision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication