CN110457365B - 基于时序并行的决策树生成方法及装置、电子设备 - Google Patents
基于时序并行的决策树生成方法及装置、电子设备 Download PDFInfo
- Publication number
- CN110457365B CN110457365B CN201910636233.3A CN201910636233A CN110457365B CN 110457365 B CN110457365 B CN 110457365B CN 201910636233 A CN201910636233 A CN 201910636233A CN 110457365 B CN110457365 B CN 110457365B
- Authority
- CN
- China
- Prior art keywords
- decision tree
- node
- nodes
- weight
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及决策树技术领域,揭示了一种基于时序并行的决策树生成方法及装置、电子设备。所述方法包括:获取若干个时间序列点;针对每一时间序列点对应的数据生成与时间序列点相匹配的决策树节点,获得若干并行决策树;根据若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重;按照预设集成原则以及每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点,通过根据每一时间序列点对应的数据获得若干并行决策树,根据节点权重生成每一决策树节点的下一批决策树节点,能够在时序相关的数据分析中,提高决策树的性能,保证数据分析的稳定性,从而增强对于具有时变特性的金融数据进行数据分析的效果。
Description
技术领域
本发明涉及决策树技术领域,特别涉及一种基于时序并行的决策树生成方法及装置、电子设备。
背景技术
目前,梯度集成决策树(GBDT)进行分裂的方式主要为:根据串行构建的集成树和全局数据的分布特点计算每一个分裂所产生的节点的节点权重,并根据每一个节点的节点权重继续进行分裂。在实践中发现,在金融量化领域中,串行构建的集成树只能反映某一时刻的节点权重,而无法反映在不同时刻的节点权重,从而导致对于具有时变特性的金融数据进行数据分析的效果不佳。
发明内容
为了解决相关技术中存在的对于具有时变特性的金融数据进行数据分析的效果不佳的问题,本发明提供了一种基于时序并行的决策树生成方法及装置、电子设备。
本发明实施例第一方面公开了一种基于时序并行的决策树生成方法,所述方法包括:
获取若干个时间序列点;
针对每一时间序列点对应的数据生成与所述时间序列点相匹配的决策树节点,获得若干并行决策树;
根据所述若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重;
按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述获取若干个时间序列点之后,以及所述针对每一时间序列点对应的数据生成与所述时间序列点相匹配的决策树节点,获得若干并行决策树之前,所述方法还包括:
获取每一时间序列点对应的原始数据;
对所述原始数据进行降噪以及标准化处理,获得所述每一时间序列点对应的数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重,包括:
根据所述若干并行决策树中决策树节点的特征属性获取每一决策树节点的初始节点权重;
根据所述若干并行决策树中决策树节点的分布特征确定与所述每一决策树节点相匹配的加权改变值;
根据所述每一决策树节点的初始节点权重和所述与所述每一决策树节点相匹配的加权改变值计算所述每一决策树节点的节点权重。
作为一种可选的实施方式,在本发明实施例第一方面中,所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点,包括:
根据预设集成原则筛选所述每一决策树节点对应的节点权重小于第一预设权重的节点作为错误节点,以及根据预设集成原则筛选所述每一决策树节点对应的节点权重大于第二预设权重的节点作为正确节点;
计算所述错误节点的节点权重和所述第一预设权重的差值作为第一权重差值,以及计算所述正确节点的节点权重和所述第二预设权重的差值作为第二权重差值;
根据所述第一权重差值降低所述错误节点的节点权重,获得第一集成权重,以及根据所述第二权重差值提高所述正确节点的节点权重,获得第二集成权重;
按照所述第一集成权重和所述第二集成权重生成所述每一决策树节点的下一批决策树节点。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点之后,所述方法还包括:
将所述下一批决策树节点确定为新的决策树节点,并执行所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点的步骤。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述按照所述第一集成权重和所述第二集成权重生成所述每一决策树节点的下一批决策树节点之后,以及所述将所述下一批决策树节点确定为新的决策树节点之前,所述方法还包括:
判断所述下一批决策树节点对应的数据类型数量是否小于或等于预设数据类型数量;
如果是,停止构建决策树,获得目标决策树;
如果否,执行所述将所述下一批决策树节点确定为新的决策树节点,并执行所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点的步骤。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述获得目标决策树之后,所述方法还包括:
判断所述目标决策树的决策树节点总量是否大于预设总量阈值;
如果是,在所述目标决策树中确定目标子树,并将所述目标子树替换为与所述目标子树相匹配的目标决策树节点。
本发明实施例第二方面公开了一种基于时序并行的决策树生成装置,所述装置包括:
第一获取单元,用于获取若干个时间序列点;
第一生成单元,用于针对每一时间序列点对应的数据生成与所述时间序列点相匹配的决策树节点,获得若干并行决策树;
计算单元,用于根据所述若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重;
第二生成单元,用于按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点。
本发明实施例第三方面公开了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现本发明实施例第一方面公开的基于时序并行的决策树生成方法。
本发明实施例第四方面公开了一种计算机可读存储介质,其存储计算机程序,所述计算机程序使得计算机执行本发明实施例第一方面公开的基于时序并行的决策树生成方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的基于时序并行的决策树生成方法包括如下步骤:获取若干个时间序列点;针对每一时间序列点对应的数据生成与时间序列点相匹配的决策树节点,获得若干并行决策树;根据若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重;按照预设集成原则以及每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点。
此方法下,通过将每一时间序列点对应的数据生成决策树节点,获得若干并行决策树,然后按照预设集成原则以及根据决策树节点的分布特征计算得到的每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点,可以在时序相关的数据分析中,提高决策树的性能,保证数据分析的稳定性,从而增强对于具有时变特性的金融数据进行数据分析的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例公开的一种装置的结构示意图;
图2是本发明实施例公开的一种基于时序并行的决策树生成方法的流程图;
图3是本发明实施例公开的另一种基于时序并行的决策树生成方法的流程图;
图4是本发明实施例公开的一种基于时序并行的决策树生成装置的结构示意图;
图5是本发明实施例公开的另一种基于时序并行的决策树生成装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例一
本发明的实施环境可以是电子设备,例如智能手机、平板电脑、台式电脑。
图1是本发明实施例公开的一种装置的结构示意图。装置100可以是上述电子设备。如图1所示,装置100可以包括以下一个或多个组件:处理组件102,存储器104,电源组件106,多媒体组件108,音频组件110,传感器组件114以及通信组件116。
处理组件102通常控制装置100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件102可以包括一个或多个模块,用于便于处理组件102和其他组件之间的交互。例如,处理组件102可以包括多媒体模块,用于以方便多媒体组件108和处理组件102之间的交互。
存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器104中还存储有一个或多个模块,用于该一个或多个模块被配置成由该一个或多个处理器118执行,以完成如下所示方法中的全部或者部分步骤。
电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统,一个或多个电源,及其他与为装置100生成、管理和分配电力相关联的组件。
多媒体组件108包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件110被配置为输出和/或输入音频信号。例如,音频组件110包括一个麦克风(Microphone,简称MIC),当装置100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中,音频组件110还包括一个扬声器,用于输出音频信号。
传感器组件114包括一个或多个传感器,用于为装置100提供各个方面的状态评估。例如,传感器组件114可以检测到装置100的打开/关闭状态,组件的相对定位,传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中,该传感器组件114还可以包括磁传感器,压力传感器或温度传感器。
通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络,如WiFi(Wireless-Fidelity,无线保真)。在本发明实施例中,通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在本发明实施例中,通信组件116还包括近场通信(Near Field Communication,简称NFC)模块,用于以促进短程通信。例如,在NFC模块可基于射频识别(Radio FrequencyIdentification,简称RFID)技术,红外数据协会(Infrared Data Association,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于时序并行的决策树生成方法的流程示意图。如图2所示该基于时序并行的决策树生成方法可以包括以下步骤:
201、获取若干个时间序列点。
本发明实施例中,时间序列点是指包含数值序列的时间节点,主要是研究自身的变化规律的,可以用于通过观察历史数据预测未来的值。举例来说,在金融量化领域,时间序列点可以体现金融量化的变化趋势,从而可以根据金融量化的历史数据预测金融量化未来的值,提高决策性。
202、针对每一时间序列点对应的数据生成与时间序列点相匹配的决策树节点,获得若干并行决策树。
本发明实施例中,获取每一时间序列点对应的数据,根据每一时间序列节点对应的数据生成相匹配的决策树节点,从而可以获得与若干时间序列点对应的若干并行决策树。比如针对金融数据,可以生成若干个时间序列点下每一时间序列点相匹配的决策树节点,获得与时序相关的金融数据对应的若干并行决策树,为金融数据的分析提供决策树基础。
203、根据若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重。
具体地,由于金融数据的时变特征,各个时间序列点下的节点权重可能不同,根据若干并行决策树中决策树节点的分布特征计算出每一决策树节点对应的节点权重,可以根据这些不同的节点权重反应金融数据的时变情况。
204、按照预设集成原则以及每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点。
本发明实施例中,预设集成原则可以为Boost集成原则,Boost集成原则即为按照上一棵树顺序生成下一棵树的决策树节点,因此,可以按照Boost集成原则以及每一决策树节点对应的节点权重生成当前树节点的下一批决策树节点。当生成的决策树为目标决策树时,可以根据目标决策树对每一时间序列点对应的数据进行分析,进而可以对数据的未来变化趋势进行预测,增强对具有时序特征的数据进行分析得到的分析结果的稳定性。
可见,实施图2所描述的方法,能够通过将每一时间序列点对应的数据生成决策树节点,获得若干并行决策树,然后按照预设集成原则以及根据决策树节点的分布特征计算得到的每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点,可以在时序相关的数据分析中,提高决策树的性能,保证数据分析的稳定性,从而增强对于具有时变特性的金融数据进行数据分析的效果。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于时序并行的决策树生成方法的流程示意图。如图3所示,该基于时序并行的决策树生成方法可以包括以下步骤:
301、获取若干个时间序列点。
302、获取每一时间序列点对应的原始数据。
本发明实施例中,每一时间序列点对应的原始数据是指直接从每一时间序列点提取的数据,是未经过处理或简化的数据。
303、对原始数据进行降噪以及标准化处理,获得每一时间序列点对应的数据。
本发明实施例中,可以先对原始数据进行降噪以及标准化处理,降噪可以去除原始数据中的一些噪声值,标准化变换可以将原始数据转化为符合标准正态分布的纯数据,用以消除数据单位等对数据造成的影响。
作为一种可选的实施方式,可以根据预设数据格式对原始数据进行数据格式调整,剔除不符合预设数据格式的原始数据,并根据时间序列点的数据属性补全剔除掉的原始数据,以保证数据的完整性,能够消除数据格式对数据造成的影响。
304、针对每一时间序列点对应的数据生成与时间序列点相匹配的决策树节点,获得若干并行决策树。
305、根据若干并行决策树中决策树节点的特征属性获取每一决策树节点的初始节点权重。
306、根据若干并行决策树中决策树节点的分布特征确定与每一决策树节点相匹配的加权改变值。
307、根据每一决策树节点的初始节点权重和与每一决策树节点相匹配的加权改变值计算每一决策树节点的节点权重。
本发明实施例中,可以根据决策树节点的特征属性获得每一决策树节点的初始节点权重,根据决策树节点的分布特征确定出与每一决策树节点相匹配的加权改变值,进而可以根据初始节点权重和加权改变值计算出每一决策树节点的节点权重,能够将理论的特征属性初始权重与实际节点权重相结合来计算每一决策树节点的节点权重,使得树分裂依据的条件更加可靠。
308、根据预设集成原则筛选每一决策树节点对应的节点权重小于第一预设权重的节点作为错误节点,以及根据预设集成原则筛选每一决策树节点对应的节点权重大于第二预设权重的节点作为正确节点。
本发明实施例中,预设集成原则可以为Boost集成原则,利用Boost集成原则可以筛选出每一决策树节点对应的节点权重过高以及权重过低的节点,为节点权重的调整提供基础。
309、计算错误节点的节点权重和第一预设权重的差值作为第一权重差值,以及计算正确节点的节点权重和第二预设权重的差值作为第二权重差值。
310、根据第一权重差值降低错误节点的节点权重,获得第一集成权重,以及根据第二权重差值提高正确节点的节点权重,获得第二集成权重。
本发明实施例中,对每一决策树节点对应的节点权重过低以及权重过高的节点的权重进行调整,可以提高正确分类样本的节点权重以及降低错误分类样本的节点权重。
311、按照第一集成权重和第二集成权重生成每一决策树节点的下一批决策树节点。
本发明实施例中,根据调整后的第一集成权重和第二集成权重可以集成该决策树节点的下一批决策树节点,能够提高分类的准确度。
312、判断下一批决策树节点对应的数据类型数量是否小于或等于预设数据类型数量;如果否,执行步骤313;如果是,执行步骤314-步骤316。
本发明实施例中,考虑到当前决策树的构建方式可能出现较多的决策树节点导致过拟合的现象,可以根据数据拟合需求设置预设数据类型数量,因此对于决策树构建的停止条件可以为决策树节点对应的数据类型数量小于或者等于预设数据类型数量,例如,可以设置当决策树节点对应的数据类型仅为一个时停止对于决策树的构建,实施该实施方式,能够降低决策树节点过拟合的可能性。
313、将下一批决策树节点确定为新的决策树节点,然后跳转至步骤308。
本发明实施例中,可以重复按照预设集成原则和当前每一决策树节点对应的节点权重集成该决策树节点的下一批决策树节点,从而可以根据分析需求获得若干批次的决策树节点,提高分析的准确度。
314、停止构建决策树,获得目标决策树。
315、判断目标决策树的决策树节点总量是否大于预设总量阈值;如果是,执行步骤316;如果否,结束本流程。
316、在目标决策树中确定目标子树,并将目标子树替换为与目标子树相匹配的目标决策树节点。
本发明实施例中,可以在目标决策树的决策树节点总量大于预设总量阈值时利用后置裁剪的方式裁剪子树,进一步减小目标决策树过拟合的情况发生的概率。
作为一种可选的实施方式,可以在生成某一决策树节点的下一批决策树节点之后,计算所有下一批决策树节点的属性增益值,如果下一批决策树节点的属性增益值小于预设属性增益值,对下一批决策树节点进行裁剪,以确保决策树的属性增益最大,实施该实施方式,能够降低决策树节点过拟合的可能性,提高泛化性。
可见,实施图3所描述的方法,能够通过将每一时间序列点对应的数据生成决策树节点,获得若干并行决策树,然后按照预设集成原则以及根据决策树节点的分布特征计算得到的每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点,可以在时序相关的数据分析中,提高决策树的性能,保证数据分析的稳定性,从而增强对于具有时变特性的金融数据进行数据分析的效果。此外,也能够将理论的特征属性初始权重与实际节点权重相结合来计算每一决策树节点的节点权重,使得树分裂依据的条件更加可靠,还能够根据数据拟合需求预设决策树节点的数据类型数量,并在目标决策树的决策树节点总量大于预设总量阈值时利用后置裁剪的方式裁剪子树,降低决策树节点过拟合的可能性。
实施例四
请参阅图4,图4是本发明实施例公开的一种基于时序并行的决策树生成装置的结构示意图。如图4所示,该基于时序并行的决策树生成装置可以包括:第一获取单元401、第一生成单元402、计算单元403以及第二生成单元404,其中,
第一获取单元401,用于获取若干个时间序列点。
本发明实施例中,时间序列点是指包含数值序列的时间节点,主要是研究自身的变化规律的,可以用于通过观察历史数据预测未来的值。举例来说,在金融量化领域,时间序列点可以体现金融量化的变化趋势,从而可以根据金融量化的历史数据预测金融量化未来的值,提高决策性。
第一生成单元402,用于针对每一时间序列点对应的数据生成与时间序列点相匹配的决策树节点,获得若干并行决策树。
本发明实施例中,获取每一时间序列点对应的数据,根据每一时间序列节点对应的数据生成相匹配的决策树节点,从而可以获得与若干时间序列点对应的若干并行决策树。比如针对金融数据,可以生成若干个时间序列点下每一时间序列点相匹配的决策树节点,获得与时序相关的金融数据对应的若干并行决策树,为金融数据的分析提供决策树基础。
计算单元403,用于根据若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重。
具体地,由于金融数据的时变特征,各个时间序列点下的节点权重可能不同,根据若干并行决策树中决策树节点的分布特征计算出每一决策树节点对应的节点权重,可以根据这些不同的节点权重反应金融数据的时变情况。
第二生成单元404,用于按照预设集成原则以及每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点。
本发明实施例中,预设集成原则可以为Boost集成原则,Boost集成原则即为按照上一棵树顺序生成下一棵树的决策树节点,因此,可以按照Boost集成原则以及每一决策树节点对应的节点权重生成当前树节点的下一批决策树节点。当生成的决策树为目标决策树时,可以根据目标决策树对每一时间序列点对应的数据进行分析,进而可以对数据的未来变化趋势进行预测,增强对具有时序特征的数据进行分析得到的分析结果的稳定性。
可见,实施图4所描述的基于时序并行的决策树生成装置,能够通过将每一时间序列点对应的数据生成决策树节点,获得若干并行决策树,然后按照预设集成原则以及根据决策树节点的分布特征计算得到的每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点,可以在时序相关的数据分析中,提高决策树的性能,保证数据分析的稳定性,从而增强对于具有时变特性的金融数据进行数据分析的效果。
实施例五
请参阅图5,图5是本发明实施例公开的另一种基于时序并行的决策树生成装置的结构示意图。图5所示的基于时序并行的决策树生成装置是由图4所示的基于时序并行的决策树生成装置进行优化得到的。与图4所示的基于时序并行的决策树生成装置相比较,图5所示的基于时序并行的决策树生成装置还可以包括:第二获取单元405、预处理单元406、确定单元407、第一判断单元408、终止单元409、第二判断单元410以及替换单元411,其中,
第二获取单元405,用于在第一获取单元401获取若干个时间序列点之后,以及第一生成单元402针对每一时间序列点对应的数据生成与时间序列点相匹配的决策树节点,获得若干并行决策树之前,获取每一时间序列点对应的原始数据。
本发明实施例中,每一时间序列点对应的原始数据是指直接从每一时间序列点提取的数据,是未经过处理或简化的数据。
预处理单元406,用于对原始数据进行降噪以及标准化处理,获得每一时间序列点对应的数据。
本发明实施例中,可以先对原始数据进行降噪以及标准化处理,降噪可以去除原始数据中的一些噪声值,标准化变换可以将原始数据转化为符合标准正态分布的纯数据,用以消除数据单位等对数据造成的影响。
作为一种可选的实施方式,预处理单元406用于根据预设数据格式对原始数据进行数据格式调整,剔除不符合预设数据格式的原始数据,并根据时间序列点的数据属性补全剔除掉的原始数据,以保证数据的完整性,能够消除数据格式对数据造成的影响。
作为一种可选的实施方式,计算单元403包括:
获取子单元4031,用于根据若干并行决策树中决策树节点的特征属性获取每一决策树节点的初始节点权重;
确定子单元4032,用于根据若干并行决策树中决策树节点的分布特征确定与每一决策树节点相匹配的加权改变值;
第一计算子单元4033,用于根据每一决策树节点的初始节点权重和与每一决策树节点相匹配的加权改变值计算每一决策树节点的节点权重。
本发明实施例中,计算单元403用于根据决策树节点的特征属性获得每一决策树节点的初始节点权重,根据决策树节点的分布特征确定出与每一决策树节点相匹配的加权改变值,进而可以根据初始节点权重和加权改变值计算出每一决策树节点的节点权重,能够将理论的特征属性初始权重与实际节点权重相结合来计算每一决策树节点的节点权重,使得树分裂依据的条件更加可靠。
作为一种可选的实施方式,第二生成单元404包括:
筛选子单元4041,用于根据预设集成原则筛选每一决策树节点对应的节点权重小于第一预设权重的节点作为错误节点,以及根据预设集成原则筛选每一决策树节点对应的节点权重大于第二预设权重的节点作为正确节点;
本发明实施例中,预设集成原则可以为Boost集成原则,利用Boost集成原则可以筛选出每一决策树节点对应的节点权重过高以及权重过低的节点,为节点权重的调整提供基础。
第二计算子单元4042,用于计算错误节点的节点权重和第一预设权重的差值作为第一权重差值,以及计算正确节点的节点权重和第二预设权重的差值作为第二权重差值;
调整子单元4043,用于根据第一权重差值降低错误节点的节点权重,获得第一集成权重,以及根据第二权重差值提高正确节点的节点权重,获得第二集成权重;
本发明实施例中,对每一决策树节点对应的节点权重过低以及权重过高的节点的权重进行调整,可以提高正确分类样本的节点权重以及降低错误分类样本的节点权重。
生成子单元4044,用于按照第一集成权重和第二集成权重生成每一决策树节点的下一批决策树节点。
本发明实施例中,根据调整后的第一集成权重和第二集成权重可以集成该决策树节点的下一批决策树节点,能够提高分类的准确度。
确定单元407,用于在第二生成单元404按照预设集成原则以及每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点之后,将下一批决策树节点确定为新的决策树节点,并执行第二生成单元404按照预设集成原则以及每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点。
本发明实施例中,确定单元407用于重复按照预设集成原则和当前每一决策树节点对应的节点权重集成该决策树节点的下一批决策树节点,从而可以根据分析需求获得若干批次的决策树节点,提高分析的准确度。
第一判断单元408,用于在生成子单元4044按照第一集成权重和第二集成权重生成每一决策树节点的下一批决策树节点之后,以及确定单元407将下一批决策树节点确定为新的决策树节点之前,判断下一批决策树节点对应的数据类型数量是否小于或等于预设数据类型数量;
本发明实施例中,考虑到当前决策树的构建方式可能出现较多的决策树节点导致过拟合的现象,可以根据数据拟合需求设置预设数据类型数量,因此对于决策树构建的停止条件可以为决策树节点对应的数据类型数量小于或者等于预设数据类型数量,例如,可以设置当决策树节点对应的数据类型仅为一个时停止对于决策树的构建,实施该实施方式,能够降低决策树节点过拟合的可能性。
终止单元409,用于在第一判断单元408判断出下一批决策树节点对应的数据类型数量小于或等于预设数据类型数量时,停止构建决策树,获得目标决策树;
确定单元407,还用于在第一判断单元408判断出下一批决策树节点对应的数据类型数量大于预设数据类型数量时,将下一批决策树节点确定为新的决策树节点,并执行第二生成单元404按照预设集成原则以及每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点。
第二判断单元410,用于在终止单元409停止构建决策树,获得目标决策树之后,判断目标决策树的决策树节点总量是否大于预设总量阈值;
替换单元411,用于在第二判断单元410判断出目标决策树的决策树节点总量大于预设总量阈值时,在目标决策树中确定目标子树,并将目标子树替换为与目标子树相匹配的目标决策树节点。
本发明实施例中,可以在目标决策树的决策树节点总量大于预设总量阈值时利用后置裁剪的方式裁剪子树,进一步减小目标决策树过拟合的情况发生的概率。
作为一种可选的实施方式,可以在生成某一决策树节点的下一批决策树节点之后,计算所有下一批决策树节点的属性增益值,如果下一批决策树节点的属性增益值小于预设属性增益值,对下一批决策树节点进行裁剪,以确保决策树的属性增益最大,实施该实施方式,能够降低决策树节点过拟合的可能性,提高泛化性。
可见,实施图5所描述的基于时序并行的决策树生成装置,能够通过将每一时间序列点对应的数据生成决策树节点,获得若干并行决策树,然后按照预设集成原则以及根据决策树节点的分布特征计算得到的每一决策树节点对应的节点权重生成每一决策树节点的下一批决策树节点,可以在时序相关的数据分析中,提高决策树的性能,保证数据分析的稳定性,从而增强对于具有时变特性的金融数据进行数据分析的效果。此外,也能够将理论的特征属性初始权重与实际节点权重相结合来计算每一决策树节点的节点权重,使得树分裂依据的条件更加可靠,还能够根据数据拟合需求预设决策树节点的数据类型数量,并在目标决策树的决策树节点总量大于预设总量阈值时利用后置裁剪的方式裁剪子树,降低决策树节点过拟合的可能性。
本发明还提供一种电子设备,该电子设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所示的基于时序并行的决策树生成方法。
该电子设备可以是图1所示装置100。
在一示例性实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所示的基于时序并行的决策树生成方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (8)
1.一种基于时序并行的决策树生成方法,其特征在于,所述方法包括:
获取若干个时间序列点;
针对每一时间序列点对应的数据生成与所述时间序列点相匹配的决策树节点,获得若干并行决策树;
根据所述若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重;
按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点;
其中,所述根据所述若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重,包括:根据所述若干并行决策树中决策树节点的特征属性获取每一决策树节点的初始节点权重;根据所述若干并行决策树中决策树节点的分布特征确定与所述每一决策树节点相匹配的加权改变值;根据所述每一决策树节点的初始节点权重和所述与所述每一决策树节点相匹配的加权改变值计算所述每一决策树节点的节点权重;
所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点,包括:根据预设集成原则筛选所述每一决策树节点对应的节点权重小于第一预设权重的节点作为错误节点,以及根据预设集成原则筛选所述每一决策树节点对应的节点权重大于第二预设权重的节点作为正确节点;计算所述错误节点的节点权重和所述第一预设权重的差值作为第一权重差值,以及计算所述正确节点的节点权重和所述第二预设权重的差值作为第二权重差值;根据所述第一权重差值降低所述错误节点的节点权重,获得第一集成权重,以及根据所述第二权重差值提高所述正确节点的节点权重,获得第二集成权重;按照所述第一集成权重和所述第二集成权重生成所述每一决策树节点的下一批决策树节点。
2.根据权利要求1所述的方法,其特征在于,在所述获取若干个时间序列点之后,以及所述针对每一时间序列点对应的数据生成与所述时间序列点相匹配的决策树节点,获得若干并行决策树之前,所述方法还包括:
获取每一时间序列点对应的原始数据;
对所述原始数据进行降噪以及标准化处理,获得所述每一时间序列点对应的数据。
3.根据权利要求1或2所述的方法,其特征在于,在所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点之后,所述方法还包括:
将所述下一批决策树节点确定为新的决策树节点,并执行所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点的步骤。
4.根据权利要求3所述的方法,其特征在于,在所述按照所述第一集成权重和所述第二集成权重生成所述每一决策树节点的下一批决策树节点之后,以及所述将所述下一批决策树节点确定为新的决策树节点之前,所述方法还包括:
判断所述下一批决策树节点对应的数据类型数量是否小于或等于预设数据类型数量;
如果是,停止构建决策树,获得目标决策树;
如果否,执行所述将所述下一批决策树节点确定为新的决策树节点,并执行所述按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点的步骤。
5.根据权利要求4所述的方法,其特征在于,在所述获得目标决策树之后,所述方法还包括:
判断所述目标决策树的决策树节点总量是否大于预设总量阈值;
如果是,在所述目标决策树中确定目标子树,并将所述目标子树替换为与所述目标子树相匹配的目标决策树节点。
6.一种基于时序并行的决策树生成装置,其特征在于,所述装置用于执行权利要求1至5中任一项所述的方法,所述装置包括:
第一获取单元,用于获取若干个时间序列点;
第一生成单元,用于针对每一时间序列点对应的数据生成与所述时间序列点相匹配的决策树节点,获得若干并行决策树;
计算单元,用于根据所述若干并行决策树中决策树节点的分布特性计算每一决策树节点对应的节点权重;
第二生成单元,用于按照预设集成原则以及所述每一决策树节点对应的节点权重生成所述每一决策树节点的下一批决策树节点。
7.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1~5任一项所述的基于时序并行的决策树生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636233.3A CN110457365B (zh) | 2019-07-15 | 2019-07-15 | 基于时序并行的决策树生成方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636233.3A CN110457365B (zh) | 2019-07-15 | 2019-07-15 | 基于时序并行的决策树生成方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457365A CN110457365A (zh) | 2019-11-15 |
CN110457365B true CN110457365B (zh) | 2023-10-27 |
Family
ID=68481234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910636233.3A Active CN110457365B (zh) | 2019-07-15 | 2019-07-15 | 基于时序并行的决策树生成方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457365B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329843B (zh) * | 2020-11-03 | 2024-06-11 | 中国平安人寿保险股份有限公司 | 基于决策树的呼叫数据处理方法、装置、设备及存储介质 |
CN115344842B (zh) * | 2022-10-19 | 2023-04-21 | 益企商旅(山东)科技服务有限公司 | 一种差旅管理系统登录认证方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214213A (zh) * | 2011-05-31 | 2011-10-12 | 中国科学院计算技术研究所 | 一种采用决策树的数据分类方法和系统 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
CN106899440A (zh) * | 2017-03-15 | 2017-06-27 | 苏州大学 | 一种面向云计算的网络入侵检测方法及系统 |
CN109657840A (zh) * | 2018-11-22 | 2019-04-19 | 东软集团股份有限公司 | 决策树生成方法、装置、计算机可读存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646258B2 (en) * | 2015-09-24 | 2017-05-09 | Sas Institute Inc. | Techniques to provide real-time processing enhancements and modeling for data anomaly detection pertaining to medical events using decision trees |
-
2019
- 2019-07-15 CN CN201910636233.3A patent/CN110457365B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214213A (zh) * | 2011-05-31 | 2011-10-12 | 中国科学院计算技术研究所 | 一种采用决策树的数据分类方法和系统 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
CN106899440A (zh) * | 2017-03-15 | 2017-06-27 | 苏州大学 | 一种面向云计算的网络入侵检测方法及系统 |
CN109657840A (zh) * | 2018-11-22 | 2019-04-19 | 东软集团股份有限公司 | 决策树生成方法、装置、计算机可读存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110457365A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109032829B (zh) | 数据异常检测方法、装置、计算机设备及存储介质 | |
CN107644642B (zh) | 语义识别方法、装置、存储介质及电子设备 | |
CN111739539B (zh) | 确定说话人数量的方法、装置及存储介质 | |
CN109255486B (zh) | 一种策略配置的优化方法及装置 | |
CN107423883B (zh) | 待处理业务的风险识别方法及装置、电子设备 | |
CN110162442B (zh) | 一种系统性能瓶颈定位方法及系统 | |
CN109992601B (zh) | 待办事项信息的推送方法、装置和计算机设备 | |
CN111339436B (zh) | 一种数据识别方法、装置、设备以及可读存储介质 | |
CN110659133B (zh) | 一种资源分配方法及分配装置、存储介质、电子设备 | |
CN110457365B (zh) | 基于时序并行的决策树生成方法及装置、电子设备 | |
CN110460583B (zh) | 一种敏感信息记录方法及装置、电子设备 | |
CN111182390B (zh) | 音量数据处理方法、装置、计算机设备及存储介质 | |
CN112329843B (zh) | 基于决策树的呼叫数据处理方法、装置、设备及存储介质 | |
CN110717509A (zh) | 基于树分裂算法的数据样本分析方法及装置 | |
CN111128134B (zh) | 声学模型训练方法和语音唤醒方法、装置及电子设备 | |
CN111582341B (zh) | 用户异常操作预测方法及装置 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
US11431724B2 (en) | Shared electronic device management device and method | |
CN110334008B (zh) | 一种数据自动化处理方法、装置、电子设备及存储介质 | |
CN113033584B (zh) | 数据处理方法及相关设备 | |
CN109284307B (zh) | 一种流量数据的聚类处理方法、装置及电子设备 | |
US20230229540A1 (en) | Systems and methods for generating a system log parser | |
US9894193B2 (en) | Electronic device and voice controlling method | |
CN110414809B (zh) | 一种风险管理系统的优化方法及装置、相关设备 | |
CN110689166B (zh) | 一种基于随机梯度下降算法的用户行为分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |