CN108681751A - 确定事件影响因素的方法及终端设备 - Google Patents

确定事件影响因素的方法及终端设备 Download PDF

Info

Publication number
CN108681751A
CN108681751A CN201810496726.7A CN201810496726A CN108681751A CN 108681751 A CN108681751 A CN 108681751A CN 201810496726 A CN201810496726 A CN 201810496726A CN 108681751 A CN108681751 A CN 108681751A
Authority
CN
China
Prior art keywords
factor
sample
node
event
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810496726.7A
Other languages
English (en)
Other versions
CN108681751B (zh
Inventor
卢少烽
洪博然
徐亮
阮晓雯
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810496726.7A priority Critical patent/CN108681751B/zh
Priority to PCT/CN2018/097557 priority patent/WO2019223104A1/zh
Publication of CN108681751A publication Critical patent/CN108681751A/zh
Application granted granted Critical
Publication of CN108681751B publication Critical patent/CN108681751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明适用于数据处理技术领域,提供了确定事件影响因素的方法、终端设备及计算机可读存储介质,包括:获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。本发明通过构建因素结构树,提升了对事件的影响因素确定的准确性和适用性。

Description

确定事件影响因素的方法及终端设备
技术领域
本发明属于数据处理技术领域,尤其涉及确定事件影响因素的方法、终端设备及计算机可读存储介质。
背景技术
在现实生活中,事件的结果往往与某些影响因素相关,例如某地区的降雨量与该地区的海陆位置、地形、气压带和风带等影响因素有关。统计学是关于认识客观现象总体数量特征和数量关系的科学,在确定事件的影响因素时,需要利用统计学,获取大量的与事件相关的样本,并对样本进行观察和计算,从而得到与事件相关的影响因素。
在现有技术中,往往是提取出与样本与单个因素相关的部分,并根据该部分样本在该因素影响下是否发生改变,来判断该因素是否为事件的影响因素。但是,事件可能与多个影响因素有关,并且多个影响因素之间可能会互相影响,从而改变事件的结果。综上,现有的确定事件影响因素的方法无法适用于存在多个影响因素的场景,并且确定影响因素的准确性低。
发明内容
有鉴于此,本发明实施例提供了确定事件影响因素的方法、终端设备及计算机可读存储介质,以解决现有技术中事件的影响因素确定不准确,且确定方法的适用性低的问题。
本发明实施例的第一方面提供了一种确定事件影响因素的方法,包括:
获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;
将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;
从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;
将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;
从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;
将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;
从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
本发明实施例与现有技术相比存在的有益效果是:
本发明实施例通过获取与事件相关的多个数据样本,每个数据样本包括标签特征值和多个因素特征值,其中,标签特征值指示数据样本处于的事件结果,多个因素特征值是数据样本对应的多个样本因素的量化值,接下来将多个数据样本与学习模型进行拟合,并将拟合完成的学习模型作为因素结构树,最后从因素结构树中的结构节点确定出因素节点,将因素节点对应的样本因素输出为事件的影响因素,本发明实施例通过构建因素结构树,涵盖了多个影响因素存在互相影响,从而对事件造成影响的情况,提升了影响因素确定的准确性和适用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的确定事件影响因素的方法的实现流程图;
图2是本发明实施例二提供的确定事件影响因素的方法的实现流程图;
图3是本发明实施例三提供的确定事件影响因素的方法的实现流程图;
图4是本发明实施例四提供的确定事件影响因素的方法的实现流程图;
图5是本发明实施例五提供的确定事件影响因素的方法的实现流程图;
图6是本发明实施例六提供的终端设备的结构框图;
图7是本发明实施例七提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的确定事件影响因素的方法的实现流程,详述如下:
在S101中,获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应。
通常来说,一个事件被影响因素影响,事件结果因影响因素的改变而发生变化,而在实际场景中,往往存在多个样本因素,故需要从多个样本因素中确定与事件关联的影响因素。比如在事件为年平均降雨量的情况下,样本因素可能有海陆位置、地形、气压带、居民人数和居民受教育程度等,故需要从上述的样本因素中确定与年平均降雨量相关的影响因素。在本发明实施例中,首先获取与事件相关的多个数据样本,每个数据样本包括标签特征值和多个因素特征值,标签特征值指示事件结果,如上述的年平均降雨量的数值,每个因素特征值与一个样本因素对应,指示该样本因素的具体数值。由于在数据样本都为具体的数值,故获取每个数据样本之前,对该数据样本对应的事件结果和多个样本因素进行数值化处理,将事件结果转换为标签特征值,并将多个样本因素转换为多个因素特征值,以年平均降雨量举例,为了计算方便,一般不以年平均降雨量的具体数值作为标签特征值,而是设置三个区值区间,将年平均降雨量小于或等于100毫米对应的标签特征值置为0,将年平均降雨量大于100毫米且小于或等于500毫米对应的标签特征值置为1,将年平均降雨量大于500毫米对应的标签特征值置为2;再比如预设所有的海陆位置包括A种,数值分别为1、2、……、A,则判断数据样本中的海陆位置属于的种类,并将种类对应的数值赋予至海陆位置对应的因素特征值,其中,A为大于零的整数。当然,上述例子并不构成对本发明实施例的限定。在某些应用场景下,多个数据样本在记录时已进行了数值化处理,并存储在数据库中,故在本发明实施例中,可直接在数据库中获取多个数据样本。
可选地,根据样本条件选定多个数据样本。由于可能存在与事件相关的大量样本,故可依照预设的样本条件从大量样本中选取数据样本。样本条件可以与地域和数量级等相关,例如在大量样本中选取经纬度在一定范围的地区内的样本,且选取数量为一千个,并将选取出的样本作为数据样本。样本条件可根据实际应用场景进行确定,提升了数据样本选择对不同应用场景的适用性。
在S102中,将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树。
在传统的方法中,往往是根据理论推断或者提取多个数据样本中与单个因素相关的部分进行比对,来分别确定多个样本因素中对事件存在影响的影响因素。比如单独提取数据样本中的标签特征值以及与海陆位置对应的因素特征值进行分析,从而可以判断靠近大海的位置的年平均降雨量更高,故将海陆位置作为年平均降雨量的影响因素。但是,对单个因素单独提取进行分析的方法,可能会因事件被其他因素影响,造成分析不准确,并且多个样本因素之间可能互相影响,故传统的方法不适用于分析存在多个样本因素的情况。在本发明实施例中,将多个数据样本与预设的学习模型进行拟合,生成因素结构树。在拟合过程中,首先将多个数据样本构建为因素结构树的根节点,并根据多个数据样本计算将某一类因素特征值取值范围内的某个数值作为分裂条件,将根节点分裂为左节点和右节点(如将因素特征值小于或等于该数值的数据样本归至左节点,将因素特征值大于该数值的数据样本归至右节点),再根据多个数据样本进行计算,进而对左节点和右节点进行分裂,直到达到预设的停止条件,则因素结构树生成,其中,某一类因素特征值是指与某个样本因素对应的因素特征值。
在S103中,从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
将因素结构树中除开根节点的所有节点作为结构节点,并从结构节点中确定因素节点,其中,因素节点可以是所有的结构节点,也可以根据预设的筛选条件筛选出部分的结构节点作为因素节点,具体过程在后文进行阐述。由于结构节点是根据某一类因素特征值取值范围内的某个数值对上一级节点进行分裂得到的,故在确定出因素节点后,查找到与因素节点对应的某类因素特征值,从而确定与该因素特征值对应的样本因素,并将该样本因素输出为事件的影响因素。
通过图1所示实施例可知,在本发明实施例中,在存在多个样本因素的情况下,通过获取与事件相关的多个数据样本,每个数据样本包括标签特征值和多个因素特征值,标签特征值用于指示事件结果,每个因素特征值分别与一个预设的样本因素对应,然后将多个数据样本与预设的学习模型进行拟合,以训练该学习模型,将拟合完成的学习模型作为因素结构树,并且从因素结构树的结构节点中确定出因素节点,将因素节点对应的样本因素作为与事件相关的影响因素进行输出,可适用于存在多个影响因素的场景,提升了确定事件影响因素的方法的适用性和准确性。
图2所示,是在本发明实施例一的基础上,对将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的学习模型输出为因素结构树进行细化得到的一种实现过程。本发明实施例提供了确定事件影响因素的方法的实现流程图,如图所示,该方法可以包括以下步骤:
在S201中,根据所述多个数据样本构建数据样本集,将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数,并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数。
在根据多个数据样本训练学习模型时,首先根据多个数据样本构建数据样本集,其中,每个所述数据样本的标签特征值构成数据样本集的标签参数,每个数据样本的多个因素特征值构成数据样本集的输入参数。举例来说,数据样本集为(Eigenvaluelabel1,Eigenvaluefactor1),(Eigenvaluelabel2,Eigenvaluefactor2)……(Eigenvaluelabeln,Eigenvaluefactorn),其中,Eigenvaluelabeli代表第i个数据样本的标签特征值,在本发明实施例中Eigenvaluefactori用于表示第i个数据样本的多个因素特征值,n代表数据样本的总数。
在S202中,获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围,并对所述取值范围进行二分操作直至得到N个二分点,其中,N为大于零的整数。
在数据样本集构建成功后,即所有数据样本都输入完毕后,统计数据样本集的所有输入参数中与每一种样本因素对应的一类因素特征值的最大值和最小值,即取值范围,并通过二分法,对该取值范围进行二分操作,直到得到N个二分点,N为大于零的整数,可根据实际应用场景进行制定,通常来说,N越大,生成的因素结构树效果更好,但同时训练时间也会对应增长。比如对于海陆位置对应的因素特征值,最大值为10,最小值为0,要获得三个二分点,则对最大值与最小值构成的取值范围进行三次二分操作,得到的二分点为2.5、5和7.5。值得一提的是,若N为偶数,则在二分操作的最后一步时,根据预设的取值范围进行二分,例如可制定优先选取边界点数值最小的取值范围进行二分,在上述对取值范围为0到10的取值范围进行二分的例子中,若要获得四个二分点,则在最后一次二分操作时,对0到2.5的取值范围进行二分,即得到的二分点为1.25、2.5、5和7.5。
在S203中,根据所述数据样本集构建所述因素结构树的根节点,并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益。
为了便于说明,首先对学习模型(因素结构树)的训练过程进行介绍,学习模型对输入参数的计算公式为:
在上述公式中,代表对输入参数为Eigenvaluefactori的预测值,即是将Eigenvaluefactori作为输入参数输入至学习模型后,学习模型计算后的输出结果。公式中的f()指示一个存在于函数空间的函数,函数空间指的是从一个集合到另一个集合的给定种类的函数的集合,即f()函数最初处于未知状态。K则表示学习模型中存在K个上述的f()函数,需要将所有的f()函数计算出的结果累加后,才能得到最终的预测值。值得一提的是,训练完成的学习模型的K个f()函数即为因素结构树,即因素结构树存在K个。
计算公式确定后,在本发明实施例中,采用前向预测的方法对f()函数进行训练,以使最终得到的K个f()函数最大限度地符合数据样本集中的数据。举例来说,在输入参数为Eigenvaluefactori的基础上,对输入参数进行t轮的预测,并在进行第t轮的预测时,保留第t-1轮的预测结果,即依据前次训练的结果训练因素结构树,使得预测值与实际的标签参数(Eigenvaluelabeli)之间的差距逐渐减小,具体的前向预测的公式见下:
……
在本发明实施例中,t和K的数值相同,上述公式中的是在给出输入参数为Eigenvaluefactori的基础上,进行第t轮预测后的预测值。为了确定在前向预测过程中的f()函数,使其尽量贴近于数据样本集,故构建目标函数,具体公式见下:
在上述公式中,Eigenvaluelabeli是数据样本集中与输入参数Eigenvaluefactori对应的标签参数,即是数据样本中的标签特征值。目标函数公式中的Ω(ft)为正则项,D为常数项,其中,正则项控制f()函数的训练程度,防止数据样本集与学习模型过拟合;常数项为一个常量,设置常数项是为了限制目标函数的数值范围。值得一提的是,为误差函数,对目标函数进行优化的过程,即是确定合适的f()函数使得上述误差函数的值尽量减小的过程。
在本发明实施例中,为了在计算层面上方便对目标函数进行优化,对上述的进行展开,并定义:
第一依赖数
第二依赖数
展开后的目标函数为:
由于常数项实质并不影响目标函数的优化过程,故提取出展开后的目标函数中的常数项,可生成展开后的目标函数在第t轮的训练函数,公式如下:
在最终的训练函数中,训练函数得到的输出值依赖于gi和hi的值。基于数据样本集中每一个数据样本对应的标签参数Valuei和输入参数Eigenvaluefactori,都存在与该数据样本对应的第一分裂数据gi和第二分裂数据hi。在确定根节点和每个样本因素对应的N个二分点后,根据多个样本因素对应的N个二分点对根节点进行分裂。举例来说,若根据其中一个二分点对根节点进行分裂,则将该二分点作为分裂条件,将根节点分裂为第一样本集和第二样本集(可将输入参数中对应的因素特征值小于或等于该二分点的数据样本归至第一样本集,将输入参数中对应的因素特征值大于该二分点的数据样本归至第二样本集),并根据第一样本集下数据样本的第一分裂数据和第二分裂数据,第二样本集下数据样本的第一分裂数据和第二分裂数据进行计算,即可计算得到该二分点对应的分裂收益。统计多个样本因素对应的N个二分点的多个分裂收益,将其中数值最大的分裂收益作为最佳分裂收益。
在S204中,若所述最佳分裂收益大于预设的收益阈值,则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作。
在本发明实施例中,对于因素结构树的构建过程,设置收益阈值,并判断最佳分裂收益是否大于收益阈值。若最佳分裂收益大于收益阈值,则根据该二分点对根结点进行二分操作,得到左节点和右节点;若最佳分裂收益小于或等于收益阈值,则说明多个样本因素对应的N个二分点都不适于进行二分操作,则判断对因素结构树的预测是否达到第t轮,若未达到第t轮,则进行下一轮的预测,若已达到第t轮,则停止对因素结构树的预测。
在S205中,对将所述根节点进行二分操作后得到的节点继续进行二分操作,直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
对根节点进行二分操作得到左节点和右节点后,对左节点和右节点继续按照步骤S203和S204的方法,即计算根据每个所述样本因素对应的所述N个二分点对左节点(右节点)进行分裂得到的最佳分裂收益,若最佳分裂收益大于收益阈值,则根据最佳分裂收益对应的二分点对左节点(右节点)进行二分操作,不断迭代上述过程,直到构建的因素结构树达到预设的停止条件。其中,停止条件包含第1至t-1轮预测过程中的第一停止条件和第t轮预测过程中的第二停止条件,比如,第1至t-1轮预测过程中的第一停止条件可设置为当该轮预测过程中的因素结构树的节点达到预设的个数,或因素结构树的深度达到预设深度时,停止该轮的预测,并进行下一轮的预测;第t轮预测过程中的第二停止条件可设置为当该轮预测过程中的因素结构树的节点达到预设的个数,或因素结构树的深度达到预设深度时,停止进行预测,因素结构树预测完成。
通过图2所示实施例可知,在本发明实施例中,通过根据多个数据样本构建数据样本集,分别将数据样本的标签特征值和多个因素特征值设置为数据样本集的标签参数和输入参数,并获取输入参数中每个样本因素对应的因素特征值的取值范围,对取值范围进行二分操作得到N个二分点,N为大于零的整数,根据数据样本集构建根节点,计算根据多个样本因素对应的N个二分点对根节点进行分裂得到的最佳分裂收益,若最佳分裂收益大于预设的收益阈值,则根据最佳分裂收益对应的二分点对根节点进行二分操作,然后对进行二分操作后的左节点和右节点继续进行二分操作,直到构建的因素结构树达到预设的停止条件,因素结构树生成完毕,提升了生成的因素结构树对于多个数据样本的准确性。
图3所示,是在本发明实施例二的基础上,对计算根据N个二分点对根节点进行分裂得到的最佳分裂收益进行细化得到的一种实现过程。本发明实施例提供了确定事件影响因素的方法的实现流程图,如图所示,该方法可以包括以下步骤:
在S301中,根据所述二分点将所述数据样本集分为第一样本集和第二样本集,并将所述第一样本集和第二样本集输入预设的收益算式,得到分裂收益。
以多个样本因素对应的N个二分点中的其中一个二分点进行举例,根据该二分点将数据样本集分为第一样本集和第二样本集,举例来说,若数据样本集包括4个数据样本,根据二分点分隔后,将第一样本集称为IL,其内含2个数据样本,为(Eigenvaluelabel1,Eigenvaluefactor1),(Eigenvaluelabel2,Eigenvaluefactor2);将第二样本集称为IR,其内包含2个数据样本,为(Eigenvaluelabel3,Eigenvaluefactor3),(Eigenvaluelabel4,Eigenvaluefactor4)。然后分别计算第一样本集IL内各个数据样本的第一依赖数和第二依赖数,以标签参数为Eigenvaluelabel1的数据样本举例:
第一依赖数
第二依赖数
故可计算出第一样本集IL的g1,h1,g2,h2,第二样本集IR的g3,h3,g4,h4,并根据预设的收益算式计算出分裂收益:
其中,ValueP1为常数项,用于在分裂收益的计算过程中进行减少误差的处理,防止生成的分裂收益的误差过大;ValueP2为另一个常数项,用于使分裂收益在一定的取值范围内,方便将基于多个分裂收益产生的最佳分裂收益与预设的收益阈值进行比较。
将数据样本集称为I,可得到更通用的收益算式,如下:
在S302中,获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益,并将数值最大的所述分裂收益作为所述最佳分裂收益。
由于每个样本因素都对应N个二分点,故根据上述的收益算式计算出多个样本因素对应所有二分点的多个分裂收益,并将其中数值最大的分裂收益作为最佳分裂收益。
通过图3所示实施例可知,在本发明实施例中,通过根据二分点将数据样本集分为第一样本集和第二样本集,并将第一样本集下的数据样本和第二样本集下的数据样本输入至预设的收益算式,得到与该二分点对应的分裂收益,将所有样本因素的N个二分点对应的多个分裂收益进行比较,并将数值最大的分裂收益作为最佳分裂收益,通过收益算式提升了分裂收益与数据样本集的贴合程度,提升了分裂收益的准确性。
图4所示,是在本发明实施例一的基础上,并在存在多个所述影响因素的情况下,对将与所述因素节点对应的样本因素输出为所述事件的影响因素进行细化得到的一种实现过程。本发明实施例提供了确定事件影响因素的方法的实现流程图,如图所示,该方法可以包括以下步骤:
在S401中,统计所述因素节点在所述因素结构树中出现的出现次数。
在从因素结构树的结构节点中确定出因素节点,并确定与因素节点对应的影响因素后,统计因素节点在因素结构树中的出现次数,由于存在多个影响因素,故因素节点与影响因素对应,其出现次数也存在多个。可选地,首先统计因素结构树中的分裂条件的出现次数,由于分裂条件是某一类因素特征值取值范围内的某个数值,故可将该分裂条件的出现次数等同于该因素特征值对应因素节点的出现次数,提升了获取因素节点的出现次数的便利性。另外,由于因素结构树可能存在多个,故需要获取每个因素结构树中因素节点出现的子次数,并将所有的子次数叠加为因素节点的出现次数。
在S402中,根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序,并输出排序后的多个所述影响因素。
由于出现次数和影响因素存在对应关系,故可根据出现次数的数值,按照从大到小的顺序对多个影响因素进行排序,比如出现次数为4,3,5,对应的影响因素分别为海陆位置、地形和气压带,则输出排序后的多个影响因素为气压带、海陆位置和地形。影响因素的排序越前,就证明该影响因素对事件的影响程度越大。
通过图4所示实施例可知,在本发明实施例中,通过统计因素节点在因素结构树中的出现次数,其中,出现次数存在多个,并根据出现次数对与因素节点对应的多个影响因素进行排序,并输出排序后的多个影响因素,实现了对事件影响因素重要性的获取,适应了用户对影响因素重要性的需求。
图5所示,是在本发明实施例一的基础上,对从因素结构树的结构节点中确定出因素节点进行细化得到的一种实现过程。本发明实施例提供了确定事件影响因素的方法的实现流程图,如图所示,该方法可以包括以下步骤:
在S501中,分别获取每个所述结构节点在所述因素结构树中的权重值。
在确定出因素结构树的多个结构节点后,分别获取每个结构节点在因素结构树中的权重值。权重值在将多个数据样本与学习模型进行拟合时,根据学习模型预设的权重算式自动生成,故在本发明实施例中,在因素结构树生成后直接进行权重值的获取。另外,由于因素结构树可能存在多个,故在获取多个因素结构树中每个结构节点的权重值后,将一类结构节点的权重值进行加法运算,其中,一类结构节点对应一个样本因素。
举例来说,若按照上述的训练函数进行因素结构树的构建,则权重算式可以设置为:
其中,Weighti指示某个结构节点的权重值,gi为该结构节点对应数据样本的第一依赖数,hi为该结构节点对应数据样本的第二依赖数。
在S502中,将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。
在本发明实施例中,设置权重阈值,若进行加法运算后的某类结构节点的权重值大于权重阈值,则将该类结构节点作为因素节点进行输出。由于结构节点对应样本因素,故上述过程实质上是将大于预设的重要程度的样本因素作为事件的影响因素进行输出。
通过图5所示实施例可知,在本发明实施例中,通过分别获取每个结构节点在所述因素结构树中的权重值,并将一类结构节点的权重值叠加,将叠加后的权重值大于预设的权重阈值的一类结构节点作为因素节点进行输出,通过对结构节点进行筛选,提升了输出的因素节点的有效性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图6示出了本发明实施例提供的一种终端设备的结构框图,该终端设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参见图6,所述终端设备包括:
获取单元61,用于获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;
拟合单元62,用于将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;
输出单元63,用于从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
可选地,所述拟合单元62,包括:
构建单元,用于根据所述多个数据样本构建数据样本集,将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数,并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数;
取值获取单元,用于获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围,并对所述取值范围进行二分操作直至得到N个二分点,其中,N为大于零的整数;
收益计算单元,用于根据所述数据样本集构建所述因素结构树的根节点,并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益;
二分单元,用于若所述最佳分裂收益大于预设的收益阈值,则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作;
继续二分单元,用于对将所述根节点进行二分操作后得到的节点继续进行二分操作,直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
可选地,所述收益计算单元,包括:
计算子单元,用于根据所述二分点将所述数据样本集分为第一样本集和第二样本集,并将所述第一样本集和第二样本集输入预设的收益算式,得到分裂收益;
比对单元,用于获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益,并将数值最大的所述分裂收益作为所述最佳分裂收益。
可选地,若存在多个所述影响因素,则所述输出单元63,包括:
统计单元,用于统计所述因素节点在所述因素结构树中出现的出现次数;
排序单元,用于根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序,并输出排序后的多个所述影响因素。
可选地,所述输出单元63,包括:
权重获取单元,用于分别获取每个所述结构节点在所述因素结构树中的权重值;
输出子单元,用于将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。
因此,本发明实施例提供的终端设备可在存在多个样本因素的情况下实现对事件影响因素的确定,并且通过训练因素结构树,提升了影响因素确定的准确性。
图7是本发明实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如终端设备的控制程序。所述处理器70执行所述计算机程序72时实现上述各个确定事件影响因素的方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各单元的功能,例如图6所示单元61至63的功能。
示例性的,所述计算机程序72可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成获取单元、拟合单元和输出单元,各单元具体功能如下:
获取单元,用于获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;
拟合单元,用于将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;
输出单元,用于从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备7可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备7还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备7所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将所述装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种确定事件影响因素的方法,其特征在于,包括:
获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;
将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;
从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
2.如权利要求1所述的方法,其特征在于,所述将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树,包括:
根据所述多个数据样本构建数据样本集,将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数,并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数;
获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围,并对所述取值范围进行二分操作直至得到N个二分点,其中,N为大于零的整数;
根据所述数据样本集构建所述因素结构树的根节点,并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益;
若所述最佳分裂收益大于预设的收益阈值,则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作;
对将所述根节点进行二分操作后得到的节点继续进行二分操作,直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
3.如权利要求2所述的方法,其特征在于,所述计算根据所述N个二分点对所述根节点进行分裂得到的最佳分裂收益,包括:
根据所述二分点将所述数据样本集分为第一样本集和第二样本集,并将所述第一样本集和第二样本集输入预设的收益算式,得到分裂收益;
获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益,并将数值最大的所述分裂收益作为所述最佳分裂收益。
4.如权利要求1所述的方法,其特征在于,若存在多个所述影响因素,所述将与所述因素节点对应的样本因素输出为所述事件的影响因素,还包括:
统计所述因素节点在所述因素结构树中出现的出现次数;
根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序,并输出排序后的多个所述影响因素。
5.如权利要求1所述的方法,其特征在于,所述从所述因素结构树的结构节点中确定出因素节点,包括:
分别获取每个所述结构节点在所述因素结构树中的权重值;
将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。
6.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取与事件相关的多个数据样本,所述数据样本包括标签特征值和多个因素特征值,所述标签特征值用于指示事件结果,每个所述因素特征值分别与一个预设的样本因素对应;
将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树;
从所述因素结构树的结构节点中确定出因素节点,并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
7.如权利要求6所述的终端设备,其特征在于,所述将所述多个数据样本与预设的学习模型进行拟合,并将拟合完成的所述学习模型输出为因素结构树,包括:
根据所述多个数据样本构建数据样本集,将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数,并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数;
获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围,并对所述取值范围进行二分操作直至得到N个二分点,其中,N为大于零的整数;
根据所述数据样本集构建所述因素结构树的根节点,并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益;
若所述最佳分裂收益大于预设的收益阈值,则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作;
对将所述根节点进行二分操作后得到的节点继续进行二分操作,直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
8.如权利要求7所述的终端设备,其特征在于,所述计算根据所述N个二分点对所述根节点进行分裂得到的最佳分裂收益,包括:
根据所述二分点将所述数据样本集分为第一样本集和第二样本集,并将所述第一样本集和第二样本集输入预设的收益算式,得到分裂收益;
获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益,并将数值最大的所述分裂收益作为所述最佳分裂收益。
9.如权利要求6所述的终端设备,其特征在于,若存在多个所述影响因素,所述将与所述因素节点对应的样本因素输出为所述事件的影响因素,还包括:
统计所述因素节点在所述因素结构树中出现的出现次数;
根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序,并输出排序后的多个所述影响因素。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201810496726.7A 2018-05-22 2018-05-22 确定事件影响因素的方法及终端设备 Active CN108681751B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810496726.7A CN108681751B (zh) 2018-05-22 2018-05-22 确定事件影响因素的方法及终端设备
PCT/CN2018/097557 WO2019223104A1 (zh) 2018-05-22 2018-07-27 确定事件影响因素的方法、装置、终端设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496726.7A CN108681751B (zh) 2018-05-22 2018-05-22 确定事件影响因素的方法及终端设备

Publications (2)

Publication Number Publication Date
CN108681751A true CN108681751A (zh) 2018-10-19
CN108681751B CN108681751B (zh) 2020-05-01

Family

ID=63807602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496726.7A Active CN108681751B (zh) 2018-05-22 2018-05-22 确定事件影响因素的方法及终端设备

Country Status (2)

Country Link
CN (1) CN108681751B (zh)
WO (1) WO2019223104A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807589A (zh) * 2019-10-31 2020-02-18 广东电网有限责任公司 一种电力现货市场的案例分析系统
CN111292106A (zh) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 一种业务需求影响因素确定方法以及装置
CN113515507A (zh) * 2021-03-12 2021-10-19 中电建电力检修工程有限公司 应用于大坝渗水检测的方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111337956B (zh) * 2020-03-16 2022-02-11 北京工业大学 导航接收机性能综合评价方法及装置
CN116610931B (zh) * 2023-07-17 2023-11-10 成都飞机工业(集团)有限责任公司 一种飞机数控锪窝影响因素提取方法、装置、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158721A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Tag Association with Image Regions
US20130166481A1 (en) * 2011-12-27 2013-06-27 Microsoft Corporation Discriminative decision tree fields
CN106326904A (zh) * 2015-06-16 2017-01-11 富士通株式会社 获取特征排序模型的装置和方法以及特征排序方法
CN107480696A (zh) * 2017-07-12 2017-12-15 深圳信息职业技术学院 一种分类模型构建方法、装置及终端设备
CN107748862A (zh) * 2017-09-21 2018-03-02 清华大学 一种基于双频雷达信号时频分布的无人机分类方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798332B (zh) * 2016-09-05 2021-04-20 华为技术有限公司 一种用户行为预测方法及装置
CN108053120B (zh) * 2017-12-15 2020-09-01 阿里巴巴集团控股有限公司 一种模型整合方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158721A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Tag Association with Image Regions
US20130166481A1 (en) * 2011-12-27 2013-06-27 Microsoft Corporation Discriminative decision tree fields
CN106326904A (zh) * 2015-06-16 2017-01-11 富士通株式会社 获取特征排序模型的装置和方法以及特征排序方法
CN107480696A (zh) * 2017-07-12 2017-12-15 深圳信息职业技术学院 一种分类模型构建方法、装置及终端设备
CN107748862A (zh) * 2017-09-21 2018-03-02 清华大学 一种基于双频雷达信号时频分布的无人机分类方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292106A (zh) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 一种业务需求影响因素确定方法以及装置
CN110807589A (zh) * 2019-10-31 2020-02-18 广东电网有限责任公司 一种电力现货市场的案例分析系统
CN113515507A (zh) * 2021-03-12 2021-10-19 中电建电力检修工程有限公司 应用于大坝渗水检测的方法及系统
CN113515507B (zh) * 2021-03-12 2024-02-02 中电建电力检修工程有限公司 应用于大坝渗水检测的方法及系统

Also Published As

Publication number Publication date
WO2019223104A1 (zh) 2019-11-28
CN108681751B (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN108681751A (zh) 确定事件影响因素的方法及终端设备
CN108665120B (zh) 打分模型的建立、用户信用的评估方法及装置
Son et al. Analysis of the technical efficiency of state rubber farms in Vietnam
CN110516910A (zh) 基于大数据的保单核保模型训练方法和核保风险评估方法
CN107705556A (zh) 一种基于支持向量机和bp神经网络结合的交通流预测方法
CN105205052B (zh) 一种数据挖掘方法及装置
CN106971241B (zh) 基于模糊神经网络预测污水水质数据的方法
CN113902131B (zh) 抵抗联邦学习中歧视传播的节点模型的更新方法
CN113283924A (zh) 需求预测方法以及需求预测装置
CN110263136B (zh) 基于强化学习模型向用户推送对象的方法和装置
CN103646670A (zh) 一种评估存储系统性能的方法和设备
CN117436679B (zh) 一种元宇宙资源匹配方法及其系统
CN110766201A (zh) 收入预测方法、系统、电子设备、计算机可读存储介质
Tawfik Linearity versus non-linearity in forecasting Nile River flows
Akplogan et al. Solving the Crop Allocation Problem using Hard and Soft Constraints∗
CN116737334A (zh) 任务调度及数据集标签更新方法、装置和电子设备
CN103679267A (zh) 基于无标记样本的rbf神经网络构建方法及其装置
CN115039549B (zh) 一种农作物种植施肥信息处理方法及系统
CN108961071A (zh) 自动预测组合业务收益的方法及终端设备
CN108985493A (zh) 一种基于自适应可变滤镜的地类变化预测方法
Newton Development and utility of an ecological-based decision-support system for managing mixed coniferous forest stands for multiple objectives
Li et al. Information acquisition in new product introduction
CN109325861A (zh) 采用经验回放机制的目标股票选择方法、装置及存储介质
CN116843368B (zh) 基于arma模型的营销数据处理方法
Peacock A Value-Function Based Method for Incorporating Ensemble Forecasts in Real-Time Optimal Reservoir Operations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant