CN106709513A

CN106709513A - 一种基于有监督机器学习的证券配资账户识别方法

Info

Publication number: CN106709513A
Application number: CN201611134189.9A
Authority: CN
Inventors: 何波; 幸锐; 刘冬宇; 李杜
Original assignee: Sino Thai Securities Ltd By Share Ltd
Current assignee: Sino Thai Securities Ltd By Share Ltd
Priority date: 2016-12-10
Filing date: 2016-12-10
Publication date: 2017-05-24

Abstract

本发明的基于有监督机器学习的证券配资账户识别方法，包括：a).采集样本并标记；b).提取并计算交易特征；c).划分训练集及测试集；d).特征筛选及有效性排序；e).模型训练；f).模型验证；g).增加模型中特征数目再训练；h).改变分类方法或分类模型，确定最优分类模型。配资账户类别判别过程：1).计算出待预测证券账户的特征集M_Y中含有的所有交易特征；2).将步骤1)计算出的特征输入到最优分类模型Y中，获得待预测账户的配资情况。本发明的证券配资账户识别方法，减少了查处非法配资所需要的人力投入，能鉴别出60%左右的配资账户，准确性为80%左右，减少了人工调查取证的工作量，具有重要的实际意义。

Description

一种基于有监督机器学习的证券配资账户识别方法

技术领域

本发明涉及一种基于有监督机器学习的证券配资账户识别方法，更具体的说，尤其涉及一种利用有标记的配资账户数据对基分类器进行训练，通过对验证集的配资账户特征进行预测，筛选最优基分类器并实现对证券账户是否有非法配资行为进行判别的方法。

背景技术

2015年以来，证监会对场外配资行为进行了强力的清理活动，对以铭创、同花顺、Homs软件为代表的伞型信托软件进行严厉查处。2015年7月12日，证监会发布的《关于清理整顿违法从事证券业务活动的意见》明确规定“严禁账户持有人通过证券账户下设子账户、分账户、虚拟账户等方式违规进行证券交易”。

配资是证券市场术语，指的是根据账户现有资产成比例提供资金从事证券交易的行为，属于证券市场的借贷服务。合法的配资服务，例如融资融券业务，需要遵守《证券法》及相关法律法规进行审批备案并接受监管；与此相对的未经审批并绕开监管的非法配资行为通常称为场外配资。常见的场外配资行为采用出借个人账户的方法，这些证券账户与普通个人证券账户混杂在一起，仅通过交易所以外的系统进行账户管理。

由于缺乏审查及监管流程，场外配资行为缺乏对参与人员的资格审查及风险承受能力判断，提供杠杆的比例也大幅高于普通投资人的交易及承受能力。结果是场外配资吸引了大量以投机为目的的个人投资者。对投资者而言，过大的交易杠杆在市场上涨时放大了合理的收益，激发了投资者的投机冲动；在市场下行时，杠杆放大损失并最终造成投资人账户强制平仓，最终使得投资人承受了超过其能力的损失。由于缺乏监管和公告体系，这种风险具有隐匿性的特征。当场外配资增大到一定量时，场外配资将加大股市的波动性。一旦市场出现较大的下行，大量配资账户由于不合理配置杠杆造成的强制平仓可能导致市场多米诺骨牌式的下跌，影响证券市场的稳定并侵害更广大范围的投资人利益。

场外配资早在上世纪90年代就已经产生，但由于其人工技术操作的局限性而不成规模，难以形成较大的影响力。在2015年之后，以恒生Homs软件为代表的伞型信托软件使得成场外配资服务迅速放大到足以影响证券市场的规模。查处配资账户的需求更加紧迫，然而传统配资账户鉴别的手段在迅速放大的规模面前却显得力不从心。

传统的证券账户配资行为鉴别大多分为两步。先通过简单的统计手段，将股票证券账户中数据严重偏离平均水平的账户挑选出来。然后人工判断这些被挑选出来的账户是否有较大配资可能。这样的鉴别方式存在三个缺点：一是配资账户的筛选标准较简单，一般采用平均值及方差等指标，多个筛选条件之间缺乏好的整合方式；二是具有主观性，一般是依靠监管人员的业务理解来筛选，筛选划线缺乏统一的标准，推广难度高；三是对人力投入要求高，由于第一步的统计筛选的准确率较低，大量筛选工作实际遗留到了人工调查的阶段。

分类问题作为机器学习中的一个大类，如今已有很多成型的分类技术及分类模型可以运用。使用机器学习的方式进行数据处理已经成为各个行业的趋势。证券交易中较多的交易指标类型可以为研究提供丰富的特征，监管部门对配资行为的重点打击也积累了一定量的标记样本，这些都为使用机器学习识别配资账户的方法提供了可能性。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种基于有监督机器学习的证券配资账户识别方法。

本发明的基于有监督机器学习的证券配资账户识别方法，其特别之处在于，通过以下步骤来实现：a).采集样本并标记；b).提取并计算交易特征；c).划分训练集及测试集；d).特征筛选及有效性排序；e).模型训练；f).模型验证；g).增加模型中特征数目再训练；h).改变分类方法或分类模型，确定最优分类模型。

本发明的基于有监督机器学习的证券配资账户识别方法，具体通过以下步骤来实现：

a).采集样本并标记，搜集已确定为非法配资账户的账户集T₁，并根据非法配资账户与正常配资账户的先验比例加入一定数量的正常账户T₀，形成样本数为N的且具有非法配资和正常配资标记L的标记样本集X={x₁,x₂,…,x_N}；b).提取并计算交易特征，选取与配资行为相关的单月委托买卖股票次数T、委托买卖股票只数C、委托买卖股票市值V、成交量标准差S在内的特征作为交易特征，计算标记样本集X中每个配资账户的交易特征，最终形成特征集F={T_i,C_i,V_i,S_i,…,f_n}、i=1,2，…，N；c).划分训练集及测试集，从样本集X中随机抽取75%的账户作为训练集，剩余25%的账户作为测试集；d).特征筛选及有效性排序，从训练集中随机抽取n个样本，输入特征集F中的所有特征进行决策树分类；从特征集F中选取m个交易特征，对训练集中的账户进行分类，以形成交易特征有效性排序列表；n＜0.75N，m小于集合F中元素的个数；e).模型训练，选择一种分类方法或分类模型，从步骤d)中生成的交易特征有效性排序列表中选取排名靠前的m个特征作为分类器的输入，将模型作为分类器的输出，利用训练集中的配资标记L训练分类模型的参数，以获取分类模型；f).模型验证，将步骤c)中划分的测试集除去配资标签L输入到步骤e)中获取的分类模型中，将分类模型的输出结果与测试集标签L相比较，得出模型的召回率R及准确率P指标；g).增加模型中特征数目再训练，保持当前分类模型不变，根据步骤d)中获取的特征有效性排序列表，逐步加入m个特征以后的特征，重复步骤e)和步骤f)，根据步骤f)得出的召回率及准确率指标，确定该模型下的最优特征数量及清单M={f₁,f₂,…,f_k}，k小于集合F中元素的个数；同时确定该分类器最优预测表现的召回率R及准确率P；h).改变分类方法或分类模型，重复步骤e)、f)和g),根据步骤g)中输出的结果，选择具有最优召回率和准确率的分类模型作为最终的分类模型Y，并输出分类模型Y的特征集M_Y={f₁,f₂,…,f_kY}、召回率R及准确率P，kY小于集合F中元素的个数。

本发明的基于有监督机器学习的证券配资账户识别方法，还包括以下的配资账户类别判别过程：

1).根据待预测证券账户的数据，计算出待预测证券账户的特征集M_Y中含有的所有交易特征；2).将步骤1)计算出的待预测证券账户的特征输入到最优分类模型Y中，获得待预测账户的配资情况标记。

本发明的基于有监督机器学习的证券配资账户识别方法，步骤d)中所述的特征筛选及有效性排序通过以下步骤来实现：

d-1).在训练集中随机抽取n个样本，输入所有特征进行决策树分类；在决策树分类结果中记录每个分类节点使用特征情况；重新抽取n个样本并重复该步骤，在多次重复后统计每个特征出现的频率，并生成特征有效性排序；d-2).采用随机森林的算法，每次分类计算随机选取很有限的m个特征对测试集数据进行分类，记录顶部节点出现次数并重复该步骤的随机树计算，统计生成特征有效性排序；d-3).综合步骤d-1)和d-2)的特征有效性排序，形成特征有效性排序列表。

本发明的基于有监督机器学习的证券配资账户识别方法，步骤e)中分类模型包括逻辑回归、决策树、随机森林、提升法以及支持向量机，步骤b)中的特征集F还包括配资账户交易量分布的峰度和偏度。

本发明的有益效果是：本发明的基于有监督机器学习的配资账户识别方法，解决了传统筛选法的无法标准化、规模化以及实时更新的问题。从样本特征方面，继承了传统配资查处的常用指标，并加入了更复杂的交易特征进入预测过程，例如客户交易量分布的峰度和偏度，实现了对大量特征集进行可量化的有效性排序，以模型的方式确定了多个特征协同作用的方式，可进行标准化推广。

本发明的基于有监督机器学习的证券配资账户识别方法具有一定程度的学习能力，由于非法配资行为在查处的过程中会发生运作模式的改变，通过输入新的样本集可以较迅速地训练出判别新配资方式的特征及预测模型，帮助监管手段实时更新和演进。

本发明的基于有监督机器学习的证券配资账户识别方法增加了准确性，减少了查处非法配资所需要的人力投入。本方法得到的配资行为分类器能鉴别出60%左右的配资账户，认定存在配资行为的账户的准确性为80%左右。在确定模型后计算速度快，可以减少了人工调查取证的工作量，具有重要的实际意义。

附图说明

图1为本发明的基于有监督机器学习的证券配资账户识别方法中最优分类模型的获取流程图；

图2为利用获取的优分类模型进行非法配资账户识别的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，给出了本发明的基于有监督机器学习的证券配资账户识别方法中最优分类模型的获取流程图，本发明的基于有监督机器学习的证券配资账户识别方法，通过以下步骤来实现：

a).采集样本并标记，搜集已确定为非法配资账户的账户集T₁，并根据非法配资账户与正常配资账户的先验比例加入一定数量的正常账户T₀，形成样本数为N的且具有非法配资和正常配资标记L的标记样本集X={x₁,x₂,…,x_N}；

b).提取并计算交易特征，选取与配资行为相关的单月委托买卖股票次数T、委托买卖股票只数C、委托买卖股票市值V、成交量标准差S在内的特征作为交易特征，计算标记样本集X中每个配资账户的交易特征，最终形成特征集F={T_i,C_i,V_i,S_i,…,f_n}、i=1,2，…，N；

该步骤中，所述的交易特征还可包括配资账户交易量分布的峰度和偏度，还可对获取的交易特征进行必要的转换，如对交易特征取log对数。

c).划分训练集及测试集，从样本集X中随机抽取75%的账户作为训练集，剩余25%的账户作为测试集；

d).特征筛选及有效性排序，从训练集中随机抽取n个样本，输入特征集F中的所有特征进行决策树分类；从特征集F中选取m个交易特征，对训练集中的账户进行分类，以形成交易特征有效性排序列表；n＜0.75N，m小于集合F中元素的个数；

该步骤通过以下具体方法来实现：

d-1).在训练集中随机抽取n个样本，输入所有特征进行决策树分类；在决策树分类结果中记录每个分类节点使用特征情况；重新抽取n个样本并重复该步骤，在多次重复后统计每个特征出现的频率，并生成特征有效性排序；

d-2).采用随机森林的算法，每次分类计算随机选取很有限的m个特征对测试集数据进行分类，记录顶部节点出现次数并重复该步骤的随机树计算，统计生成特征有效性排序；

d-3).综合步骤d-1)和d-2)的特征有效性排序，形成特征有效性排序列表。

e).模型训练，选择一种分类方法或分类模型，从步骤d)中生成的交易特征有效性排序列表中选取排名靠前的m个特征作为分类器的输入，将模型作为分类器的输出，利用训练集中的配资标记L训练分类模型的参数，以获取分类模型；

所述的分类模型包括逻辑回归、决策树、随机森林、提升法以及支持向量机。

f).模型验证，将步骤c)中划分的测试集除去配资标签L输入到步骤e)中获取的分类模型中，将分类模型的输出结果与测试集标签L相比较，得出模型的召回率R及准确率P指标；

g).增加模型中特征数目再训练，保持当前分类模型不变，根据步骤d)中获取的特征有效性排序列表，逐步加入m个特征以后的特征，重复步骤e)和步骤f)，根据步骤f)得出的召回率及准确率指标，确定该模型下的最优特征数量及清单M={f₁,f₂,…,f_k}，k小于集合F中元素的个数；同时确定该分类器最优预测表现的召回率R及准确率P；

h).改变分类方法或分类模型，重复步骤e)、f)和g),根据步骤g)中输出的结果，选择具有最优召回率和准确率的分类模型作为最终的分类模型Y，并输出分类模型Y的特征集M_Y={f₁,f₂,…,f_kY}、召回率R及准确率P，kY小于集合F中元素的个数。

如图2所示，给出了利用获取的优分类模型进行非法配资账户识别的流程图，其通过以下步骤来实现：

1).根据待预测证券账户的数据，计算出待预测证券账户的特征集M_Y中含有的所有交易特征；

该步骤中，如果在训练最优分类模型的过程中，交易特征经过转换处理（如对交易特征取log对数），则在该步骤中，相应的交易特征也需经过相同的转换。

2).将步骤1)计算出的待预测证券账户的特征输入到最优分类模型Y中，获得待预测账户的配资情况标记。

Claims

1.一种基于有监督机器学习的证券配资账户识别方法，其特征在于，通过以下步骤来实现：a).采集样本并标记；b).提取并计算交易特征；c).划分训练集及测试集；d).特征筛选及有效性排序；e).模型训练；f).模型验证；g).增加模型中特征数目再训练；h).改变分类方法或分类模型，确定最优分类模型。

2.根据权利要求1所述基于有监督机器学习的证券配资账户识别方法，其特征在于，具体通过以下步骤来实现：

3.根据权利要求2所述的基于有监督机器学习的证券配资账户识别方法，其特征在于，还包括以下的配资账户类别判别过程：

4.根据权利要求2或3所述的基于有监督机器学习的证券配资账户识别方法，其特征在于，步骤d)中所述的特征筛选及有效性排序通过以下步骤来实现：

5.根据权利要求2或3所述的基于有监督机器学习的证券配资账户识别方法，其特征在于：步骤e)中分类模型包括逻辑回归、决策树、随机森林、提升法以及支持向量机，步骤b)中的特征集F还包括配资账户交易量分布的峰度和偏度。