CN111199419B - 股票异常交易的识别方法及系统 - Google Patents

股票异常交易的识别方法及系统 Download PDF

Info

Publication number
CN111199419B
CN111199419B CN201911314510.5A CN201911314510A CN111199419B CN 111199419 B CN111199419 B CN 111199419B CN 201911314510 A CN201911314510 A CN 201911314510A CN 111199419 B CN111199419 B CN 111199419B
Authority
CN
China
Prior art keywords
stock
abnormal
target
time interval
abnormal transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911314510.5A
Other languages
English (en)
Other versions
CN111199419A (zh
Inventor
陈文�
翟聪
史晓春
周凡吟
曾途
吴桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201911314510.5A priority Critical patent/CN111199419B/zh
Publication of CN111199419A publication Critical patent/CN111199419A/zh
Application granted granted Critical
Publication of CN111199419B publication Critical patent/CN111199419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本发明涉及一种股票异常交易的识别方法及系统,该方法包括步骤:构建用于识别股票异常交易的特征集;确定分析时间区间,并提取目标股票在该时间区间的历史数据;基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为。本发明方法或系统,通过提取目标股票的历史数据,将目标股票在各个时间的数据进行比较分析,也就是将目标股票进行自我分析比较,可以较为准确地分析出目标股票是否存在异常交易行为,相比于人工监管,极大地提高了效率,且准确度高。

Description

股票异常交易的识别方法及系统
技术领域
本发明涉及数据分析技术领域,特别涉及一种股票异常交易的识别方法及系统。
背景技术
随着我国资本市场的不断发展,加强对异常股票和异常交易行为的监管,保证健康有序的市场环境,维护广大投资者尤其是中小投资者的合法利益,维护市场稳定健康发展,已经成为监管领域的重要工作任务。在当前证券市场中,存在少数投资者为追逐投机利润,采用涉嫌违法违规的交易方式影响证券正常交易,导致股价出现大幅异常波动,股票出现异常交易。因此,需要对股票交易行为进行监管,及时有效地发现问题,获取监管线索。
目前我国监管主要采取人工筛查,例如通过以下特征:连续3个交易日内日收盘价格涨跌幅偏离值累计达到±20%的;连续3个交易日内日均换手率与前5个交易日的日均换手率的比值达到30倍,并且该股票、封闭式基金连续3个交易日内的累计换手率达到20%的;或证监会认定属于异常波动的其他情形。监管方通过人工筛查上述特征信息来识别异常明显的股票,工作量十分巨大,效率低,能识别到的股票数量有限。而想要有效预测与识别股票异常交易需要对序列异常点进行有效检测,目前还没有成熟的模型可供使用来监测与预警股票异常波动。
发明内容
本发明的目的在于提供一种股票异常交易的识别方法及系统,以实现有效地监控股票异常交易行为。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种股票异常交易的识别方法,包括以下步骤:
构建用于识别股票异常交易的特征集;
确定分析时间区间,并提取目标股票在该时间区间的历史数据;
基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为。
上述方法中,通过提取目标股票的历史数据,将目标股票在各个时间的数据进行比较分析,也就是将目标股票进行自我分析比较,可以较为准确地分析出目标股票是否存在异常交易行为,相比于人工监管,极大地提高了效率,且识别准确度高。
一种实施方式下,所述基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为的步骤中,基于排列熵算法识别出目标股票在该时间区间内是否存在异常交易行为。
另一种实施方式下,所述基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为的步骤中,基于特征经验分布法识别出目标股票在该时间区间内是否存在异常交易行为。
另一种实施方式下,所述基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为的步骤中,基于小波变换法识别出目标股票在该时间区间内是否存在异常交易行为。
在另一种实施方式下,所述基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为的步骤中,先分别基于排列熵算法、特征经验分布法和小波变换法,识别出目标股票在该时间区间内是否存在异常交易行为,然后再融合不同方法的识别结果,得到最终的识别结果。
基于排列熵算法识别出目标股票在该时间区间内是否存在异常交易行为的步骤,包括:从特征集中选取若干个具有高频分时特性的特征;针对于所述时间区间的每个交易日,根据每个交易日股票交易对应的高频时间序列,计算该交易日每个特征对应的排列熵;针对于选取的每个特征,根据排列熵的大小识别出目标股票基于该特征的疑似异常交易日期;针对于识别出的每个疑似异常交易日期,统计该日期被识别为疑似异常交易日期的特征个数,基于特征个数识别出目标股票在该疑似异常交易日期是否存在异常交易行为。
基于特征经验分布法识别出目标股票在该时间区间内是否存在异常交易行为的步骤,包括:从特征集中选取若干个具有高频分时特性的特征;确定每个交易日的日内切片长度,获得若干个高频时间段;针对于每一个高频时间段,以所述时间区间内所有交易日的相同高频时间段作为一个样本集,以此获得若干个样本集;针对于选取的每个特征,基于每个样本集,将该样本集内处于经验分布前设定阈值的高频时间段识别为异常交易时间段,然后根据每个交易日被识别为异常时间段的个数识别出疑似异常交易日期;针对于识别出的每个疑似异常交易日期,统计该日期被识别为疑似异常交易日期的特征个数,基于特征个数识别出目标股票在该疑似异常交易日期是否存在异常交易行为。
基于小波变换法识别出目标股票在该时间区间内是否存在异常交易行为的步骤,包括:从特征集中选取若干个具有日频率特性的特征;针对于选取的每个特征,采用GARCH模型对时间序列进行拟合,对拟合残差进行离散小波变换,根据细节系数构造统计量,基于统计量对应的最大值识别出目标股票在该时间区间内是否存在异常交易行为。
在又一个实施方案中,上述方法还包括步骤:基于特征集中的特征,构建可比股票池;计算出目标股票的交易行为与可比股票池的偏离程度,并基于该偏离程度识别出目标股票是否存在异常交易行为;最后融合不同方法的识别结果,得到最终的识别结果。
所述基于特征集中的特征,构建可比股票池的步骤中,通过聚类分析算法或者协整核验算法构建可比股票池。
另一方面,本发明实施例同时提供了一种股票异常交易的识别系统,包括:
特征集构建模块,用于构建用于识别股票异常交易的特征集;
历史数据提取模块,用于确定分析时间区间,并提取目标股票在该时间区间的历史数据;
异常交易识别模块,用于基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为。
所述异常交易识别模块在基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为时,基于排列熵算法和/或特征经验分布法和/或小波变换法识别目标股票在该时间区间内是否存在异常交易行为。
在一个实施方案中,上述系统还包括可比股票池构建模块,用于基于特征集中的特征,构建可比股票池;所述异常交易识别模块还用于计算出目标股票的交易行为与可比股票池的偏离程度,并基于该偏离程度识别出目标股票是否存在异常交易行为。所述可比股票池构建模块,通过聚类分析算法和/或协整核验算法构建可比股票池。
再一方面,本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中所述方法中的步骤。
与现有技术相比,本发明方法及系统,通过提取目标股票的历史数据,将目标股票在各个时间的数据进行比较分析,也就是将目标股票进行自我分析比较,可以较为准确地分析出目标股票是否存在异常交易行为,可替代人工筛查来监测股票异常波动情况,节约人力资源,可以快速地从大量股票交易数据中识别出疑似异常交易,极大地提高了监管效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1a为实施例1中股票异常交易的识别方法的流程图。
图1b为实施例1中排列熵算法识别股票异常交易的流程图。
图2为实施例2中特征经验分布法识别股票异常交易的流程图。
图3为实施例3中小波变换法识别股票异常交易的流程图。
图4a为实施例5中股票异常交易的识别方法的流程图。
图4b为实施例5中构建可比股票池步骤的流程图。
图5a为实施例6中股票异常交易的识别方法的流程图。
图5b为实施例6中构建可比股票池步骤的流程图。
图6为实施例7中股票异常交易的识别系统的组成框图。
图7为实施例中所述的电子设备的组成框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1a,本实施例中提供的股票异常交易的识别方法,包括以下步骤:
S11,构建用于识别股票异常交易的特征集。
特征集是由若干个特征组成,对于股票异常交易行为的监管,交易所会给出一定的特征,这些特征组合在一起就构成了特征集。当然地,在交易所提供的特征的基础上,也可以根据专家经验增加一些特征(主要参考交易所交易规则规定)。本实施例中仅作为举例,列举了部分特征,如下表1所示。
表1
S12,确定分析时间区间,并提取目标股票在该时间区间的历史数据。此处的时间区间可以根据需求确定。以“AAAA(中文名称)bbbbbb(股票代码).SZ”作为目标股票为例,例如选取的时间区间为2011年12月1日至2013年2月28日,总计326个交易日,则提取出这326个交易日目标股票的交易数据。
S13,根据特征集中的特征以及提取的历史数据,基于排列熵算法识别出目标股票在该时间区间内是否存在异常交易行为。
排列熵算法为度量时间序列异常的一种方法,通过相空间重构延迟坐标法对时间序列进行相空间重构,并计算熵值,以均匀序列为基准,得到对时间序列突变性的精细度量,其中相对自身总体趋势突变越多的时间序列,其排列熵就越大,存在异常的可能性也越高。
请参阅图1b,基于排列熵算法识别出目标股票在该时间区间内是否存在异常交易行为的步骤,包括:
S131,从特征集中选取若干个具有高频分时特性的特征,例如表1中的最新成交价、成交量等。
S132,针对于所述时间区间的每个交易日,根据每个交易日股票交易对应的高频时间序列,计算该交易日每个特征对应的排列熵。
以最新成交价CP为例,计算排列熵的过程大致如下:
对最新成交价CP进行相空间重构(相空间大小记为m),得到矩阵,矩阵的每一行都是一个相空间长度的序列。
对矩阵的每一行按升序重新排列,排序后记录该行排序前的下标顺序,得到一组符号序列。
统计每一行的下标顺序出现的次数/m(除以m),作为该行的概率,计算时间序列所有行的信息熵求和即为排列熵。
S133,针对于选取的每个特征,根据排列熵的大小识别出目标股票基于该特征的疑似异常交易日期。例如,根据排列熵大小对所有日期进行排序,其中排列熵最大的10天视为异常,即疑似异常交易日期。
S134,针对于识别出的每个疑似异常交易日期,统计该日期被识别为疑似异常交易日期的特征个数,基于特征个数识别出目标股票在该疑似异常交易日期是否存在异常交易行为。
例如下表2所示,为“AAAA bbbbbb.SZ”作为目标股票,针对各个特征识别出的疑似异常交易日的统计表。针对于每个疑似异常交易日期,若以被识别为疑似异常交易日期的特征个数大于5即被识别为存在异常交易行为,那么2012/6/21、2012/6/26、2012/6/25均被识别为存在异常交易行为。可以查询目标股票对应日期前后的公告或者行为对异常结果进行解读,进一步判断是否真的存在内幕交易或市场操纵等异常行为。
表2
实施例2
本实施例中提供了另一种股票异常交易的识别方法,与实施例1中所述方法相比,区别在于,本实施例中采用特征经验分布法识别目标股票在该时间区间内是否存在异常交易行为。股票的高频分时特征在不同日期的相同时间段上的表现通常服从一定的经验分布。基于每个特征的经验分布设定合理阈值,在样本集内偏离经验分布较大的时间段可视为异常。
具体地,请参阅图2,基于特征经验分布法识别目标股票在该时间区间内是否存在异常交易行为的步骤,包括:
S231,从特征集中选取若干个具有高频分时特性的特征,例如表1中的最新成交价、成交量、成交笔数等特征。
S232,确定每个交易日的日内切片长度,获得若干个高频时间段。例如,每个交易日按5分钟长度进行切片,那么每个交易日的连续竞价阶段的240分钟(对应时间区间为9:30:00-11:30:00,13:00-15:00)可平均分为48个高频时间段。股票每个时间点都有一个价格,每隔三十分钟以内的数据都是高频数据。此处,依据证监会提供的股票分时交易数据高频数据情况和业务经验,设定五分钟为高频数据时间间隔。
S233,针对于每一个高频时间段,以所述时间区间内(例如举例中的2011年12月1日至2013年2月28日,总计326个交易日)所有交易日的相同高频时间段作为一个样本集,也就是不同交易日的相同时间段构成一个样本集,以此获得若干个样本集。例如步骤S232中分为48个高频时间段,那么本步骤即可获得48个样本集。
S234,针对于选取的每个特征,基于每个样本集,将该样本集内处于经验分布前设定阈值的高频时间段识别为异常交易时间段,然后根据每个交易日被识别为异常时间段的个数识别出疑似异常交易日期。
例如,将每个样本集内处于经验分布前10%的时间段判定为异常时间段。根据每个交易日的异常时间段出现的次数(即该交易日有多少个时间段被识别为异常时间段)衡量该交易日的异常程度,并按照异常程度的大小依次排序,选择异常程度排名最高的10天作为该特征对应的异常日期。
S235,针对于识别出的每个疑似异常交易日期,统计该日期被识别为疑似异常交易日期的特征个数,基于特征个数识别出目标股票在该疑似异常交易日期是否存在异常交易行为。也就是对多个特征提示的异常日期名单进行统计,某个日期提示异常的特征数量越多,则判定该日期的异常程度越高。按照异常程度由高到低输出相关异常日期。
例如下表3所示,为“AAAA bbbbbb.SZ”作为目标股票,针对各个特征识别出的疑似异常交易日的统计表。针对于每个疑似异常交易日期,若以被识别为疑似异常交易日期的特征个数大于等于5即被识别为存在异常交易行为,那么2012/9/7、2012/8/27均被识别为存在异常交易行为。可以查询目标股票对应日期前后的公告或者行为对异常结果进行解读,进一步判断是否真的存在内幕交易或市场操纵等异常行为。
表3
实施例3
本实施例中提供了另一种股票异常交易的识别方法,与实施例1中所述方法相比,区别在于,本实施例中采用小波变换法识别目标股票在该时间区间内是否存在异常交易行为。采用GARCH模型对时间序列进行拟合,选择合适的小波基对拟合残差进行离散小波变换,得到小波系数(包括近似系数以及细节系数)。对细节系数进一步分析,根据细节系数构造统计量,若统计量中最大值超过某一阈值,则统计量最大值所在位置对应的样本视为异常。
具体地,请参阅图3,基于特征经验分布法识别目标股票在该时间区间内是否存在异常交易行为的步骤,包括:
S331,从特征集中选取若干个具有日频率特性的特征,例如表1中的收益率特征。
S332,针对于选取的每个特征,采用GARCH模型对时间序列进行拟合,对拟合残差进行离散小波变换,根据细节系数构造统计量,基于统计量对应的最大值识别出目标股票在该时间区间内是否存在异常交易行为。
仍以“AAAA bbbbbb.SZ”作为目标股票进行举例,选择2012年1月4号到2013年1月22日共256个(小波变换要求样本长度为2n,因此这里选取了256个交易日)收益率数据对应的时间序列,拟合GARCH模型,得到:
yk=0.02964-0.1565yk-1k+0.3192εk-1
GARCH模型是计量经济学的一个经典模型,主要用来估计方差不恒定的时间序列。这里yk为第k个交易日的收益率,εk为收益率残差,σk为εk的条件方差(该方差依赖于上一个交易日的收益率残差,所以为条件方差)。通过蒙特卡洛模拟得到95%置信区间对应的阈值为8.4171。接着对拟合残差进行离散小波变换,由细节系数构造统计量,并得到统计量对应的最大值为12.05401,大于阈值8.4171。此时对应的异常日期为2012年6月18日以及2012年6月21日,如表4所示。
表4
异常日期 收益率
2012/6/18 1
2012/6/21 1
实施例4
本实施例中提供了另一种股票异常交易的识别方法,与实施例1中所述方法相比,区别在于,本实施例中同时采用了排列熵算法、特征经验分布法和小波变换法分别识别出目标股票在该时间区间内是否存在异常交易行为,然后再融合不同方法的识别结果,得到最终的识别结果。
融合处理可以有多种实施方式,基于监管力度的不同,可以选择不同的操作。
方式一,可以取不同方法得到的结果的交集作为最终的识别结果。例如,取表2和表3、表4的交集作为最终的识别结果。
方式二,可以取不同方法得到的结果的并集作为最终的识别结果。例如,取表2和表3、表4的并集作为最终的识别结果。
方式三,可以取异常交易行为(即异常交易日期)出现次数最多(或超过设定阈值)的作为最终的识别结果。
如下表5所示为采用3种方法的识别结果的统计表,假设以3种方法都识别为存在异常交易行为,那么该交易日即被识别为存在异常交易行为,例如2012/6/21即被识别为存在异常交易行为。
表5
实施例5
本实施例中提供的股票异常交易的识别方法,与实施例1中所述方法相比,区别在于,还采用了聚类法识别目标股票是否存在异常交易行为。
具体地,请参阅图4a,采用聚类法识别目标股票是否存在异常交易行为包括以下步骤:
S41,构建用于识别股票异常交易的特征集。本步骤的构建方法与实施例1中步骤S11的构建方法一致,基于排列熵算法已经构建了特征集,因此此处可以直接采用表1所示的特征集。
S42,基于特征集中的特征,采用聚类算法构建可比股票池。
为了便于理解,以“AAAA bbbbbb.SZ”作为目标股票为例,对步本骤进行阐述。请参阅图4b,本步骤包括以下步骤:
S421,确定分析时间区间,统计出交易日总数。此处选取的时间区间为2011年12月1日至2013年2月28日,总计326个交易日。
S422,确定目标企业所在行业,提取同行业中各公司的股票数据。本举例中的目标企业属于特种设备制造业,因此只提取特种设备制造业的股票数据。
S423,以交易日总数作为维度数,以特征集中的特征作为聚类分析的特征,进行聚类分析,得到所述可比股票池。本举例中,仅选取收益率特征和可比价格特征进行说明,即同时使用326维收益率特征以及326维可比价格特征进行聚类分析。聚类方法采用K-means,聚类分析最终得到的可比股票池如表6所示。
表6(表6中展示的是股票代码)
S43,计算出目标股票的交易行为与可比股票池的偏离程度,并基于该偏离程度识别出目标股票是否存在异常交易行为。
建立回归模型,分析目标股票与可比股票池的关系,位于回归置信区间以外的样本点即视为异常。回归计算时,针对于每一个特征,以目标股票的该特征作为因变量,可比股票池中各个股票的该特征作为自变量,建立回归模型,并基于该回归模型计算出目标股票的交易行为与可比股票池的偏离程度。例如上述举例中,针对于收益率特征,将目标股票的收益率作为因变量,可比股票池中各股票(即表6中所列股票)的收益率作为自变量,利用公式Y=k1X1+k2X2+...+knXn做统计分析,运用多元线性回归公式的过程中利用最小二乘法来求解。最小二乘就是指回归方程计算值和实验值差的平方和最小。其中,式中的X是可比股票池中各股票的收益率值,Y是目标股票的收益率值,k为回归系数,n表示可比股票池中股票的数量。通过最小化误差的平方和寻找数据的最佳函数匹配,可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。上述公式中的回归系数根据最小二乘法可得:
Y=-0.28*X_6CCCC5+0.066*X_3CCCC8-0.075*X_3CCCC1-0.13*X_3CCCC6+0.11*X_3CCCC7+0.16*X_3CCCC9-0.0018*X_3CCCC5+0.20*X_3CCCC2+0.0066*X_3CCCC3+0.12*X_6CCCC7+0.016*X_3CCCC4
根据95%置信区间确定上下限范围。下表7显示了回归分析得到的异常日期,其中iv_l表示置信区间下限,iv_u表示置信区间上限,Dretwd表示股票收益率。abnormal等于1表示该日的实际收益率大于置信区间上限,视为异常。
表7
交易日期 收益率 iv_l iv_u abnormal
2012/2/28 0.029717 -0.07325 0.028011 1
2012/4/23 0.031785 -0.09683 0.006184 1
2012/5/9 0.052309 -0.06292 0.038215 1
2012/6/11 0.100091 -0.02909 0.075677 1
2012/6/18 0.10023 -0.03739 0.063154 1
2012/6/28 0.03265 -0.07846 0.022182 1
2012/8/14 0.073763 -0.03223 0.068366 1
2012/8/24 0.041561 -0.06898 0.033233 1
2012/8/27 0.074919 -0.07339 0.028554 1
2012/11/6 0.063291 -0.05582 0.04492 1
2012/11/12 0.054748 -0.0463 0.054702 1
2013/2/1 0.0571 -0.04984 0.052127 1
2013/2/4 0.028429 -0.08793 0.015279 1
2013/2/25 0.062708 -0.03791 0.062565 1
从上表7可以看出,采用上述方法可以识别出可能存在股票异常交易行为的情况。得到表7所示结果后,可以查询目标股票对应日期前后的公告或者行为对异常结果进行解读,进一步判断是否真的存在内幕交易或市场操纵等异常行为。
聚类法识别可以选取多个特征,针对于每个特征,都可能会得到一个例如表7的结果,针对于目标公司,得到的每一个表中的每一个交易日期都可以看作是存在异常交易行为,即是说,针对于每个特征得到的表后,取各个表中交易日期的并集,作为该目标公司的异常交易识别结果,以避免异常识别遗漏。当然地,作为其他实施方式,也可以取各个表中交易日期的交集,或者取并集中被识别为异常交易的特征数量超过设定阈值的交易日期作为识别结果,例如有3个特征都识别出某一个交易日期存在异常,那么即被判定为目标公司在该交易日期存在异常交易行为。
最后再融合排列熵算法和聚类法的识别结果,得到最终的识别结果。融合方法可以采用实施例4中所述的方式一/二/三。
实施例6
本实施例中提供的股票异常交易的识别方法,与实施例5相比,还采用了协整核验法识别目标股票是否存在异常交易行为。
请参阅图5a,协整核验法识别目标股票是否存在异常交易行为包括以下步骤:
S51,构建用于识别股票异常交易的特征集。本步骤的操作可以参照实施例1中步骤S11的相关描述。
S52,基于特征集中的特征,采用协整核验算法构建可比股票池。
为了便于理解,仍然以“AAAA bbbbbb.SZ”作为目标股票为例,对步本骤进行阐述。请参阅图5b,本步骤包括以下步骤:
S521,确定分析时间区间,统计出交易日总数。此处选取的时间区间为2011年12月1日至2013年2月28日,总计326个交易日。
S522,采用遍历的方式,将目标股票与市场上所有的股票逐个进行协整检验,协整检验通过的股票进入可比股票池。
协整检验的目的是决定一组非平稳序列的线性组合是否具有稳定的均衡关系,伪回归的一种特殊情况即是两个时间序列的趋势成分相同,此时可能利用这种共同趋势修正回归使之可靠。
对时间序列进行回归分析时,需要考虑因变量和自变量之间是否存在某种切实的关系,所以需要进行协整检验。常用的协整检验有两种:Engel-Granger两步协整检验法和Johansen协整检验法,它们二者的区别在于Engler-Granger采用的是一元方程技术,而Johansen则是多元方程技术,所以Johansen协整检验法受限更小。此举例中,仍然以可比价格特征为例,通过协整检验的股票进入可比股票池,终得到的可比股票池如下表8所示。
表8
3DDDD2.SZ 0DDDD1.SZ 6DDDD1.SH 0DDDD4.SZ 0DDDD2.SZ
6DDDD7.SH 6DDDD2.SH 6DDDD8.SH 0DDDD0.SZ 6DDDD3.SH
6DDDD4.SH 0DDDD6.SZ 9DDDD6.SH 0DDDD8.SZ 6DDDD5.SH
0DDDD3.SZ 9DDDD9.SH 0DDDD5.SZ 2DDDD8.SZ 6DDDD6.SH
S53,计算出目标股票的交易行为与可比股票池的偏离程度,并基于该偏离程度识别出目标股票是否存在异常交易行为。
本步骤的处理过程与实施例6中步骤S43的处理过程相同。本举例中,以可比价格特征进行回归计算,以最小二乘法求取回归系数,基于上述表8中得到的可比股票池,得到的模型为:
Y=-0.11*X_3DDDD2+0.47*X_0DDDD1-0.017*X_6DDDD1-0.010*X_0DDDD4+0.23*X_0DDDD2+0.21*X_6DDDD7+3.05*X_6DDDD2+0.072*X_6DDDD8-0.015*X_0DDDD0+0.17*X_6DDDD3-0.052*X_6DDDD4+0.48*X_0DDDD6-1.15*X_9DDDD6+0.66*X_0DDDD8-0.034*X_6DDDD5+0.44*X_0DDDD3+2.71*X_9DDDD9+0.0022*X_0DDDD5-2.67*X_2DDDD8-2.47*X_6DDDD6
根据95%置信区间确定上下限范围。下表9显示了协整分析得到的异常日期,其中iv_l表示置信区间下限,iv_u表示置信区间上限,Adjprcwd表示股票可比价格。abnormal等于1表示该日期的实际可比价格大于置信区间上限,视为异常。
表9
交易日期 可比价格 iv_l iv_u abnormal
2011/12/23 49.499986 22.84250323 44.99249207 1
2011/12/26 49.999986 29.87151888 49.9740892 1
2012/5/17 41.959988 15.98753077 41.54135103 1
2012/6/21 52.955983 31.8302116 52.16661985 1
由表9可知,通过上述方法可以挖掘出目标股票可能存在的异常行为,可以查询目标股票对应日期前后的公告或者行为对异常结果进行解读,进一步判断是否真的存在内幕交易或市场操纵等异常行为。
股票价格是最容易相互影响,因此本实施例中选取可比价格做协整分析。当然地也可以选择其他特征,效果可能没有可比价格这么好。当选取多个特征对目标股票进行协整核验分析时,协整核验法最终的识别结果也是取各个表的并集,即每个特征得到的异常都是异常。
最后再融合排列熵算法、聚类法、协整核验法的识别结果,得到最终的识别结果。融合方法可以采用实施例4中所述的方式一/二/三。
实施例8
本实施例中提供了另一种股票异常交易的识别方法,与实施例1中所述方法相比,区别在于,本实施例中同时采用了排列熵算法、特征经验法、小波变换法、聚类法、协整核验法分别识别出目标股票在该时间区间内是否存在异常交易行为,然后再融合5种不同方法的识别结果,得到最终的识别结果。融合方法可以采用实施例4中所述3种方式之一。
如下表10所示为采用5种方法的识别结果的统计表,假设以3种及以上方法都识别为存在异常交易行为,那么该交易日即被识别为存在异常交易行为,例如,2012/6/21、2012/6/18、2012/6/11、2012/6/28、2013/2/1、2013/2/4均被识别为存在异常交易行为。
表10
/>
通过股票异常识别模型组合,具有如下技术效果:
1、通过多种异常识别方法的组合能对全量股票进行交易异常监管,提高了股票异常识别效率,能大概率的识别交易异常的股票并提供异常对应的时间区间、具体的异常指标。
2、通过使用五种异常识别方法组合,能获取异常时间区间以及具体的异常指标,为分析股票异常提供因素,并能对异常结果进行业务解读
3、可替代人工筛查来监测股票异常波动情况,节约人力资源。
实施例9
请参阅图6,本实施例中提供了一种股票异常交易的识别系统,包括:
特征集构建模块,用于构建用于识别股票异常交易的特征集;
历史数据提取模块,用于确定分析时间区间,并提取目标股票在该时间区间的历史数据;
异常交易识别模块,用于基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为。
上述系统中,异常交易识别模块可以基于排列熵算法和/或特征经验分布法和/或小波变换法识别目标股票在该时间区间内是否存在异常交易行为。也就是可以采用熵算法、特征经验分布法、小波变换法中的任一项或多项方法进行识别。
请继续参阅图6,在另一个实施方案中,上述系统还包括:可比股票池构建模块,用于基于特征集中的特征,构建可比股票池。此时,所述异常交易识别模块,还用于计算出目标股票的交易行为与可比股票池的偏离程度,并基于该偏离程度识别出目标股票是否存在异常交易行为。
本系统中,可比股票池构建模块可以通过聚类分析算法和/或协整核验算法构建可比股票池。
上述系统的各个模块的具体执行步骤可以参阅实施例1-7中的相应描述。
如图7所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据提取、报告生成、通信或其他功能。
如图7所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图7中显示的所有部件。此外,电子设备还可以包括图7中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供所有公司的股票数据。显示单元54用于显示处理过程中的各种结果,例如构建的特征集、可比股票池、识别结果等,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种股票异常交易的识别方法,其特征在于,包括以下步骤:
构建用于识别股票异常交易的特征集;
确定分析时间区间,并提取目标股票在该时间区间的历史数据;
基于特征集中的特征以及提取的历史数据,通过排列熵算法或特征经验分布法或小波变换法识别出目标股票在该时间区间内是否存在异常交易行为;
基于特征集中的特征,构建可比股票池;计算出目标股票的交易行为与可比股票池的偏离程度,并基于该偏离程度识别出目标股票是否存在异常交易行为;
最后融合排列熵算法或特征经验分布法或小波变换法的识别结果和基于偏离程度的识别结果,得到最终的识别结果。
2.根据权利要求1所述的方法,其特征在于,基于排列熵算法识别出目标股票在该时间区间内是否存在异常交易行为的步骤,包括:
S131,从特征集中选取若干个具有高频分时特性的特征;
S132,针对于所述时间区间的每个交易日,根据每个交易日股票交易对应的高频时间序列,计算该交易日每个特征对应的排列熵;
S133,针对于选取的每个特征,根据排列熵的大小识别出目标股票基于该特征的疑似异常交易日期;
S134,针对于识别出的每个疑似异常交易日期,统计该日期被识别为疑似异常交易日期的特征个数,基于特征个数识别出目标股票在该疑似异常交易日期是否存在异常交易行为。
3.根据权利要求1所述的方法,其特征在于,基于特征经验分布法识别目标股票在该时间区间内是否存在异常交易行为的步骤,包括:
S231,从特征集中选取若干个具有高频分时特性的特征;
S232,确定每个交易日的日内切片长度,获得若干个高频时间段;
S233,针对于每一个高频时间段,以所述时间区间内所有交易日的相同高频时间段作为一个样本集,以此获得若干个样本集;
S234,针对于选取的每个特征,基于每个样本集,将该样本集内处于经验分布前设定阈值的高频时间段识别为异常交易时间段,然后根据每个交易日被识别为异常时间段的个数识别出疑似异常交易日期;
S235,针对于识别出的每个疑似异常交易日期,统计该日期被识别为疑似异常交易日期的特征个数,基于特征个数识别出目标股票在该疑似异常交易日期是否存在异常交易行为。
4.根据权利要求1所述的方法,其特征在于,基于小波变换法识别目标股票在该时间区间内是否存在异常交易行为的步骤,包括:
S331,从特征集中选取若干个具有日频率特性的特征;
S332,针对于选取的每个特征,采用GARCH模型对时间序列进行拟合,对拟合残差进行离散小波变换,根据细节系数构造统计量,基于统计量对应的最大值识别出目标股票在该时间区间内是否存在异常交易行为。
5.根据权利要求1所述的方法,其特征在于,所述基于特征集中的特征以及提取的历史数据,识别出目标股票在该时间区间内是否存在异常交易行为的步骤中,首先分别基于排列熵算法、特征经验分布法和小波变换法,识别出目标股票在该时间区间内是否存在异常交易行为,然后再融合不同方法的识别结果,得到最终的识别结果。
6.根据权利要求1所述的方法,其特征在于,所述基于特征集中的特征,构建可比股票池的步骤中,通过聚类分析算法或者协整核验算法构建可比股票池。
7.一种股票异常交易的识别系统,其特征在于,包括:
特征集构建模块,用于构建用于识别股票异常交易的特征集;
历史数据提取模块,用于确定分析时间区间,并提取目标股票在该时间区间的历史数据;
可比股票池构建模块,用于基于特征集中的特征,构建可比股票池;
异常交易识别模块,用于基于特征集中的特征以及提取的历史数据,基于排列熵算法和/或特征经验分布法和/或小波变换法识别出目标股票在该时间区间内是否存在异常交易行为;以及计算出目标股票的交易行为与可比股票池的偏离程度,并基于该偏离程度识别出目标股票是否存在异常交易行为;最后融合排列熵算法和/或特征经验分布法和/或小波变换法的识别结果,和基于偏离程度的识别结果,得到最终的识别结果。
8.根据权利要求7所述的系统,其特征在于,所述可比股票池构建模块,通过聚类分析算法和/或协整核验算法构建可比股票池。
9.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1-6任一所述方法中的操作。
10.一种电子设备,其特征在于,所述的设备包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-6任一所述方法中的步骤。
CN201911314510.5A 2019-12-19 2019-12-19 股票异常交易的识别方法及系统 Active CN111199419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911314510.5A CN111199419B (zh) 2019-12-19 2019-12-19 股票异常交易的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911314510.5A CN111199419B (zh) 2019-12-19 2019-12-19 股票异常交易的识别方法及系统

Publications (2)

Publication Number Publication Date
CN111199419A CN111199419A (zh) 2020-05-26
CN111199419B true CN111199419B (zh) 2023-09-15

Family

ID=70746537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314510.5A Active CN111199419B (zh) 2019-12-19 2019-12-19 股票异常交易的识别方法及系统

Country Status (1)

Country Link
CN (1) CN111199419B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781219A (zh) * 2021-09-06 2021-12-10 上海卡方信息科技有限公司 一种股票交易过程中的实时算法交易系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060035332A (ko) * 2004-10-22 2006-04-26 (주)빅트레이드 인공지능을 이용한 주식 이상매매 검출방법
CN106447135A (zh) * 2016-11-06 2017-02-22 洪志令 一种基于最相似走势的股票短期预测方法
CN107230150A (zh) * 2017-07-19 2017-10-03 西南大学 一种基于非负矩阵分解的股票市场中的异常检测方法
CN109472485A (zh) * 2018-11-01 2019-03-15 成都数联铭品科技有限公司 企业失信风险传播查询系统及方法
CN110189034A (zh) * 2019-05-31 2019-08-30 三峡大学 一种基于朴素贝叶斯模型的内幕交易识别法
CN110189035A (zh) * 2019-05-31 2019-08-30 三峡大学 一种基于k均值聚类与knn算法的内幕交易识别方法
CN110210973A (zh) * 2019-05-31 2019-09-06 三峡大学 基于随机森林与朴素贝叶斯模型的内幕交易识别方法
CN110210974A (zh) * 2019-05-31 2019-09-06 三峡大学 一种基于粒子群优化增量支持向量机的内幕交易辨别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083974A1 (en) * 2015-09-17 2017-03-23 BasisCode Technologies, LLC Systems and methods for identification and analysis of securities transactions abnormalities

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060035332A (ko) * 2004-10-22 2006-04-26 (주)빅트레이드 인공지능을 이용한 주식 이상매매 검출방법
CN106447135A (zh) * 2016-11-06 2017-02-22 洪志令 一种基于最相似走势的股票短期预测方法
CN107230150A (zh) * 2017-07-19 2017-10-03 西南大学 一种基于非负矩阵分解的股票市场中的异常检测方法
CN109472485A (zh) * 2018-11-01 2019-03-15 成都数联铭品科技有限公司 企业失信风险传播查询系统及方法
CN110189034A (zh) * 2019-05-31 2019-08-30 三峡大学 一种基于朴素贝叶斯模型的内幕交易识别法
CN110189035A (zh) * 2019-05-31 2019-08-30 三峡大学 一种基于k均值聚类与knn算法的内幕交易识别方法
CN110210973A (zh) * 2019-05-31 2019-09-06 三峡大学 基于随机森林与朴素贝叶斯模型的内幕交易识别方法
CN110210974A (zh) * 2019-05-31 2019-09-06 三峡大学 一种基于粒子群优化增量支持向量机的内幕交易辨别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卖空限制下知情交易的测度及识别研究;王苏生;《运筹与管理》;第27卷(第11期);第137-143页 *

Also Published As

Publication number Publication date
CN111199419A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN106951984B (zh) 一种系统健康度动态分析预测方法及装置
Bajgrowicz et al. Jumps in high-frequency data: Spurious detections, dynamics, and news
CN106991145B (zh) 一种监测数据的方法及装置
US10248528B2 (en) System monitoring method and apparatus
US9043647B2 (en) Fault detection and localization in data centers
Calcagnile et al. Collective synchronization and high frequency systemic instabilities in financial markets
CN112084229A (zh) 一种识别城镇燃气用户异常用气行为的方法及装置
CN111160404B (zh) 配电网线损标杆合理值的分析方法及装置
CN116523262B (zh) 基于大数据的生产计划智能规划方法、系统和介质
Sari et al. Statistical metrics for assessing the quality of wind power scenarios for stochastic unit commitment
Anagnostidis et al. Nonlinearity in high-frequency stock returns: Evidence from the Athens Stock Exchange
US20210397956A1 (en) Activity level measurement using deep learning and machine learning
CN113051291A (zh) 工单信息的处理方法、装置、设备及存储介质
CN115357764A (zh) 一种异常数据检测方法及装置
CN110059126B (zh) 基于lkj异常值数据的复杂关联网络分析方法及系统
CN111199419B (zh) 股票异常交易的识别方法及系统
Sari et al. Statistical reliability of wind power scenarios and stochastic unit commitment cost
Hilal et al. Portfolio risk assessment using multivariate extreme value methods
Shmilovici et al. Measuring the efficiency of the intraday forex market with a universal data compression algorithm
CN113835947A (zh) 一种基于异常识别结果确定异常原因的方法和系统
CN111179077B (zh) 股票异常交易的识别方法及系统
Hasby et al. The Impact of Current Ratio, Receivable Turnover and Total Assets Turnover on Roa at Telecommunication Sub-Sector Companies Registered in Bei Year 2009-2017
Condello et al. Potential and limitations of DEA as a bankruptcy prediction tool in the light of a study on Italian listed companies
Pape et al. Forecasting the Distributions of Hourly Electricity Spot Prices-Accounting for Serial Correlation Patterns and Non-Normality of Price Distributions
CN113506190A (zh) 一种异常用电行为辨识方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant