CN105335888A - 市场监察系统及方法 - Google Patents
市场监察系统及方法 Download PDFInfo
- Publication number
- CN105335888A CN105335888A CN201410342490.3A CN201410342490A CN105335888A CN 105335888 A CN105335888 A CN 105335888A CN 201410342490 A CN201410342490 A CN 201410342490A CN 105335888 A CN105335888 A CN 105335888A
- Authority
- CN
- China
- Prior art keywords
- transaction
- concept
- news
- knowledge
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012544 monitoring process Methods 0.000 title claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 14
- 238000005065 mining Methods 0.000 claims description 13
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000012423 maintenance Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 21
- 238000011160 research Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 235000007926 Craterellus fallax Nutrition 0.000 description 1
- 240000007175 Datura inoxia Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提出一种市场监察系统,包括:证券市场知识库,包括模型库和实例库,其中,模型库中包括描述证券市场领域的概念及概念之间关系的本领域知识区,和描述常识概念及概念之间关系的常识知识区;实例库中保存多条与模型库的概念关系结构对应的实例信息。本系统在证券市场知识库中通过概念库将本领域知识和常识知识有机统一起来,并将其之间的概念关系同实例信息有效地映射为一体,大大提高了市场监察系统的信息处理范围和决策支持的智能程度,具有高效率的优点。本发明还提出一种市场监察方法。
Description
技术领域
本发明涉及计算机信息技术与金融市场技术领域,尤其涉及一种监察交易安全的市场监察系统及方法。
背景技术
现有的国内外证券市场监察系统主要以监测量价异动为主,只有少数几个系统集成了文本挖掘功能来分析信息对市场的影响。目前功能比较完备的文本挖掘监管系统是美国金融监管局自2001年12月投入运行的SONAR系统。该系统每天处理约1万条新闻和SEC的信息披露,评估2万5千个证券的价/量模型,通过对违规事件的安全级别进行模型估计,给出事件的概率评分值。但是当前公开的相关文献极少且未涉及其算法与实现细节。另外,澳交所在2004年引入互联网金融投资谣言搜索系统,该系统每小时能够扫描4万篇网络信息,识别属于谣言的文章精度仅达到50%。
SMARTS等主要海外证券市场监测系统也加强了对文本的自动分析处理功能,功能主要集中于在新闻和公司财务报告中对关键事件和关键信息进行检索和抽取。同时,SMARTS公司也在积极进行文本挖掘技术的开发,但目前还没有成熟的集成产品。在国内,证券市场信息监察也刚刚起步,具体的市场监察产品还较少。
在人工智能研究中,常识知识是指可由普通人预知的信息,它是解决人工智能或知识工程技术瓶颈难题的一项关键措施。现在已经有许多常识知识库被建立,比较有代表性的有Cyc,DBpeida和Wordnet。Cyc知识库创建于1984年,现包含上千万的事实和关系描述。DBpedia则是从wikipeida里面抽取得到的RDF格式的记录,它包含4百万的事物描述和4.7亿的事实描述,涵盖了人物、地点、公司等多类信息。Wordnet是对英语语言的词汇描述,包括对同义词、近义词等词汇之间关系的总结。在处理市场信息时,信息本身纷繁复杂,因此,常识知识库是处理大数据的一个较好的选择。
现有的研究已经将常识知识引入到文本信息的处理中,其研究方法主要是利用词汇之间的关系,对文本特征进行处理。例如Scott和Green利用Wordnet中的近义词关系来对文本中的特征进行扩充。Hotho等人则利用Wordnet中上下层关系对文本中的名词和动词进行汇总。还有一类研究利用Wikipedia中词条的描述信息对相关文本进行扩充。
目前,在金融文本挖掘领域,国外高校和研究机构对自动文本分析方面的研究着重于对英文文本特征的构建和机器学习模型的选择(如表1所示)。信息内容涵盖了新闻、博客、年报以及研究报告等。预测的市场指标包括股价趋势、汇率趋势、市场指数、风险值和股票收益等。采用的文本特征包括词袋(Bagofwords)、名词短语(NounPhrase)以及命名实体(NamedEntity)等,也有一些研究采用了专家定义的词汇表作为文本特征。常用的分类器包括了k近邻、和支持向量机等。相关的研究成果既有通过预测给出风险提示的,也有用挖掘出的信息指导日内高频交易的。
表1英文金融文本分析研究现状
业内专业的信息分析服务提供商专注于对文本信息的量化表示,该类系统主要被投资机构用于进行量化交易(如表2所示)。系统的核心是借助于自然语言处理和文本挖掘技术,自动分析新闻事件的相关性、情感性和新颖性。国外主要提供信息分析服务的公司主要有RavenPack,ThomsonReuters和RecordedFuture。RavenPack实时扫描各类信息提供终端收集到的新闻文本,一旦有新闻加入到数据库,系统会对该文本通过一系列的情感性指标来进行量化衡量。ThomsonReuters也提供了自动新闻分析的服务。同样对于一条实时新闻报道,系统可以自动分析新闻事件的情感性,相关性和新颖性。相关性由0到1之间的数值来衡量。对于情感性,该系统用0到1之间的数值分别衡量了利好,中性和利空的概率。另外,该类系统通过新闻发布的时间和关键词出现的位置来确定该报道的新颖性。RecordedFuture公司提供了更为丰富的图形分析界面。该类系统通过对一批新闻进行时间、来源和实体关系的分析,在界面中将新闻关系进行图形化直观展示。就单个新闻的量化表示,系统关注于新闻事件的利好概率和利空概率。
表2国外主要新闻分析软件比较
情感性 | 相关性 | 新颖性 | 实体识别 | 图形界面 | |
RavenPack | Y | Y | Y | Y | N |
Thomson Reuters | Y | Y | Y | Y | N |
Recorded Future | Y | Y | N | Y | Y |
国内长江证券利用网络信息挖掘建立了国内股市的“长江证券舆情指标”,从财经网站和证券类报刊杂志提取信息,自动分析每篇文章对市场的多空观点(强烈看多、看多、中性、看空和强烈看空)并赋予不同的分数,最后分数均值作为舆情指标。指标大于50的表示看涨而指标小于50表示看跌,并用分数的标准差作为舆情分歧指标。光大证券构建了光大中文云文本挖掘系统,该系统分为3个模块,分别是数据获取与清洗模块、数据引擎与指标构建模块、策略开发模块。该系统实现了四个数据引擎:光大关键词指数、光大情感指数、光大关键词网络图、光大关注度因子。
但是上述的研究与应用过程中,都未能将常识知识与领域(金融)知识及文本信息之间建立良好的匹配关系。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一方面的目的在于提出一种能够同时监测市场量价异动及市场信息异动,并能够对二者之间的关联进行推理的高效的市场监察系统。
本发明的第二方面的目的在于提出一种市场监察方法。
为了实现上述目的,本发明第一方面的实施例中提出了一种市场监察系统,包括:证券市场知识库,包括模型库和实例库,其中,所述模型库中包括描述证券市场领域中概念及概念之间的关系的本领域知识区,和描述常识概念及概念之间的关系的常识知识区;所述实例库中保存多条与所述模型库的概念关系结构对应的实例信息。
根据本发明实施例的市场监察系统,在证券市场知识库中通过概念库将本领域知识和常识知识有机统一起来,并将其之间的概念关系同实例信息有效地映射为一体,大大提高了市场监察系统的监察范围和决策支持的智能程度。
在一些示例中,所述概念与概念之间的关系采用逻辑语言描述。
在一些示例中,还包括:交易分析模块,用于对市场进行监控,发现异常交易;知识获取与维护模块,用于获取外部的知识和信息并转换为逻辑描述语言后,映射保存到所述证券市场知识库中;信息分析模块,用于对所述交易分析模块发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类;展示模块,用于对所述异常交易和所述异常交易的特征集合之间的关系进行图形化展示。
进一步地,在一些示例中,所述信息分析模块包括:交易-新闻特征集构建模块,用于将所述异常交易的股票发行公司映射为实例,从所述证券市场知识库中找出与该实例相关的其他实例信息作为连接新闻特征与交易的属性,构建交易-新闻特征集;新闻-词汇特征集构建模块,用于按照所述异常交易的交易时间选取市场新闻并进行词汇挖掘,将所挖掘的词汇映射为所述概念或实例,从所述证券市场知识库中找出与所述概念或实例相关的其他概念或实例作为新闻特征,构建新闻-词汇特征集;特征集合生成模块,用于将所述交易-新闻特征集与所述新闻-词汇特征集进行新闻特征汇总,构建所述异常交易的特征集合。
进一步地,在一些示例中,所述交易-新闻特征集构建模块采用随机漫步的方法沿所述关系找到与所述股票发行公司的实例相关的其他实例信息作为所述交易与新闻关系的属性。
在一些示例中,所述新闻-词汇特征集构建模块,采用按同义词关系进行随机漫步的方法沿所述关系找到与所述词汇的概念或实例相关的其他概念或实例作为所述新闻的词汇特征。
在一些示例中,还包括训练模块,用于选取部分所述异常交易进行人工筛选和标记,作为训练集;所述信息分析模块根据所述训练集进行风险分类。
在一些示例中,所述信息分析模块对所述特征集合中的特征进行筛选出来后,利用所述训练集进行风险分类。
本发明第二方面的实施例中提出一种市场监察方法,包括以下步骤:构建证券市场知识库,其中,所述证券市场知识库包括模型库和实例库;对市场进行监控,以便发现异常交易;获取外部的知识和信息并转换为逻辑描述语言后,映射并保存到所述证券市场知识库中;结合所述证券市场知识库对发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类;对所述异常交易和异常交易的特征集合之间的关系进行图形化展示。
根据本发明实施例的市场监察方法,通过构建证券知识库,通过概念库将本领域知识和常识知识有机统一起来,并将其之间的概念关系同实例信息有效地映射为一体,大大提高了市场监察系统的决策支持的智能程度。同时监测市场量价异动及市场信息异动,并对两者之间的关联进行推理,对证券市场上多种信息之间关系的进行挖掘,有效提高市场监察工作的效率。
在一些示例中,所述模型库中包括描述证券市场领域中概念及概念之间的关系的本领域知识区,和描述常识概念及概念之间的关系的常识知识区;所述实例库中保存多条与所述模型库的概念关系结构对应的实例信息。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是根据本发明一个实施例的市场监察系统的结构框图;
图2是本发明一个实施例的市场监察系统的结构框图;
图3是本发明一个实施例的市场监察系统的证券市场知识库一个示例图;
图4是本发明一个实施例的异常交易的特征集合的构造过程示意图;
图5是本发明一个实施例的图形化展示结果示意图;
图6是本发明一个实施例的市场监察系统的示例图;
图7是根据本发明一个实施例的市场监察方法的流程图;和
图8是本发明一个实施例的市场监察方法的过程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明第一方面的实施例中提出一种市场监察系统,用以解决多种不同知识库之间语义以及语法的异构性。图1是根据本发明一个实施例的市场监察系统的结构框图,如图1所示,本发明实施例的市场监察系统包括:证券市场知识库100,其包括模型库101和实例库102。此外,本发明实施例的市场监察系统,如图2所示,还包括:交易分析模块200、知识获取与维护模块300、信息分析模块400、展示模块500和训练模块600。
其中,交易分析模块200用于对市场进行监控,发现异常交易。知识获取与维护模块300用于获取外部的知识和信息并转换为逻辑描述语言后,映射保存到证券市场知识库100中。信息分析模块400用于对交易分析模块200发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类。训练模块600用于选取部分异常交易进行人工筛选和标记,作为训练集。信息分析模块400根据训练集进行风险分类。展示模块500用于对异常交易和异常交易的特征集合之间的关系进行图形化展示。
具体地,在本发明的一个实施例的证券市场知识库100中,模型库101中包括描述证券市场领域中的概念及概念之间的关系的本领域知识区,和描述常识概念及概念之间的关系的常识知识区。概念与概念之间的关系应用原知识(Meta-knowledge)支持的本体技术,采用逻辑语言描述。实例库102中保存多条与模型库101的概念关系结构对应的实例信息。模型库101中的常识知识区和实例库102对应的实例部分分别通过网络本体语言(WebOntologyLanguage,OWL)和资源描述框架(ResourceDescriptionFramework,RDF)来描述,OWL和RDF都可以转化为描述逻辑来定义,从而使本领域知识概念和常识知识概念结合在一起成为一个统一的知识库,并在这个统一知识库的基础上进行推理。
例如,图3所示的市场监察系统的证券市场知识库的一个示例图所示,图中左上角代表证券市场领域知识中的概念与概念之间的关系。例如,就市场监察而言,其涉及市场产品、市场行为和市场信息三个概念。市场行为下又包括买和卖的交易。每笔交易由价格、成交量和成交时间等来描述。市场信息由发布时间和语言特征等来进行描述。图中右上角代表证券市场中的实例。例如,ID287代表股票0552.HK在2008年10月8日早上11:40发生的一次量价异常行为。大量的市场新闻属于市场信息的实例。图中左下角代表常识知识中的概念及概念之间的关系。例如,我们关注对公司的描述会发现,公司由行业、人员和地点等概念来组成。其中每个子概念还可以由其他概念来进行描述。图中右下角代表系统中存在的常识实例。例如,中国通信服务股份公司的父公司是中国电信,属于通信行业。
在本发明的一个实施例中,交易分析模块200用于对市场进行监控,发现异常交易。该模块可以直接采用现有市场上的监察产品(如SMARTS)或者也可自行开发。其中一条量价异常规则示例定义为:
IF(Pricet-Pricet-1)/Pricet-1>10%
Thenreleaseanalert
在本发明的一个实施例中,知识获取与维护模块300用于获取外部的知识和信息并转换为逻辑描述语言后,映射保存到证券市场知识库100中。该模块可以定期运行或实时运行,以更新知识库并及时获取市场有效信息。
在本发明的一个实施例中,信息分析模块400用于对交易分析模块200发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类。该模块的目的是利用常识推理来构建与市场上一条交易相对应的文本信息(如新闻)的特征集合,该特征集合将被用于分类算法中,识别该交易的风险类别。具体地,信息分析模块400包括:交易-新闻特征集构建模块401、新闻-词汇特征集构建模块402和特征集合生成模块403。
在特征集合的构造之初,将证券市场知识库表示为有向图G=(V,E)的形式,其中,节点V={c}代表概念库和实例库中的概念和实例,而边E={(cx,cy)}代表关系。将股票发行公司映射为常识中的实例,cf,cf∈V。
按照交易时间选取市场新闻并进行分词,然后将词汇映射为证券市场知识库100中的概念或者实例。Newsj→{ck},其中ck∈V。
将一条新闻中的特征集合表示为其中f是特征名称(新闻词汇),vf是对应的特征值(词汇出现的个数)。
具体地,1)交易-新闻特征集构建模块401用于将异常交易的股票发行公司映射为实例,从证券市场知识库100中找出与该实例相关的其他实例信息作为连接新闻特征集与交易的属性,构建交易-新闻特征集。其过程如下:
(1)从每条交易中股票发行公司cf出发,在证券市场知识库有向图G中采用随机漫步的方法,沿常识关系找到与之相连的概念或实例。
(2)假设随机漫步进行了t步,其路径可以表示为p=(c0,c1,c2,...,ct),其中c0=cf,ct∈Newsj,并且(ck,ck+1)∈E。
(3)将每条随机漫步路径中经过的概念或实例与市场新闻中的概念或实例进行名称匹配,如果能匹配上,则将该新闻的特征集加入总特征集中,表示为该总特征集为对应一条交易的特征值。
这样,交易-新闻特征集构建模块401采用随机漫步的方法沿关系找到与股票发行公司的实例相关的其他实例信息作为新闻与交易之间的连接属性,构建交易-新闻特征集。
2)新闻-词汇特征集构建模块402用于按照异常交易的交易时间选取市场新闻并进行词汇挖掘,将所挖掘的词汇映射为概念或实例,从证券市场知识库100中找出与概念或实例相关的其他概念或实例作为新闻特征,构建新闻-词汇特征集。其过程如下:
(1)从一条新闻中的概念或实例出发,沿证券市场知识库有向图G中“同义词”关系进行随机漫步。
(2)假设随机漫步进行了t步,其路径可以表示为p=(c0,c1,c2,...,ct),其中c0=cf,ct∈Newsj,并且(ck,ck+1)∈E。
(3)一条新闻的特征集表示为
这样,新闻-词汇特征集构建模块402采用按同义词关系进行随机漫步的方法沿关系找到与词汇的概念或实例相关的其他概念或实例作为新闻-词汇特征。
3)特征集合生成模块403用于将上述的交易-新闻特征集与新闻-词汇特征集中的新闻特征进行汇总,构建异常交易的特征集合。
在实际过程中,在证券市场知识库的基础上结合传统的金融文本挖掘,采用两层次的映射方法,挖掘市场交易与信息之间的关系(如图4所示)。在信息与交易挖掘层面,一条可疑交易可以通过股票相关的概念和实例描述关联到多条新闻。根据连接的属性不同,相关信息可以分为行业新闻、地域新闻、人物新闻等等。从公司出发的概念查找采用随机漫步的方法,一步可以关联到与公司关系比较近的概念。例如,从公司到行业,通过两步或多步可以连接到更广泛的概念。例如从公司到行业,再到行业内的其他公司的相关信息。
在信息挖掘层面,信息内的一个词汇可以对应到概念模型中的一个概念的实例,从而根据概念模型中的关系结构,影射到多个相关的词汇,从而挖掘新闻的语言和语义特征。从词汇出发的概念查找也采用随机漫步的方法。例如,“好”的同义词可以有“不错”、“良好”等。“好”的反义词有“差”、“不好”等。
进一步地,训练模块600选取部分异常交易进行人工筛选和标记,作为训练集(如标注为高风险和低风险),信息分析模块400对所构造出的特征集合中的特征进行筛选(如采用信息增益方法)出来后,利用训练集选择分类算法,常用的分类算法如J48,和SVM等,构造分类器。利用分类器对交易异常进行进一步分类筛选,进行风险分类。风险类别依赖于证券监察行业的标准,如高风险和低风险两类。该风险类别在训练集构造过程中用于指导人工标注。
在本发明的一个实施例中,展示模块500用于对异常交易和异常交易的特征集合之间的关系进行图形化展示,如图5所示。
例如,本发明一个实施例的市场监察系统的具体实现过程,如图6所示,在远程证券市场知识库包含了具有本领域知识区和常识知识区的模型库和与模型库中的概念关系结构对应的实例信息。同时,知识获取与维护模块将外部的知识和信息映射并保存到证券知识库中,以更新证券知识库并及时获取市场有效信息。通过交易信息分析模块对市场进行监控,以发现异常交易。信息分析模块结合证券市场知识库对交易分析模块中发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类。展示模块对异常交易和异常交易的特征集合之间的关系(如市场活动证据、风险评估结果以及市场信息证据等的关系)进行图形化展示。
根据本发明实施例的市场监察系统,证券知识库通过概念库将本领域知识和常识知识有机统一起来,并将其之间的概念关系同实例信息有效地映射为一体,大大提高了市场监察系统的决策支持的智能程度。同时,与传统市场监察系统不同,本系统可以同时监测市场量价异动及市场信息异动,并对两者之间的关联进行推理,对证券市场上多种信息之间关系的进行挖掘,有效提高市场监察工作的效率。
本发明第二方面的实施例中提出一种市场监察方法,如图7所示,包括以下步骤:构建证券市场知识库,其中,证券市场知识库包括模型库和实例库;对市场进行监控,以便发现异常交易;获取外部的知识和信息并转换为逻辑描述语言后,映射并保存到证券市场知识库中;结合证券市场知识库对发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类;对异常交易和异常交易的特征集合之间的关系进行图形化展示。具体过程说明如下:
步骤S101,构建证券市场知识库,其中,证券市场知识库包括模型库和实例库。
具体地,模型库中包括描述证券市场领域中的概念及概念之间的关系的本领域知识区,和描述常识概念及概念之间的关系的常识知识区。实例库中保存多条与模型库的概念关系结构对应的实例信息。概念与概念之间的关系采用逻辑语言描述。概念与概念之间的关系应用原知识(Meta-knowledge)支持的本体技术,采用逻辑语言描述。
例如,图3所示的市场监察系统的证券市场知识库的一个示例所示,图中左上角代表证券市场领域知识中的概念与概念之间的关系。例如就市场监察而言,其涉及市场产品、市场行为和市场信息三个概念。市场行为下又包括买和卖的交易。每笔交易由价格、成交量和成交时间等来描述。市场信息由发布时间和语言特征等来进行描述。图中右上角代表证券市场中的实例。例如,ID287代表股票0552.HK在2008年10月8日早上11:40发生的一次量价异常行为。大量的市场新闻属于市场信息的实例。图中左下角代表常识知识中的概念及概念之间的关系。例如,我们关注对公司的描述会发现,公司由行业、人员和地点等概念来组成。其中每个子概念还可以由其他概念来进行描述。图中右下角代表系统中存在的常识实例。例如,中国通信服务股份公司的父公司是中国电信,属于通信行业。
步骤S102,对市场进行监控,以便发现异常交易。
具体地,在该步骤中可以直接采用现有市场上的监察产品(如SMARTS)或者也可自行开发。其中一条量价异常规则示例定义为:
IF(Pricet-Pricet-1)/Pricet-1>10%
Thenreleaseanalert
步骤S103,获取外部的知识和信息并转换为逻辑描述语言后,映射并保存到证券市场知识库中。该步骤可以定期运行或实时运行,以更新知识库并及时获取市场有效信息。
步骤S104,结合证券市场知识库对发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类。
该步骤的目的是利用常识推理来构建与市场上一条交易相对应的文本信息(如新闻)的特征集合,该特征集合将被用于分类算法中,识别该交易的风险类别。具体地,在特征集合的构造之初,将证券市场知识库表示为有向图G=(V,E)的形式,其中节点V={c}代表概念库和实例库中的概念和实例,而边E={(cx,cy)}代表关系。将股票发行公司映射为常识中的实例,cf,cf∈V。
按照交易时间选取市场新闻并进行分词,然后将词汇映射为证券市场知识库中的概念或实例。Newsj→{ck},其中ck∈V。
将一条新闻中的特征集合表示为其中f是特征名称(新闻词汇),vf是对应的特征值(词汇出现的个数)。具体构造过程如下:
1)将异常交易的股票发行公司映射为实例,从证券市场知识库中找出与该实例相关的其他实例信息作为连接交易与新闻的属性,构建交易-新闻特征集。其过程如下:
(1)从每条交易中股票发行公司cf出发,在证券市场知识库有向图G中采用随机漫步的方法,沿常识关系找到与之相连的概念或实例。
(2)假设随机漫步进行了t步,其路径可以表示为p=(c0,c1,c2,...,ct),其中c0=cf,ct∈Newsj,并且(ck,ck+1)∈E。
(3)将每条随机漫步路径中经过的概念/实例与市场新闻中的概念和实例进行名称匹配,如果能匹配上,则将该新闻的特征集加入总特征集中,表示为该总特征集为对应一条交易的特征值。
这样,采用随机漫步的方法沿关系找到与股票发行公司的实例相关的其他实例信息作为连接交易与新闻的属性,构建交易-新闻特征集。
2)按照异常交易的交易时间选取市场新闻并进行词汇挖掘,将所挖掘的词汇映射为概念或实例,从证券市场知识库中找出与概念或实例相关的其他概念或实例作为新闻-词汇特征,构建新闻-词汇特征集。其过程如下:
(1)从一条新闻中的概念或实例出发,沿证券市场知识库有向图G中“同义词”关系进行随机漫步。
(2)假设随机漫步进行了t步,其路径可以表示为p=(c0,c1,c2,...,ct),其中c0=cf,ct∈Newsj,并且(ck,ck+1)∈E。
(3)一条新闻的特征集表示为
这样,采用按同义词关系进行随机漫步的方法沿关系找到与词汇的概念或实例相关的其他概念或实例作为新闻-词汇特征。
3)将上述的交易-新闻特征集与新闻-词汇特征集按照特征名称进行汇总,构建异常交易的特征集合。
在实际过程中,在证券市场知识库的基础上结合传统的金融文本挖掘,采用两层次的映射方法,挖掘市场交易与信息之间的关系(如图4所示)。在信息与交易挖掘层面,一条可疑交易可以通过股票相关的概念和实例描述关联到多条新闻。根据连接的属性不同,相关信息可以分为行业新闻、地域新闻、人物新闻等等。从公司出发的概念查找采用随机漫步的方法,一步可以关联到与公司关系比较近的概念。例如,从公司到行业,通过两步或多步可以连接到更广泛的概念。例如从公司到行业,再到行业内的其他公司的相关信息。
在信息挖掘层面,信息内的一个词汇可以对应到概念模型中的一个概念的实例,从而根据概念模型中的关系结构,影射到多个相关的词汇,从而挖掘新闻的语言和语义特征。从词汇出发的概念查找也采用随机漫步的方法。例如,“好”的同义词可以有“不错”、“良好”等。“好”的反义词有“差”、“不好”等。
进一步地,选取部分异常交易进行人工筛选和标记,作为训练集(如标注为高风险和低风险),在该步骤中对所构造出的特征集合中的特征进行筛选(如采用信息增益方法)出来后,利用训练集选择分类算法,常用的分类算法如J48,和SVM等,构造分类器。利用分类器对交易异常进行进一步分类筛选,进行风险分类。风险类别依赖于证券监察行业的标准,如高风险和低风险两类。该风险类别在训练集构造过程中用于指导人工标注。
步骤S105,对异常交易和异常交易的特征集合之间的关系进行图形化展示。其展示结果如图5所示。
综上,本发明实施例的市场监察方法实现的具体过程,如图8所示的示例,通过对市场信息的实时监控,及时发现量价异动,并发出警报。结合本发明实施例的证券市场知识库对量价异动信息进行分析,构造出相应的文本特征(可疑案例的特征集合),以进一步划分出风险级别。
根据本发明实施例的市场监察方法,通过构建证券知识库,通过概念库将本领域知识和常识知识有机统一起来,并将其之间的概念关系同实例信息有效地映射为一体,大大提高了市场监察系统的决策支持的智能程度。同时,与传统市场监察系统不同,本方法可以同时监测市场量价异动及市场信息异动,并对两者之间的关联进行推理,对证券市场上多种信息之间关系的进行挖掘,有效提高市场监察工作的效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种市场监察系统,其特征在于,包括:
证券市场知识库,包括模型库和实例库,其中,
所述模型库中包括描述证券市场领域中概念及概念之间的关系的本领域知识区,和描述常识概念及概念之间的关系的常识知识区;
所述实例库中保存多条与所述模型库的概念关系结构对应的实例信息。
2.如权利要求1所述的系统,其特征在于,所述概念与概念之间的关系采用逻辑语言描述。
3.如权利要求1或2所述的系统,其特征在于,还包括:
交易分析模块,用于对市场进行监控,发现异常交易;
知识获取与维护模块,用于获取外部的知识和信息并转换为逻辑描述语言后,映射保存到所述证券市场知识库中;
信息分析模块,用于对所述交易分析模块发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类;
展示模块,用于对所述异常交易和所述异常交易的特征集合之间的关系进行图形化展示。
4.如权利要求3所述的系统,其特征在于,所述信息分析模块包括:
交易-新闻特征集构建模块,用于将所述异常交易的股票发行公司映射为实例,从所述证券市场知识库中找出与该实例相关的其他实例信息作为连接新闻特征与交易的属性,构建交易-新闻特征集;
新闻-词汇特征集构建模块,用于按照所述异常交易的交易时间选取市场新闻并进行词汇挖掘,将所挖掘的词汇映射为所述概念或实例,从所述证券市场知识库中找出与所述概念或实例相关的其他概念或实例作为新闻特征,构建新闻-词汇特征集;
特征集合生成模块,用于将所述交易-新闻特征集与所述新闻-词汇特征集进行新闻特征汇总,构建所述异常交易的特征集合。
5.如权利要求4所述的系统,其特征在于,所述交易-新闻特征集构建模块采用随机漫步的方法沿所述关系找到与所述股票发行公司的实例相关的其他实例信息作为所述交易与新闻关系的属性。
6.如权利要求4所述的系统,其特征在于,所述新闻-词汇特征集构建模块,采用按同义词关系进行随机漫步的方法沿所述关系找到与所述词汇的概念或实例相关的其他概念或实例作为所述新闻的词汇特征。
7.如权利要求1~6中任一项所述的系统,其特征在于,还包括训练模块,用于选取部分所述异常交易进行人工筛选和标记,作为训练集;
所述信息分析模块根据所述训练集进行风险分类。
8.如权利要求7所述的系统,其特征在于,所述信息分析模块对所述特征集合中的特征进行筛选出来后,利用所述训练集进行风险分类。
9.一种市场监察方法,其特征在于,包括以下步骤:
构建证券市场知识库,其中,所述证券市场知识库包括模型库和实例库;
对市场进行监控,以便发现异常交易;
获取外部的知识和信息并转换为逻辑描述语言后,映射并保存到所述证券市场知识库中;
结合所述证券市场知识库对发现的异常交易进行特征构造,生成异常交易的特征集合以进行风险分类;
对所述异常交易和异常交易的特征集合之间的关系进行图形化展示。
10.如权利要求9所述的方法,其特征在于,
所述模型库中包括描述证券市场领域中概念及概念之间关系的本领域知识区,和描述常识概念及概念之间关系的常识知识区;
所述实例库中保存多条与所述模型库的概念关系结构对应的实例信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410342490.3A CN105335888A (zh) | 2014-07-17 | 2014-07-17 | 市场监察系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410342490.3A CN105335888A (zh) | 2014-07-17 | 2014-07-17 | 市场监察系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105335888A true CN105335888A (zh) | 2016-02-17 |
Family
ID=55286399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410342490.3A Pending CN105335888A (zh) | 2014-07-17 | 2014-07-17 | 市场监察系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105335888A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095777A (zh) * | 2016-05-26 | 2016-11-09 | 优品财富管理有限公司 | 基于大数据的预测证券市场多空情绪指标方法 |
CN108491406A (zh) * | 2018-01-23 | 2018-09-04 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096868A (zh) * | 2011-02-25 | 2011-06-15 | 上海建科建设监理咨询有限公司 | 一种基于本体的建筑领域知识查询方法 |
CN102184569A (zh) * | 2011-06-11 | 2011-09-14 | 福州大学 | 一种领域本体驱动的单株木建模方法 |
CN102436497A (zh) * | 2011-11-14 | 2012-05-02 | 江苏联著实业有限公司 | 基于学习式owl建模的主流媒体报道热点分析系统 |
CN103823879A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向在线百科的知识库自动更新方法及系统 |
CN103854221A (zh) * | 2012-11-28 | 2014-06-11 | 深圳市普路通供应链管理股份有限公司 | 基于多智能体的金融风险预警方法及其系统 |
-
2014
- 2014-07-17 CN CN201410342490.3A patent/CN105335888A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096868A (zh) * | 2011-02-25 | 2011-06-15 | 上海建科建设监理咨询有限公司 | 一种基于本体的建筑领域知识查询方法 |
CN102184569A (zh) * | 2011-06-11 | 2011-09-14 | 福州大学 | 一种领域本体驱动的单株木建模方法 |
CN102436497A (zh) * | 2011-11-14 | 2012-05-02 | 江苏联著实业有限公司 | 基于学习式owl建模的主流媒体报道热点分析系统 |
CN103854221A (zh) * | 2012-11-28 | 2014-06-11 | 深圳市普路通供应链管理股份有限公司 | 基于多智能体的金融风险预警方法及其系统 |
CN103823879A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向在线百科的知识库自动更新方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095777A (zh) * | 2016-05-26 | 2016-11-09 | 优品财富管理有限公司 | 基于大数据的预测证券市场多空情绪指标方法 |
CN108491406A (zh) * | 2018-01-23 | 2018-09-04 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
CN108491406B (zh) * | 2018-01-23 | 2021-09-24 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chu et al. | A global supply chain risk management framework: An application of text-mining to identify region-specific supply chain risks | |
Li et al. | Insights into financial technology (FinTech): a bibliometric and visual study | |
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
US10977293B2 (en) | Technology incident management platform | |
Tang et al. | Multi-attribute large-scale group decision making with data mining and subgroup leaders: An application to the development of the circular economy | |
CN106067094A (zh) | 一种动态评估方法及系统 | |
CN102609433B (zh) | 基于用户日志进行查询推荐的方法及系统 | |
CN110489561A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
CN102546771A (zh) | 基于特征模型的云挖掘网络舆情监测系统 | |
CN105117422A (zh) | 智能社交网络推荐系统 | |
CN101819573A (zh) | 一种自适应的网络舆情识别方法 | |
Falk et al. | Challenging AI for Sustainability: what ought it mean? | |
CN112927082A (zh) | 信用风险的预测方法、装置、设备、介质和程序产品 | |
Mate et al. | A hybrid integrated architecture for energy consumption prediction | |
CN103488746A (zh) | 一种获取业务信息的方法及装置 | |
Chi et al. | A supernetwork-based online post informative quality evaluation model | |
Strauss et al. | Reciprocal influence? Investigating implicit frames in press releases and financial newspaper coverage during the German banking crisis | |
Hieu et al. | Scrutinizing time-varying interlinkages between digitalization, green technologies, CO2 emission, and energy productivity in Vietnam | |
CN114819494A (zh) | 一种企业风险预警方法、装置、设备及介质 | |
Wu et al. | Reconfiguring a hierarchical supply chain model under pandemic using text mining and social media analysis | |
Crona et al. | Sweet spots or dark corners? An environmental sustainability view of big data and artificial intelligence in ESG | |
Marulanda-Grisales et al. | Intellectual capital and competitive advantages in Higher Education Institutions: An overview based on bibliometric analysis | |
Wang et al. | Influencing factors on green supply chain resilience of agricultural products: an improved gray-DEMATEL-ISM approach | |
Wang et al. | Methods for Acquiring and Incorporating Knowledge into Stock Price Prediction: A Survey | |
CN105335888A (zh) | 市场监察系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160217 |
|
RJ01 | Rejection of invention patent application after publication |