CN113706185A - 基于新闻和情绪分析来预测市场行为的方法和系统 - Google Patents
基于新闻和情绪分析来预测市场行为的方法和系统 Download PDFInfo
- Publication number
- CN113706185A CN113706185A CN202011110173.0A CN202011110173A CN113706185A CN 113706185 A CN113706185 A CN 113706185A CN 202011110173 A CN202011110173 A CN 202011110173A CN 113706185 A CN113706185 A CN 113706185A
- Authority
- CN
- China
- Prior art keywords
- news
- company
- sentiment
- emotion
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000004458 analytical method Methods 0.000 title claims description 37
- 230000008451 emotion Effects 0.000 claims abstract description 62
- 230000002996 emotional effect Effects 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 36
- 230000000694 effects Effects 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 230000014509 gene expression Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000005096 rolling process Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 14
- 238000004088 simulation Methods 0.000 claims 6
- 239000013589 supplement Substances 0.000 claims 3
- 230000000007 visual effect Effects 0.000 claims 3
- 230000004044 response Effects 0.000 abstract description 38
- 230000036651 mood Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 239000010779 crude oil Substances 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 10
- 235000013339 cereals Nutrition 0.000 description 8
- 230000010354 integration Effects 0.000 description 7
- 229910052751 metal Inorganic materials 0.000 description 7
- 239000002184 metal Substances 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 6
- 230000004069 differentiation Effects 0.000 description 6
- 230000006397 emotional response Effects 0.000 description 6
- 238000011985 exploratory data analysis Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 208000010877 cognitive disease Diseases 0.000 description 5
- 150000002739 metals Chemical class 0.000 description 5
- 238000004445 quantitative analysis Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 101100194706 Mus musculus Arhgap32 gene Proteins 0.000 description 4
- 101100194707 Xenopus laevis arhgap32 gene Proteins 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000003209 petroleum derivative Substances 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000001932 seasonal effect Effects 0.000 description 3
- 238000012384 transportation and delivery Methods 0.000 description 3
- 241000270708 Testudinidae Species 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 229910000510 noble metal Inorganic materials 0.000 description 2
- 239000003921 oil Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 239000010970 precious metal Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000035939 shock Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000081511 Matthiola lunata Species 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000295 fuel oil Substances 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000002175 menstrual effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种响应于新闻文章与股票价格变动的相关性来提供预测性模型的方法、系统和软件。本发明分析事件的导数或比率,以便通过响应性方式驱动预测。本发明考虑过去的较小窗口内的新闻元数据相对于过去的新闻项目的更大窗口导数或比率。本发明可以利用情绪引擎并且应用情绪的导数来预测证券价格的波动性和/或趋势方向。本发明可以审视内容、情境和情绪导数以便根据预定分类法对新闻报道进行加权,以把近期性、关键性、重复性、可信度等等作为因数计入来预测股票价格行为。此外,本发明可以被用来预告给定股票价格变动的事件以及新闻,从而预测即将发生的报道或显著发布。
Description
本申请是申请日为2012年11月30日,申请号为201280068507.X并且发明名称为“基于新闻和情绪分析来预测市场行为的方法和系统”申请的分案申请。
技术领域
本发明一般地涉及金融服务,并且涉及从新闻文章和其他内容来源挖掘信息以辨识情绪。本发明提供一种利用机器学习能力、新闻情绪专长以及智能分析法的动态工具,其实现对由常规媒体和新媒体所感知到的公司的情绪和预测性企业估值行为的测量和/或评分。
背景技术
随着印刷机、排版、打字机、计算机实施的文字处理和大容量数据存储的出现,人类所生成的信息数量急剧地并且以越来越快的速度增多。其结果是针对收集和存储、标识、跟踪、分类和编目具有持续且增长的需求,以便获取及分发这一不断增大的信息/内容的海洋。此外,随着例如因特网之类的高速网络的发展、普及以及对其的可访问性,存在对于适当且高效地处理可以在这样的网络上获得的数量不断增多的内容以帮助做出决策的不断增长的需求。具体来说,存在如下需求:快速地处理与当前事件有关的信息以便实现根据当前事件或有关情绪的效应做出明达的决策,并且考虑到这样的事件和情绪对所交易的证券或其他产品的价格可能具有的效应。
在例如包括金融服务业在内的许多领域和行业中,存在内容和增强体验提供商,比如汤森路透公司、华尔街日报、道琼斯新闻社、彭博社、金融新闻、金融时报、新闻集团、Zawya、纽约时报。这样的提供商标识、收集、分析并且处理关键数据,以用于生成供对应行业内所涉及的专业人士和其他人士(例如理财顾问和投资者)消费的诸如报告和文章之类的内容。在一种内容递送方式中,这些金融新闻服务提供实时的和归档的金融新闻馈送(news feed),其包括发表了对投资者感兴趣的近来发生的事件的文章和其他报告。许多这些文章和报告(并且当然还有底层事件)对于与公开交易的公司相关联的交易股票价格可能具有相当大的影响。虽然这里常常是在公开交易的股票(在诸如纳斯达克和纽约股票交易所之类的市场上交易的)方面进行讨论,但是本发明不限于股票并且包括对其他形式的投资和投资工具的适用。各个领域和行业内的专业人士和提供商持续寻求增强为订户、客户和其他顾客提供的内容、数据和服务的方式,并且寻求在竞争当中与众不同的方式。这样的提供商致力于创建并且提供包括搜索和排序工具在内的增强工具,以便使客户能够更加高效并且有效地处理信息以及做出明达的决策。
包括数据库挖掘和管理、搜索引擎、语言识别和建模在内的技术进步提供了用以搜索和处理大量数据和文档(例如新闻文章、金融报告、博客、SEC和其他所要求的企业公开、法律判决、法令、法律以及规章的数据库)的越来越精密的方法,这些大量数据和文档可能会影响经营业绩并且因此影响与由这样的股权构成的股票、证券或基金有关的价格。投资和其他金融专业人士和其他用户越来越依赖于数学模型和算法来做出专业和经营决定。特别在投资领域内,提供对与企业业绩有关的(准确)新闻和其他信息的更快访问和处理的系统对于专业人士来说将是高度有价值的工具,并且将导致更加明达、并且更加成功的决策制定。
除了传统媒体来源和递送手段之外,近来“社交媒体”已变得越来越受欢迎和受关注。社交媒体的能力添加了远远超出常规媒体形式的新的信息共享和收集层。由于不受传统模型和工作流程的限制,博客和其他形式社交媒体已变成实时新闻和情况最新信息的非常容易得到并且范围广泛的来源。在投资领域,例如寻找阿尔法(Seeking Alpha)之类的新兴公司以及传统的金融新闻提供商正以指数速率进入博客圈和社交媒体。近来由ING实施的调查表明,博客已经超过传统来源变成针对其Sharebuilder顾客的投资建议的首要来源。“社交媒体”被定义为来源于群众的数据和内容。社交媒体的实例包括:新闻网站;(reuters.com、bloomberg.com等等);在线论坛(livegreenforum.com);政府机关的网站(epa.gov);学术机构、政党的网站(mcgill.ca/mse、www.democrats.org等等);在线杂志网站(emagazine.com/);博客网站(Blogger、ExpressionEngine、LiveJournal、Open Diary、TypePad、Vox、WordPress、Xanga等等);微博网站(Twitter、FMyLife、Foursquare、Jaiku、Plurk、Posterous、Tumblr、Qaiku、Google Buzz、Identi.ca Nasza-Klasa.pl等等);社交和专业人士网站(facebook、myspace、ASmallWorld、Bebo、Cyworld、Diaspora、Hi5、Hyves、LinkedIn、MySpace、Ning、Orkut、Plaxo、Tagged、XING、IRC、Yammer等等);在线支持和筹款网站(Greenpeace、Causes、Kickstarter);信息集合商(Netvibes、Twine等等);以及Twitter。
“新闻分析”或“新闻分析法”指的是包含并且涉及信息获取、机器学习、统计学习理论、网络理论以及合作过滤的广阔领域。新闻分析法包括被用来汇集、概括、分类以及以其他方式分析信息来源(其常常是公开的“新闻”信息)的技术、公式和统计学以及有关的工具和量度的集合。对于新闻分析法示例性使用的是如下系统:该系统汇集(即阅读和分类)金融信息以便确定与这样的信息有关的市场影响并且同时针对其他效应规范化数据。新闻分析指的是测量和分析文本新闻报道的各种定性和定量属性,比如出现在正式的基于文本的文章中以及出现在比如博客和其他在线媒介之类的较非正式的递送中的所述属性。更具体来说,本发明涉及电子内容的情境中的分析。所述属性包括:情绪、相关性和新颖性。把新闻报道表达或表示为“数字”或其他数据点使得系统能够将传统的信息表达法变换成更容易分析的数学和统计表达。新闻分析技术和量度可以被使用在金融情境中,并且更加特别的是使用在过去的和预测的投资业绩的情境中。
新闻分析法系统可以被用来测量和预测:波动性,如在Antweiler和Frank(2004)中那样;新闻影响的反转,Antweiler和Frank(2005);新闻和留言板信息的关系,Das、Martinez-Jerez和Tufano(2005);年报中与风险有关的文字对于预测负回报率的相关性,Li(2006);用于情绪提取,参见Das和Chen(2007);新闻报道对股票回报率的影响,Tetlock(2007);确定新闻中的乐观和悲观对收益的影响,Tetlock、Saar-Tsechansky和Macskassay(2008);预测波动性,Mitra、Mitra和diBartolomeo(2008);以及预测市场,Leinweber和Sisk(2010)。
新闻分析法可以在三个水平或层来审视:文本、内容和情境。大多数先前的努力专注于并且局限于第一层—文本,也就是说基于文本的引擎/应用对新闻的原始文本组成部分(即文字、短语、文档标题等等)进行处理。新闻分析法技术可以被用来将文本转换成更有用的信息,比如通过标记、分类、概括和/或精简文本成核心元素。分析法可以丢弃不相关的文本,从而将其浓缩成具有更高相关性/有用性的信息以及内容的指示。
第二层内容将文本的范畴扩展到图像、时间、文本的形式(电子邮件、博客、页面)、格式(html、xml等等)、来源等等。内容表示利用更高的意义和显著性来丰富文本,其例如装饰有能够由分析法进一步利用的质量和真实性特性。举例来说,从Dow Jones流出的金融信息与博客相比具有更高价值或者感知真实性和准确性,博客与股票留言板发帖相比可能具有更高质量或感知真实性和准确性。在指定“可信度”度量时,来源的概况以及所理解的或者历史的偏向或成绩记录也可以是因素。可以将文本划分成“事实”或事实性陈述或表示以及“意见”表达。同样取决于来源,新闻分析法系统可以划归不同程度的显著性、相关性或可信度。
新闻分析法的第三层是情境,其指的是信息项目之间的关联性或关系性。举例来说,Das、Martinez-Jerez和Tufano(2005)的文章审视了关于四家公司的新闻与留言板发帖的关系。情境还可以涉及新闻的网络关系。Das和Sisk(2005)的文章审视了留言板发帖的社交网络,以便确定是否可以基于股票之间的网络关联形成投资组合规则。谷歌的PageRankTM算法是在所有三个层起作用的分析法的一个实例,该算法具有与文本和/或内容有关的特征,并且所述算法的内核是基于情境,也就是说搜索集合中的一个页面的重要性取决于有多少其他高排序的页面指向该页面。
在基于文本、内容和情境对新闻报道进行处理之后,投资者和金融服务中所涉及的人员希望理解这样大量的信息(甚至经过处理的信息)如何与公司股票价格的可能变动有关。通常所使用的与公司风险有关的术语和测量形式是“α”。本申请中使用的“α”表示基于风险调节的业绩的度量。举例来说,α值考虑票据、股票、债券、共同基金等等的波动性(即价格风险),并且把经过风险调节的业绩与另一项业绩测量(例如基准或其他指数)进行比较。与基准(例如指数)的回报率相比,投资媒介(例如共同基金)的回报率就是所述投资媒介的α。此外,α可以指代超出本来由均衡模型(比如资本资产定价模型)所预测的情况之外的关于证券或投资组合的异常回报率速率。α是五个被广泛考虑的技术风险比率的其中之一。除了α之外,在现今的投资组合理论中所使用的其他技术风险因素统计测量包括:β、标准偏差、R平方和夏普比率(Sharpe ratio)。这些统计风险指标被投资公司用来确定股票、债券或者诸如共同基金之类的其他基于票据的投资媒介的风险-报酬概况。例如在共同基金的情况下,正或负1.0的α意味着该共同基金的业绩比其基准指数分别超出正或负1%。相应地,如果资本资产定价模型分析基于投资组合的风险估计该投资组合应当赚得10%并且该投资组合实际赚得15%,则该投资组合的α将是正5%,并且表示超出的回报率高于模型分析中所预测的情况。
需要如下的系统:该系统能够自动处理或“阅读”新闻报道和其他对其可用内容并且快速解释所述内容以便获得对信息的更深理解并且应用预测性模型以在股票价格和其他投资媒介发生实际变动之前预期所述股票和其他投资媒介的行为。当前存在如下需要:使用和利用传统及新媒体资源和趋势并且满足顾客对于与企业业绩、价格行为、投资和声誉意识相关的先进分析法的需要,以便提供将常规工具的范围扩展到包括社交媒体和在线新闻的基于情绪的解决方案。
发明内容
本发明涉及一种新闻分析法系统(NAS)以及有关的方法,其被适配成在尽可能接近实时(相对于发布)的情况下自动处理和“阅读”新闻报道和其他内容。更具体来说,本发明结合计算机科学采用量化分析、技术或数学以对金融证券的价值进行建模。标识和处理相关信息并且公布预测性行为的时间越早,这样的信息和预测的接受者就可以在所预期的行为实际发生之前越快针对所述分析采取行动。虽然显著性的“事件”信息可能会很快导致股票价格变动,但新闻报道通常具有更加渐进的效应,并且常常包括需要花费时间来处理和对其做出反应的内容。近来已经设计出对新闻信息进行处理并且为新闻项目指定“情绪分数”的系统。情绪和情绪分数通常是根据计算语言学得出的,并且通常分别利用+1、-1和0的分数将一篇文章的基调定义为正面、负面或中性。分数是从包括在文章中的定性地描述企业的文本(文字、短语)得出的。举例来说,可以使用文本处理引擎来处理来自新闻文章的文本和元数据(其是已有的或者由所述引擎新指定的),并且对经过处理的文本应用预先定义的或者所学习到的基于词典的和/或情绪的模式。一旦确定了情绪方向和数值,情绪分数可以利用0、1或-1的分数来输出,并且可以将其进一步划分成小数,或者其可以是任何相容的系统。在一篇文章中提到多家公司的情况下,则将对与每一家公司有关的(一个或多个)特定语句进行分析,以便得到针对与该篇文章有关的每一家公司的情绪分数。分析过去的新闻和所导致的股票价格的响应可以帮助建立用以在审视短的、近来的时间范围的新闻报道时预测股票行为的模型。
本发明涉及被适配成把传统和新媒体内容来源用作“α”的来源的方法和系统。举例来说,可以针对预测性模型应用于服务提供商可获得的内部文本来源,以便得到所预期的与市场有关的行为,例如,汤森路透(Thomson Reuters)来源包括法律(Westlaw)、规章(特别是SEC、争议数据、板块特定等等)、社交媒体(应用特殊的元数据以使其有用)以及新闻和新闻类来源,包括金融新闻和报告。此外还可以利用作为由所述预测性模型考虑的附加数据点的、自由可用的或者基于订购的外部来源来补充内部来源。本发明可以访问例如机器可读新闻(Machine Readable News)(MRN)和StarMine之类的新媒体信息资源,以便由“计量金融师”(即量化分析师和投资专业人士)使用,从而根据“新”的信息和/或情绪形成与估值金融证券有关的预测性模型。除了硬事实之外,例如抽油装置爆炸会导致直接财务损失(收益损失、损害责任等等),还涉及情绪,例如量化恐惧、不确定性、贪婪等等的效应,以及其如何驱动证券估值。其结果可以被用来增强投资和交易策略(例如股票和其他股权、债券和商品),并且使得用户能够跟踪和发现新的机会以及生成α。NAS包括新闻情绪分析以便提供更加有意义的洞察,从而驱动明达的交易和投资决策。
本发明可以与例如汤森路透新闻分析法之类的随着时间跟踪新闻情绪的系统相结合来使用,提供对于与公司有关的新闻覆盖的全面理解,并且引导交易和投资决策。由自然语言处理系统语言学技术的支持,汤森路透新闻分析法自动分析新闻内容并且接近实时地(例如在几毫秒计内)提供改进的交易(例如买入/持有/卖出)信号。所述系统可以接近实时地扫描及分析关于数千家公司的报道,并且将结果馈送到量化策略中。所述系统的输出可以被用来支持横跨各种市场、资产类别和所有交易频率的量化策略,支持人类决策制定,并且帮助进行风险管理和资产分配决策。
所述语言学技术例如横跨以下示例性的、主要的维度对文本进行评分:“作者情绪”—针对文章中的每一家公司所特有的项目的基调的正面、负面或中性程度的量度;“相关性”—所述报道对于特定项目的相关性或实质性的程度;“数量分析”—关于特定公司有多少新闻正在发生;“独特性”—所述项目在不同时间段内的新鲜或重复程度;以及标题分析—标明诸如经纪人行动、定价评论、采访、独家和综合报导等的特殊特征。此类,系统的丰富的元数据可以包括例如:公司标识符;主题代码—标识主题内容;报道的阶段—提示、文章、最新信息等等;以及业务板块和地理分类代码;针对类似文章的索引参考。所述系统的跨越多个领域的鲁棒的元数据组合起来提供由量化分析师和精密的算法引擎使用的差别化内容。
NAS可以利用各种和不同的文本评分和元数据类型。对于发明的技术的使用包括量化投资和交易策略。来自新闻分析法的交易和投资信号适用于所有交易频率,并且提供超出传统量化因数的α的递增来源。本发明可以被用来利用自动断路器增强算法交易策略,或者开发利用所述能力的新算法以便更好地预测交易数量(volume)、价格波动性和方向性变动。本发明可以被使用于做市(market making),以便例如在有显著的负面新闻影响你在特定股票中的活动时扩大差价或拉动报价。本发明可以被使用在投资组合管理中,以便通过基准化投资组合情绪以及计算板块加权来改进资产分配决策。本发明可以被使用在基础分析中以预告股票、板块和市场前景。本发明可以被使用在风险管理中,以便更好地理解针对投资组合的异常风险以及发展潜在的情绪防护。此外,本发明可以由公司使用来跟踪并且基准化媒体覆盖,以及跟踪并且基准化关于竞争对手的媒体覆盖。
NAS可以被实施在多种布置和架构中,可以作为在顾客地点处布置的解决方案经由(一种或多种)主控解决方案或者通过例如汤森路透新闻分析之类的专用服务来递送NAS数据。通过经由所建立的服务提供商平台布置NAS,本发明可以更加容易地被集成在现有的框架和数据库结构内。举例来说,一家公司(例如汤森路透)可以利用更加接近递送实时业绩的企业平台的标准API、符号机制和鲁棒性。在完整量化分析法解决方案的情境中,量化金融师和事件驱动的交易提供被设计成为公司给出量化研究和分析方面的优势的独有内容、技术和数据管理能力。市场数据、新闻和分析法使客户能够更加有效地开发以及回溯测试基于事件的投资和量化交易策略。该解决方案还允许在实时(或接近实时)的环境中无缝地布置这样的策略,以生成α以及管理事件风险。
取代专注于针对情绪的缓慢变动改变(如在过去的努力中所做的那样)或者随着时间的平均情绪变动(或者甚至是滚动平均),本发明更加有力地把更加近来的“冲击性”事件的响应相关性考虑到预测性模型中或把其作为因数计入预测性模型中。通过这种方式,本发明分析事件(新闻和情绪)的导数或比率,从而以更具响应性的方式驱动预测。如这里所使用的,“导数”或“微分”表示函数关于不断改变的输入变量改变程度或者一个变量关于另一个变量的改变程度的度量。函数在所选输入数值处的导数表示函数在该输入数值处或其附近的线性表达或变换。该术语同时覆盖实数导数以及复数导数两者。举例来说,NAS可以考虑过去的较小窗口内的各种新闻元数据相对于过去的新闻项目的更大窗口的导数或比率。本发明可以使用情绪引擎,并且随后应用情绪的导数以便预测证券价格波动性和/或趋势方向。本发明可以使用情绪或其他连贯过程的导数(例如比率),通过查看最近的例如10篇报道并且因为更相关而对其进行更大加权,以便预测股票价格行为(短期或更长期)。通过这种方式,本发明与现有系统相比专注于在短得多的时间框架内发生的事件或者为之给出更高重要性从而对交易员(包括算法交易员、当日交易员、任何投资者)有利。本发明可以查看新闻报道的内容和情境,并且根据预定分类法对其进行加权。所述加权可以把以下各项作为因数:近期性、关键性、重复性、可信度等等。而且,本发明可以被用于预告给定股票价格变动的事件以及公报之前的新闻,从而预测即将发生的新闻报道或显著发布。
在第一实施例中,本发明提供一种用于预测价格行为的计算机实施的方法,所述方法包括:接收包括第一新闻报道的新闻内容;处理第一新闻报道并且标识与第一家公司有关的信息;利用情绪分析确定当第一新闻报道涉及第一家公司时的与第一新闻报道相关联的第一情绪分数;以及确定与第一家公司有关的导数情绪数值。此外,所述情绪分数可以是至少部分地基于新闻报道的类型,其中所述类型是来自由以下各项构成的组当中的一种:提示、文章、最新信息、更正和标题。所述方法还可以包括以下各项当中的一项或更多项:处理第一新闻报道以便标识所嵌入的元数据或其他描述符,处理对于第一家公司的文本、文字、短语和属性相关性;处理第一新闻报道以便标识关于可与第一家公司区分开的第二家公司的信息;利用情绪分析来确定当第一新闻报道涉及第二家公司时的与第一新闻报道相关联的第二情绪分数;确定与第二家公司有关的第二导数情绪数值;利用所述导数情绪数值和情绪分数提供预测性模型,以便得到与第一家公司相关联的预测价格行为;生成所预测行为的表达,表达包括交易数量、价格方向和价格波动性的至少其中之一;根据所预测的行为生成要采取的建议行动(建议行动与涉及投资的交易决策有关,并且是由买入、卖出或持有构成的组当中的一项);以及通过把与涉及第一家公司的第一新闻报道集合相关联的情绪数值和与涉及第一家公司的第二新闻报道集合相关联的情绪数值进行比较,来确定与第一家公司有关的导数情绪数值。而且,第二新闻报道集合可以包括比包括在第一新闻报道集合当中的更少的新闻报道,并且第二新闻报道集合是基于时间数值而选择的。
在第二实施例中,本发明提供一种用于预测价格行为的基于计算机的系统,所述系统包括:被适配成执行代码的处理器;用于存储可执行代码的存储器;被适配成接收包括第一新闻报道的新闻内容的输入;以及由处理器执行的预测性模块,所述预测性模块包括可由处理器执行来实施以下操作的代码:处理第一新闻报道以便标识与第一家公司有关的信息;应用情绪分析以便应用情绪分析以便确定当第一新闻报道涉及第一家公司时的与第一新闻报道相关联的第一情绪分数;以及确定与第一家公司有关的导数情绪数值。所述系统还可以包括以下各项当中的一项或更多项:由处理器执行的特征引擎,用于利用历史新闻数据和历史股票价格数据来训练预测性模块。预测性模块可以包括被适配成实施以下操作的代码:处理第一新闻报道以便标识所嵌入的元数据或其他描述符,处理对于第一家公司的文本、文字、短语和属性相关性。所述预测性模块可以包括被适配成实施以下操作的代码:处理第一新闻报道以便标识关于可与第一家公司区分开的第二家公司的信息;应用情绪分析来确定当第一新闻报道涉及第二家公司时的与第一新闻报道相关联的第二情绪分数;以及确定与第二家公司有关的第二导数情绪数值。所述预测性模块可以包括被适配成实施以下操作的代码:利用所述导数情绪数值和情绪分数来确定与第一家公司相关联的预测价格行为。所述预测性模块可以包括被适配成实施以下操作的代码:生成预测的行为的表达,表达包括交易数量、价格方向和价格波动性的至少其中之一。
附图说明
为了便于全面理解本发明,现在将参照附图,其中用相似的数字指代相似的元件。这些附图不应当被解释成限制本发明,相反其意图是示例性的并且作为参照。
图1是示出了用于实施本发明的示例性的基于计算机的系统的第一示意图;
图2是示出了用于实施本发明的示例性的基于计算机的系统的第二示意图;
图3是示出了实施本发明的示例性方法的搜索流程图;
图4是示出了本发明的数据库和新报道处理及情绪分析法以及预测性引擎方面的流程图;
图5是表示示出了新闻报道对股票价格的影响的Tetlock新闻事件研究(TetlockNews Event Study)(1984-2004)的图表;
图6-43是表示与新闻分析法的应用相关联的响应曲线的图表;
图44是表示与本发明相关联的特征引擎构造和实施方式以及预测性建模的示意图;
图45是表示建立在图43的特征构造和实施方式上的特征引擎校准过程的示意图;
图46是表示建立在图43的特征构造和实施方式上的特征引擎校准处理的示意图;以及
图47到49表示结合本发明的预测性建模和预告的视觉化。
具体实施方式
现在将参照附图中所示出的示例性实施例更加详细地描述本发明。虽然在这里参照示例性实施例描述了本发明,但是应当理解的是,本发明不限于这样的示例性实施例。掌握本领域的普通技术并且访问这里的教导的人员将认识到完全在这里所公开并要求保护的本发明的范围内在这里所设想到的附加实施方式、修改和实施例以及对于使用本发明的其他应用,并且关于所述其他应用本发明可以发挥重要作用。
根据这里所描述的示例性实施例,本发明提供一种新闻分析法系统(NAS)以及有关的方法,其被适配成尽可能接近实时(相对于发布)地自动处理和“阅读”新闻报道和其他内容。现今的新闻系统包括扩展的新闻和关于新闻的元数据,其允许NAS被建立有可用作量化分析的α来源的多维障碍(multidimensional hurdle)。NAS被适配成使用传统和新媒体内容来源作为“α”的来源。例如可以针对预测性模型应用对服务提供商可用的内部文本来源,以便得到所预期的与市场有关的行为。此外还可以利用自由可用的或者基于订购的外部来源来补充内部来源,以作为由所述预测性模型考虑的附加数据点。NAS访问新媒体信息来源以进行量化分析,并且生成结果以便增强投资和交易策略(例如股票和其他股权、债券和商品),并且使得用户能够跟踪和发现新的机会以及生成α。NAS包括新闻情绪分析以便提供更加有意义的理解,从而驱动明达的交易和投资决策。
关于股权,新闻元数据示出了可预测的波动性和英语母语市场(美国、英国)中的股权方向漂移—温和正漂移,更强的负漂移。市场状况和公司属性按照认知失调(cognitive dissonance)的理论改变新闻响应。关于商品,新闻提示预测日内漂移—当负面新闻情绪增加时负漂移增大,并且当正面新闻被重复时正漂移更强。可以在来自新闻事件的具有更长期(例如近似两小时)势头的短期(例如近似30分钟)回归方面来审视漂移。
NAS可以采用自然语言处理技术来自动分析新闻内容并且接近实时地生成交易(例如买入/持有/卖出)信号。正如这里所描述的那样,术语“接近实时”意味着在一秒内。但是关于NAS所使用的数据的范围越广,响应时间就可能越长。为了缩短响应时间,可以考虑数据/内容的更小窗口/数量(volume)。此外,NAS可以被配置成保持一个滚动数据集合,使得其仅仅对现有评分和报告进行更新,并且在任意给定时刻仅仅基于来自任意来源的新近发现、接收或发布的内容进行处理(“读取”以及评分和预测)。NAS接近实时地扫描及分析关于数千家公司的报道,并且将结果馈送到量化策略和预测性模型中。NAS输出可以被用来驱动横跨各市场、资产类别和所有交易频率的量化策略,支持人类决策制定,并且帮助进行风险管理和资产分配决策。NAS随着时间跟踪新闻情绪,提供对与公司有关的新闻覆盖的全面理解,并且引导交易和投资决策。
NAS采用自然语言处理和其他语言学技术以便例如横跨以下示例性的主要维度对文本进行评分:“作者情绪”—针对文章中的每一家公司所特有的项目的基调的正面、负面或中性程度的量度;“相关性”—所述报道对于特定项目的相关性或实质性的程度;“数量分析”—关于特定公司有多少新闻正在发生;“独特性”—所述项目在不同时间段内的新鲜或重复程度;以及标题分析—标明诸如经纪人行动、定价评论、采访、独家和综合报导等的特殊特征。NAS例如使用以下丰富的元数据:公司标识符;主题代码—标识主题内容;报道的阶段—提示、文章、最新信息等等;以及业务部门和地理分类代码;针对类似文章的索引参考。跨越多个领域的元数据提供由量化分析师和精密的算法引擎使用的差别化内容。
NAS可以利用各种和不同的文本评分和元数据类型。以下是本发明所使用的示例性类型:项目风格—提示、文章、最新信息、更正;项目种类—报道的分类,即采访、独家、综合报导等等;标题—提示或标题文本;相关性—0-1.0;主要情绪—1、0、-1;正面、中性、负面—提供更加详细的情绪指示;首次提到的位置—首次提到所述项目的语句位置;语句总数—用于文章长度;公司数目—有多少家公司被标记到所述项目;文字/标志的数目—有多少文字/标志关于所述公司;文字/标志总数—新闻项目中的文字/标志总数;经纪人行动—其标明经纪人行动:升级、降级、保持、未定义或者其是否是经纪人本身;价格/市场评论—其被用来标示描述定价/市场评论的项目;项目计数—在不同时间段内关于某一家公司已公布了多少项目;关联计数—标明从12小时到7天的重复水平;主题代码—描述所述报道是关于什么,即RCH=研究;RES=结果;RESF=结果预告;MRG=合并和收购等等;其他公司—被标记到文章的其他公司有哪些;以及其他元数据—索引ID、关联参考、报道链等等。
图1-4示出了用于实施本发明以及用于为与这样的基于计算机和数据库的系统进行用户交互而提供有效接口的示例性结构组件和框架。后面是对本发明的过程和特征的实施方式的更加详细的描述,包括关于新闻情绪的低频工作的讨论,以及对股权(包括波动性和方向)和商品的一般探索性数据分析。在并非意图限制本发明而仅仅是为了帮助说明的示例性情形中,后面说明新闻元数据如何与价格有关,并且将讨论新闻与价格之间的短期关系。所述示例性讨论审视四个股权市场(美国、英国、日本和中国香港)和四项商品(原油、石油产品、贵金属和谷物)。随后讨论示例性的预告模型和框架,包括对用于消费新闻并且做出资产价格预告的示例性引擎的描述。利用做出关于回报率、交易数量和波动性的短期预测的目标来审视业绩。
NAS可以被实施在多种布置和架构中。可以经由(一个或多个)主控解决方案或中央服务器,或者是通过专用服务把NAS数据作为在顾客或客户地点处布置的解决方案来递送。图1示出了示例性新闻分析法系统(NAS)100,其包括被适配成与中央服务提供商系统或客户端操作的处理系统当中的任一个或全部二者集成在一起的在线信息获取系统。在该示例性实施例中,NAS系统100包括至少一个web服务器,web服务器可以自动控制客户端访问设备上的应用的一个或更多方面,所述客户端访问设备可以运行增加有附加框架的应用,所述附加框架集成到图形用户接口或浏览器控制中以便促进与一个或更多基于web的应用进行接口。系统100包括一个或更多数据库110、一台或更多台服务器120以及一个或更多访问(例如客户端)设备130。
新闻数据库110包括主要数据库(内部)112的集合、次要数据库(外部)114的集合以及元数据模块116。在该示例性实施例中,主要数据库112包括新闻(在该情况中由示例性的汤森路透TR新闻表示)数据库1121和(一个或多个)馈送(在该情况中由示例性的汤森路透TR 新闻馈送表示)数据库1122。次要数据库114包括新闻(比如非内部)数据库1141、博客数据库1142、社交媒体数据库1143和其他(一个或多个)内容数据库1144。元数据模块116包括被适配成标识、额外的或应用、或者以其他方式辨识与新闻报道相关联的元数据。这样的元数据可以由NAS 100使用来对新闻报道进行预处理(例如语句分离、谈话标记、文本解析、标志化等等)以便促进把报道与一家或更多家公司相关联以及准备用于计算语言学过程的应用和用于情绪分析的内容。
数据库110采取一个或更多电子、磁性或光学数据存储设备的示例性形式,其包括对应的索引(未示出)或者以其他方式与对应的索引相关联。每一项所述索引包括与相应的文档地址、标识符和其他常规信息相关联的术语和短语。数据库110经由无线或有线通信网络(比如局域网络、广域网络、私有网络或者虚拟私有网络)耦合或者可耦合到服务器120。
服务器120通常表示用于提供网页或其他标记语言形式(具有关联的小应用程序、ActiveX控件、远程调用对象或者其他有关的软件和数据结构)的数据以服务于不同“厚度”的服务客户端的一台或更多台服务器。更具体来说,服务器120包括处理器模块121、存储器模块122、订户数据库123、主要搜索模块124、元数据研究模块125和用户接口模块126。处理器模块121包括一个或更多本地或分布式处理器、控制器或虚拟机。存储器模块122采用一个或更多电子、磁性或光学数据存储设备的示例性形式,其存储订户数据库123、主要搜索模块124(比如用于基于本发明的预测性建模的与公司有关的预测性分析)、次要研究模块125(比如用户可用的对感兴趣的公司进行进一步研究的其他金融服务)以及用户接口模块126。
订户数据库123包括用于控制、掌管和管理对数据库110的现购现付(pay-as-you-go)或者基于订购的访问的订户有关数据。在该示例性实施例中,订户数据库123包括一个或更多用户偏好(或者更一般来说是用户)数据结构。在该示例性实施例中,用户数据结构的一个或更多方面涉及各种搜索和接口选项的用户定制。主要搜索模块124包括一个或更多搜索引擎和有关的用户接口组件,用于接收和处理针对一个或更多数据库110的用户查询。
信息集成工具(IIT)框架模块126(或者软件框架或平台)包括机器可读和/或可执行的指令集,用于完全或部分定义具有与一个或更多应用集成或协作的一个或更多部分的软件和有关的用户接口。如图2中所示,NAS包括与IIT 126和元数据模块116协作的新闻文章处理引擎,其包括一个或更多搜索引擎或者可以与一个或更多搜索引擎协作,以用于接收元数据和针对元数据进行处理以及聚集、评分、和过滤、推荐以及呈现结果。在该示例性实施例中,NAP引擎209包括一个或更多特征向量构造器或特征引擎206、预测性建模模块207以及学习或训练引擎或模块208,以便实施这里所描述的功能。
参照图1,访问设备130(诸如客户端设备)通常表示一个或更多访问设备。在该示例性实施例中,访问设备130采取个人计算机、工作站、个人数字助理、移动电话或者能够提供与服务器或数据库的有效用户接口的任何其他设备的形式。具体来说,访问设备130包括处理器模块131一个或更多处理器(或处理电路)131、存储器132、显示器133、键盘134以及图形指示器或选择器135。处理器模块131包括一个或更多处理器、处理电路或控制器。在该示例性实施例中,处理器模块131采取任何方便的或所期望的形式。存储器132耦合到处理器模块131。存储器132存储用于操作系统136、浏览器137、文档处理软件138的代码(机器可读或可执行指令)。在该示例性实施例中,操作系统136采取微软视窗(Microsoft Windows)操作系统的版本的形式,浏览器137采取微软互联网浏览器(Microsoft InternetExplorer)的版本的形式。操作系统136和浏览器137不仅接收来自键盘134和选择器135的输入,而且还支持在显示器133上渲染图形用户接口。在启动处理软件时,集成的信息获取图形用户接口139在存储器132中定义并且在显示器133上渲染。在渲染时,接口139呈现与一个或更多交互式控制特征(或用户接口元件)相关联的数据。
在操作利用本发明的系统的一个实施例中,安装附加框架并且将服务器120上的一个或更多工具或API加载到一个或更多客户端设备130上。在该示例性实施例中,这需要用户把客户端访问设备(比如访问设备130)中的浏览器引导到针对在线信息获取系统(比如来自汤森路透金融的产品和其他系统)的互联网协议(IP)地址,并且随后利用用户名和/或密码登录到所述系统上。成功登录导致基于web接口从服务器120输出,被存储在存储器132中并且由客户端访问设备130显示。所述接口包括针对发起信息集成软件的下载的选项,所述信息集成软件具有针对一个或更多应用的相应的工具栏插件。如果发起了下载选项,则下载管理软件确保客户端访问设备与信息集成软件兼容,并且检测访问设备上的哪些文档处理应用与信息集成软件兼容。通过用户许可,适当的软件被下载并且安装在客户端设备上。在一种替换方案中,中间“公司”网络服务器可以接收所述框架、工具、API和附加软件当中的一项或更多,以便利用内部过程加载到一个或更多客户端设备130上。
一旦以任意方式被安装,随后可以在具有文档处理应用的情境中为用户呈现在线工具接口。可以同时调用针对一个或更多应用的附加软件。附加菜单包括web服务或应用和/或者本地主控工具或服务的列表。用户通过该工具接口进行选择,比如通过指示设备人工选择。一旦进行了选择,就执行所选工具,或者更精确地说其关联的指令。在该示例性实施例中,这需要与服务器120上的相应指令或web应用进行通信,相应指令或web应用进而可以利用作为附加框架的部分存储在主控应用上的一个或更多API来提供主控文字处理应用的动态脚本和控制。
图2示出了用于实施这里所描述过程的示例性NAS系统200的另一种表示,所述过程结合硬件和软件以及通信联网的组合来实施。在该例中,系统200提供用于进行搜索、获取、分析和排序的框架。系统200可以与信息或专业金融服务提供商(FSP)(例如汤森路透金融)的系统204产品相结合来使用,并且包括前面所描述的信息集成以及工具框架和应用模块126。此外,在该例中,系统200包括中央网络服务器/数据库设施201(其包括网络服务器202、文档(例如新闻报道、博客等等)数据库203)、信息/文档获取系统205,所述信息/文档获取系统205具有作为搜索引擎209组件的特征建立模块206、预测性模块207以及训练或学习模块208。中央设施201可以由远程用户210诸如通过网络226(例如因特网)访问。可以利用因特网或基于(世界范围)WEB、基于桌面或者启用应用WEB的组件的任意组合来实现系统200的各个方面。该例中的远程用户系统210包括经由计算机211(比如PC计算机等等)操作的GUI接口,所述计算机211可以包括硬件与软件的典型组合,如关于计算机211所示出的那样,该组合包括系统存储器212、操作系统214、应用程序216、图形用户接口(GUI)218、处理器220和存储装置222(其可以包含诸如电子文档之类的电子信息224)。在后文中详细描述的本发明的方法和系统可以被采用来为远程用户(比如投资者)提供对于可搜索数据库的访问。具体来说,远程用户可以利用基于公司RIC、股票或其他名称的搜索查询来搜索数据库,以便如后文中所讨论的那样获取及查看预测性分析和/或所建议的行动。客户端侧应用软件可以被存储在机器可读介质上并且包括例如由计算机211的处理器220执行的指令,并且基于web的接口屏幕的呈现促进用户系统210与中央系统211之间的交互。操作系统214应当适于与这里所描述的系统201和浏览器功能一起使用,例如具有适当的服务包的Microsoft Windows Vista(商务版、企业版和终极版)、Windows 7或者Windows XPProfessional。所述系统可能需要远程用户或客户端机器与最低阈值水平的处理能力(例如速度为500MHz的英特尔奔腾III)、最低存储器水平和其他参数兼容。
因此所描述的配置是许多配置当中的一些,并且不对本发明构成限制。中央系统201可以包括服务器、计算机和数据库的网络,比如关于LAN、WLAN、以太网、令牌环、FDDI环或其他通信网络基础设施。几个适当的通信链接中的任意个是可用的,比如例如无线、LAN、WLAN、ISDN、X.25、DSL和ATM类型网络当中的一个或组合。用以施行与系统201相关联的功能的软件可以包括桌面或服务器或网络环境内的整装式应用,并且可以利用本地数据库(比如SQL 2005或以上版本,或者SQL Express、IBM DB2或其他适当的数据库)来存储文档、收集以及与处理这样的信息相关联的数据。在示例性实施例中,所述各种数据库可以是关系型数据库。在关系型数据库的情况下,创建各种数据表并且利用SQL或者本领域已知的某种其他数据库查询语言将数据插入到这些表中以及/或者从这些表中选择数据。在利用表和SQL的数据库的情况下,可以使用数据库应用(比如例如MySQLTM、SQLServerTM、Oracle 8ITM、10GTM或某种其他适当的数据库应用)来管理数据。正如本领域已知的那样,这些表可以被组织成RDS或对象关系型数据模式(ORDS)。
在本发明的一种示例性方法中并且参照图3的流程,施行下面的过程。首先在步骤302处,用户从内部或外部来源获得新闻文章或其他适当内容(新闻馈送、博客等等)。在步骤304处,系统对文档应用预处理以便标识嵌入的元数据或其他描述符,处理对一家或更多家公司的测试、文字、短语和属性相关性。在步骤306处,系统应用情绪分析并且当文档涉及在其中标识的每一家公司时,得到与文档相关联的一个或更多情绪分数。在步骤308处,系统基于一个缩短的时间段确定导数情绪数值。在步骤310处,系统应用利用所述情绪分数和导数分数的预测性模型,以便得到与每一家公司相关联的预测价格行为。在步骤312处,用户生成关于预测行为的表达和/或根据预测行为而采取的建议行动(例如买入、卖出或持有)。
图4是示出了作为采用本发明(比如图3的方法)的系统的输入和输出的本发明的数据库和文档处理、情绪评分以及预测性建模方面的流程图。举例来说,外部文档或新闻信息(比如新闻文章和传统新闻来源、博客、社交媒体)被视为对文档处理引擎的输入。内部新闻馈送等等(例如TR馈送(TR feeds)、路透新闻、Westlaw、策划馈送(Curated feeds))由内部数据馈送文档处理模块处理。组合的新闻馈送由情绪评分引擎进一步处理并且最终根据预测性模型被处理,以便输出对应公司的预测性分析或者诸如建议行动(买入、卖出或持有)之类的其他输出。
图5是表示Tetlock 新闻事件研究(1984-2004)并且示出了围绕正面和负面新闻报道的企业估值(股票价格)的图表。所有新闻报道专注于S&P 500企业,并且来自1980和2004年之间(包括1980和2004年)的道琼斯新闻服务(DJNS)或华尔街日报(WSJ)。所述图表示出了围绕正面和负面新闻报道的示例性企业股票价格行为。该图是从新闻报道的发布之前的十个交易日到其发布之后的十个交易日的企业历史异常事件回报率的图形表示。横坐标表示相对于报道发布的交易日,并且纵坐标表示以基点(BP)计的累计异常回报率(CAR)。所绘制的响应曲线表示差异(WSJ/DJNS)、正异常回报率(WSJ/DJNS)和负异常回报率(WSJ/DJNS)。如响应曲线所指示的,在正面/负面新闻报道的发布与价格行为之间存在相关性。根据所述曲线显而易见的是,异常回报率在报道发布(0点)之前开始出现,并且在初始发布日期之后继续。
图6是表示与对在一时段内的正面和负面新闻报道应用新闻分析法相关联的响应曲线的图表,所述时段是事件之前的五天(-5到-1)、事件当日(0)以及事件之后的九天(1-9)。在该例中,当日(0)发生的事件是针对从2003-02到2008-12在S&P 1500中列出的公司在一天当中的所有正面或负面的至少五篇报道。举例来说,所述报道可以涉及业绩数据的发布、将导致收益增加的新合约等等,与之对应的涉及所述事件的信息的公开发布直到事件当日(0)才发生。如在该例中所见的,可以在第-5到-1日泄露可能关于报道的主题(正面或负面)的信息的信息,从而导致从SPY到偏离的逐渐抬高。随着响应曲线在纵坐标上(其表示SPY(对于SPDR标准&普尔存托凭证S&P 500股票指数的符号)的回报率超额)从0偏离到以基点计的-300到超过200的范围,所述偏离非线性地增大直到第0日,并且随后在事件当日0之后继续以较低急剧程度偏离。为了实现更高的业绩,所述系统实质上如在曲线图上所指示的那样将事件日期向左移动,以便捕获更多α。换句话说,系统优选地在第0日之前给出预测性指示,从而实现更多价格偏离。举例来说,对于经历正偏离的股票,处于最早可能时间点的“买入”信号是优选的,并且对于经历从SPY的负偏离的股票,处于最早可能时间点的“卖出”信号是优选的。
图7-10是示出了横跨国界存在的新闻/价格相关性的图形表示,其在许多管辖地区和市场中具有一致的结果。每一个图表表示针对每一项对应的指数的极端情绪日的一个实例。在四个图表的每一个图表中,纵坐标表示超过对应指数的累计回报率(图7—日经(Nikkei)指数;图8—DAX指数;图9—中国香港指数;以及图10—FTSE指数),并且横坐标表示强烈情绪日(第0日)之前的各日(第-10到-1日)和之后的各日(1-10)。与图6的图表一样,在每一个图表中,回报率从事件当日0之前的指数开始变化。如果投资者可以把线从第0日移动以便在其发生之前预测即将发生的偏离,则可以实现更大利润或者避免损失。
通过实例的方式,对于S&P 1500,在RNSE档案中具有与之对应的至少一个新闻项目的RIC(即路透票据代码)的每月计数从2003年到现在已经从近似600增长到近似1000。RIC是被用来标识金融票据和指数的类报价机(ticker-like)代码,其被用于在各个金融信息网络(比如汤森路透市场数据平台,例如Bridge、Triarch、TIB和RMDS—路透市场数据系统(RMDS)开放数据集成平台)上查找信息。路透新闻范围情绪引擎(Reuters NewsScopeSentiment Engine)(RNSE)使客户能够将新闻情绪、相关性和新颖性指示符的独特集合利用于算法交易系统以及风险管理和人类决策支持过程。所述服务利用针对该市场特别开发的新的语言学模型,并且在几毫秒内对情绪进行评分,该情绪针对关于40项商品和能源资产以及在当前产品中支持的超过10000家公司的新闻。NAS可以包括诸如RNSE之类的情绪评分引擎,以作为机器可读新闻功能的扩展。本发明不限于这里所列出的具体和示例性类型的投资。算法交易对于现金股权市场以及诸如外汇、商品和能源市场之类的其他流动资产类别中的卖出和买入侧市场参与者都有用。商品市场为机构投资者和自营交易员给出了显著机会以增长和多样化投资策略。在全球商品和能源市场增长、价格波动性以及这一资产类别的增加地采用到活跃的交易策略中的情况下,针对相关量化解决方案的顾客需求不断增加。所产生的情绪分数可以由交易专柜和量化研究分析师使用来更好地对资产价格的变动进行建模。客户可以访问历史数据,这允许他们回溯测试系统对于其交易和投资策略的适用性。
可以利用历史数据来调谐或回溯测试NAS。NAS可以被配置成利用元数据设定新闻阈值或障碍(hurdle),以便找到具有高数量、相关性和可行动性的新闻。在一种方式中,NAS被设置成基于极端情绪(例如特定于公司的日信号(day signal))采取行动或者生成信号。在一种情形中,当在交易关闭的设定时间(例如下午3:30)之前发生了至少四个新颖的新闻事件时,NAS触发预测和所建议的行动。新颖的新闻项目可以本质上与报告与原始新闻报道相同的信息的“模仿(copy-cat)”或其他类似的新闻报告区分开。但是NAS的情绪或新闻分析法引擎可以为与相同报道有关的极端或异常数量给出一定权重。这可以被感知为对于公司及其股票价格的更高重要性或显著性的指示。此外,平均情绪是极端正面或负面的情况表示平均日常分布的前5%。
在另一种方式中,NAS可以被配置成使得:可以将“纯粹”新闻信号与许多其他信号相组合,比如参见德意志银行信号处理(Deutsche Bank Signal Processing)报告;可以允许投资组合现金&β随着信号变化;市场关闭时日常交易;包括交易成本,例如25基点往返交易成本;持有20天,受到设定在5%的止损规则,设定在20%的获利规则的影响。
图11是表示针对在2006年开始并且在2010年中结束的历史数据的利用NAS的新闻调节、新闻驱动的投资组合与S&P 500指数的业绩相比较的对应的投资组合回报率。除了预测性价格变动之外,本发明的NAS还可以被用来预测与极端新闻活动相关联的波动性程度。
在配置NAS时,可以不仅考虑新闻元数据如何调节或影响价格响应,而且还考虑市场如何可以调节新闻响应,以及在公司的基础上从广泛的总体“市场”角度来考虑可能会如何影响新闻的重要性。市场如何调节新闻响应的各个方面包括:波动性、市场方向、企业β、企业市场资本总值。新闻元数据如何可以调节价格响应的各个方面包括:极性、极值、新颖性和主题。
对于例如股权(股票)和商品的此类探索性数据分析涉及确定从所跟踪和收集(或者以其他方式获得)的数据导出的各种属性以及对这样的数据进行过滤。与本发明一致,所述方法和系统例如考虑新闻元数据的属性、季节性和机制。所识别的新闻元数据的属性如下:强度;新颖性;极性;以及极值。机制包括方向性、波动性和情绪。
关于对所收集的数据进行过滤,以一种示例性方式,所述系统可以将分析限制为考虑具有大于或等于例如0.3的分数的相关性的新闻。此外,系统可以去除“综合报导(WRAPUP)”和“不平衡(IMBALANCE)”项目。系统还可以利用预定代码或类别进行过滤,例如通过RIC进行过滤。举例来说,利用商品RIC,系统如下进行过滤:CRU—原油商品新闻;PROD—石油产品商品新闻;MET—贵金属和工业金属商品新闻;以及GRA—谷物商品新闻。利用股权RIC,系统如下进行过滤:.N/.O—美国股权新闻(NYSE、纳斯达克);.T—日本股权新闻(东京股票交易所);.HK—中国香港股权新闻(中国香港股票交易所);以及.L—英国股权新闻(伦敦股票交易所)。
在一个实例中,表1中的数据表示来自汤森路透历史统计数据库的数据,并且与以
下约束一起被用作全局过滤器:相关性分数>=0.3;无委托单不平衡(order imbalance)消
息;以及从2003年到2011结束的 Q3。
股权市场 | 交易所 | 新闻项目的数目 | 不同RIC的数目 | 具有>=400个新闻项目的RIC的数目 |
美国 | NYSE(.O)和纳斯达克(.N) | 6.13百万 | 7485 | 3425 |
英国 | 伦敦股票交易所(.O) | 3.67百万 | 1536 | 1192 |
中国香港 | 中国香港股票交易所(.HK) | .68百万 | 1236 | 554 |
日本 | 东京股票交易所(.T) | .76百万 | 2183 | 228 |
表1。
商品类别 | 新闻项目的数目 |
原油 | .74百万 |
贵金属 | .72百万 |
谷物 | .46百万 |
石油产品 | .41百万 |
表2。
探索性数据分析例如涉及新闻元数据,其可以包括:强度;新颖性;极性;以及极值。季节性的探索性数据分析可以专注于:每月季节性;每天季节性;和/或每小时季节性。机制的探索性数据分析可以包括:上对下机制;高对低波动性机制;以及市场情绪机制。
关于把新闻元数据与价格相关,所述系统可以专注于股权和商品。举例来说,考虑对于从2007年1月1日到2011年9月31日的数据的固定时间,系统可以考虑新属性和数据的构架/情境。新闻属性可以包括:相关性;新颖性;极值;以及主题、新闻来源/类型等等。数据的构架/情境可以包括:方向性;波动性;以及情绪。
表3表示对于来自四个市场美国、英国、日本和中国香港的四个股权集合的新响应
的示例性数据分布,其中数据时段是从2009年1月到2011年9月24日。针对美国的NYSE和纳
斯达克交易所收集的数据总共为涵盖市值从20万美元到4200亿美元的6038项股权的159万
新闻项目,并且包括:661000份文章(42%);752000份提示(47%);以及175000份附录(11%)。
国家或地区 | 交易所 | RIC后缀 | 独特股权RIC的数目 | 新闻项目的数目 | 市场代理 | 市场代理RIC |
美国 | NYSE、纳斯达克 | .N、.O | 7319 | 1.59百万 | S&P 500指数 | .SPX |
英国 | 伦敦股票交易所 | .L | 1459 | .693百万 | FTSE 100指数 | .FTSE |
日本 | 东京股票交易所 | .T | 2177 | .0707百万 | 日经指数 | .N225 |
中国香港 | 中国香港股票交易所 | .HK | 1236 | .199百万 | 恒生指数 | .HSI |
表3。
在该例中,可以从“一般性新闻响应”的角度来考虑与股权有关的数据,或者响应可以是可以经过过滤的股权响应。举例来说,可以通过国家或地区(例如美国、英国、日本或中国香港)对新闻响应进行过滤,或者通过RIC、市场代理、市场代理RIC或交易所对新闻响应进行过滤。
图12是表示围绕特定类型的新闻的残差的波动性的图表。所引发的数量的水平和效应的持续时间两者都重要。实例是针对美国东部时间上午11点到下午2点的时段,极值是处于前十分位数(即由点所表示的数据的前10%,在该点处10%的数据高于它并且90%的数据低于它)中的Pr(POS)(正概率)或Pr(NEG)(负概率)。图13是表示波动性和新闻的图表:具有逐年残差波动性的持久性2009-2011。2009具有高得多的波动性,但是由新闻引发的附加数量与2010和2011中一样强烈和持久。图14是表示高对低数量机制中围绕新闻的波动性的图表。VIX的水平表示针对芝加哥期权交易所波动性指数的股票代号, S&P 500指数期权的隐含波动性的度量。当VIX不高时,新闻引发更多波动性(相对的)。图15是表示上行对下行市场中的围绕新闻的波动性的图表,示出了来自新闻的增加的条件波动性。当市场为上行时,新闻引发更多波动性(尽管当市场极度上行或下行时,总体数量水平更高)。图16是通过市值表示围绕新闻的波动性的图表。通过市场资本总值表示残差的波动性。,新闻引发对于微市值(microcap)和中市值(midcap)的更多数量。图17是通过股票β表示围绕新闻的波动性的图表。通过股票β(前一年)表示残差的波动性。与针对高β股票的新闻相比,针对低β股票的新闻引发更多波动性。美国新闻波动性:关于给定股权的概要重述新闻通常引发一定程度的波动性,但是响应(波动性)在以下情况下被夸大:所述新闻是“提示”;VIX不高;市场为上行;股权是微市值到中市值(<30亿美元);以及所述股权具有低β。一种分析理论:从风险规避净长资产持有者的角度来看,新闻引发认知失调。该资产持有者越被哄骗(价格升高、低数量),对于新的信息就越震惊。
图18-22是表示围绕新闻响应的波动性的国际比较的图表。美国、英国:在以下情况下新闻引发更多波动性:当其使得民众震惊时;当市场正在改善时;当股票为低β时;以及当VIX较低时。日本:英语新闻与一定波动性相关联,但是看起来存在其他更早驱动因素。中国香港:英语新闻与减小的波动性相关联,这可能是因为本地语言的新闻首先到来。图23是表示美国股权新闻的图表:情绪和方向。对于新闻情绪的未经过滤的响应:强烈负面效应;微弱正面效应;以及对于大约2.5小时内的负面新闻将在短期赚取的20基点(BP)的累计异常回报率(CAR)。图24是表示新闻情绪响应持久性:2009-2011的图表。负面新闻在下行年份中具有强烈漂移。正面新闻在下行程度不高的年份中具有温和漂移。图25是表示新闻情绪响应和波动性机制的图表。当波动性高时存在强烈负面新闻效应。当波动性低时存在温和正面新闻效应。图26是表示新闻情绪响应和近期市场方向的图表。开盘时存在势头。在盘中时间(market hours)期间没有清晰的模式。图27是通过市场资本总值表示新闻情绪响应的图表。对于更大的企业,负面新闻的效应增大。针对这方面的一种解释是,对于更小的公司,归责到价格中的速度更慢。图28是通过β表示新闻情绪响应的图表。对于关于低β企业的正面新闻存在温和正漂移。对于关于高β企业的负面新闻存在更强的负漂移。
下面是交易/市场开盘时的新闻情绪的示例性回溯测试。隔夜之后,对具有(正面情绪)SENT_POS>0.5的报道的股票进行买进,并且对于具有(负面情绪)SENT_NEG>0.5的报道的股票进行抛出。利用前面的规则通过报道的数目进行加权,从而新闻可以“抵消”。假设在上午9:35的价格进入。持有2小时55分钟(或者直到市场关闭为止)。β对冲(从而我们可以仅将残差相加)—必须每分钟调节对冲。无交易“T”-成本夏普比率:3.79,年回报率20%。5BPT-成本夏普比率:2.07,年回报率7%。图29示出了交易/市场开盘时的新闻情绪的示例性回溯测试,其中无T-成本夏普比率:3.79,年回报率28%,并且5BP T-成本夏普比率2.07,年回报率15%。图30示出了涉及美国和英国的新闻情绪响应,其中观察到对负面和正面新闻(在盘中时间期间)的类似方向响应。
图31-38是与几种示例性情绪极值类型相关联的一系列图表和数据:图31—在交易期间;图32—新颖的新闻;图33—重复的新闻;图34—收益结果;图35—M&A合并和收购新闻;图36—信用评级新闻;图37—长新闻项目;以及图38—长而主观的新闻。示例性的数据集合被用作针对正、负方向两者的70、80、90和95百分比的选择区间的%分位数(百分位数)。针对所表示的每一个分位数示出了对应的累计异常回报率(CAR)数值和前瞻CAR数值。情绪极值对于美国新闻增大负漂移,并且对于英国新闻增大正漂移。可以引发认知失调的新闻元数据属性增大新闻情绪极值的漂移效应:新颖性;重要主题代码;以及报道复杂化(长度、长度+主观性)。与低频情况一样,对新闻和新闻元数据进行过滤允许从业者在信号的宽度与强度之间调节。
现在关于在商品的情境中使用NAS,表4表示针对“商品”票据的四个集合(CRU、MET、PROD和GRA)的新响应的示例性数据分布。在该例中,对于价格响应遵循四个响应集合。所述分析涉及从2007年5月8日到2010年结束(十五个金融季度)的高频分析,其中对数回报率被缩尾(Winsorized)到正或负3%。
表4。
图39是表示结合本发明的专注于提示的商品原油CRU的图表。图39是与CRU商品票据有关的新闻响应的图形表示,其基于表5中示出的数据示出了分别与“全部”、“提示”和“文章”新闻项目相关联的三个响应集合。每一个集合包括图形表示在涉及CRU的三个集合当中的每一个集合上的“正面事件”信号和“负面事件”信号。该例专注于“提示”,并且如表5的数据中所示,与存在的“全部”和“文章”相关事件相比,存在的“提示”相关事件(正面和负面)要少得多。
表5。
图40是表示结合本发明的商品原油新势头和价格势头的图表。图40是与CRU商品票据有关的新闻响应的图形表示,其基于表6中示出的数据示出了分别与“关联计数5<=1”、“关联计数5>1”和“关联计数5>=5”新闻项目相关联的三个响应集合。[需要解释“关联计数5”指的是什么]每一个集合包括图形表示在涉及CRU商品票据的三个集合当中的每一个集合上的“正面事件”信号和“负面事件”信号。该例专注于新闻势头和价格势头。如表6的数据中和此类数据的对应的图形表示中所示,当“关联计数5<=1”时,在前50分钟时段(即-50到0分钟)内的正面和负面事件的数目处在一个紧凑范围内,并且这一属性在时间0开始到180分钟的时间内(三个小时)持续。当“关联计数5>1”时,在前50分钟时段(即-50到0分钟)内的正面和负面事件的数目示出发散趋势,并且这一趋势在时间0开始到180分钟的时间内(三个小时)不仅持续而且还增大。当“关联计数5>=5”时,在前50分钟时段(即-50到0分钟)内的正面和负面事件的数目示出剧烈发散趋势(甚至大于关联计数5>1),并且这一趋势在时间0开始到180分钟的时间内(三个小时)不仅持续而且还增大。
图41是表示结合本发明的关于情绪极值的商品原油调节回报率的图表。表7表示
表7。
表8表示结合本发明的关于价格势头和情绪极值的商品原油调节回报率;
表8。
表9表示结合本发明并且在市场/交易开盘时示出文章材料的商品原油;
表9。
虽然图39-41和表7-9涉及关于商品CRU的响应曲线数据和分析,但是关于包括MET、PROD和GRA的其他商品也发现类似的结果。图42是表示日内原油商品策略的回溯测试的图表。基于新闻情绪进行买进/抛出切换。当Pr(POS)>=0.5时是买进1倍合约(contract)。当关联计数5>1时是四倍合约。当关联计数5>=5时是另外的四倍合约。当Pr(NEG)>=0.7时抛出。当前一小时回报率<-5bps时是四倍。当Pr(NEG)>=0.8时是四倍。年化夏普比率是1.97。
表10涉及谷物数据集合并且涉及关于情绪极值的调节回报率,即情绪极值影响对于负面而非正面新闻的前瞻CAR。
表11涉及原油数据集合并且涉及关于价格势头和情绪极值的调节回报率,即对前一小时的|5bps|过滤放大对于负面新闻的响应,使得负面新闻响应加倍。
表12示出了对于四种商品—原油、金属(贵金属)、石油产品(轻油)和谷物应用前面讨论的技术而得到的结果的复合。该图表表示从市场对于各种新闻/情绪类型和状况的反应得出的关键响应特性。举例来说,对于原油,在高频下,决策专注于提示。考虑重复的正面新闻,并且在新闻为负面且极端或者之前有价格变动时增加交易承诺(tradecommitment)。
表12。
利用与前面用于CRU商品实例的相同设置(除了当EDA建议时允许正面新闻势头)进行附加的回溯测试。其结果是对于CRU有2.10的夏普数值;对于工业金属IND有1.39的夏普数值;对于谷物(GRA)有1.06的夏普数值;对于燃料油(PROD)有0.87的夏普数值;对于轻油(PROD)有0.25的夏普数值;并且对于贵金属(MET)有-0.76的夏普数值。
下面将描述如何可以在关于NAS的总体架构的示例性预告框架中来实施本发明。NAS可以采用受监督的学习器,其被离线训练并且实时地运行。对于每一个新的新闻项目,预测:后续异常回报率;对数(数量);以及对数(所实现的波动性)。使用“特征”来进行这些预告。特征是对民众如何看待、处理以及响应新闻的编码表示和分析法。参见图44-46以及后面的有关描述。NAS架构可以使用滚动窗口再训练,即每一个时段或者周期性地训练预测性模型族,以便用在下一个或后续的(一个或多个)时段中。
关于特征工程,NAS可以采用以下各项:新闻类型差别化(例如新闻项目是文章还是提示);新闻主题差别化(例如新闻项目是否与重要主题代码(AAA、MRG、DIV、CORPD、RES、RESF、RSCH)相关联);新闻风格差别化(例如新闻是否最新信息经纪人升级还是降级摘要);新闻来源差别化(例如新闻来自路透社美通社(PR NewsWire)其他来源);新闻相关性(例如新闻是否与处于30%水平的RIC相关60%);新闻情绪极值(例如Pr(POS)>=50%75Pr(NEG)如何50%75%);新闻新颖性(例如新闻在最近一天、最近两天、最近一周的新颖程度如何);构架或机制(例如前一天的(情绪、回报率、波动性)是低还是高)。
图43是表示从2003年到2011年针对美国股权的每个月的平均新闻项目数目的图表。该图表结合本发明图示了关于涉及各种股权的新闻数量的差异以及稀疏度和密度的概念。当对于一些RIC总是有相对大量的新闻并且对于其他RIC的新闻数量相对较少时存在差异。关于此事,本发明可以基于相对数量合并差别化。“冲击”被视为潜在的显著事件,并且表示关于企业/公司业绩或价格的预期或评估的改变,以及关于该公司的投资者情绪的相应改变。冲击可以是一篇或更多篇新闻报道的顶点,或者也可以包括实际的事件。虽然本发明主要针对更加有效地分析新闻报道对于股票的效应的方法以及开发预测性模型以便预测这样的新闻报道的效应,但是本发明也可以考虑实际事件(尽管例如自然灾害之类的显著事件常常对于股票价格具有直接且即时的影响)。冲击还可以是例如供应问题之类的状况改变。这样的冲击的实例是日本最近的与海啸有关的灾害,其导致延长的制造业关闭的时段,影响了许多不仅在日本国内而且还在其他地方运营的公司(依赖于从日本供应部件的公司)。在一个示例性实施例中,在计算冲击时,在以下方面进行计算:过去的时间单位;以及过去的新闻项目的数目。
参照图44-46,NAS中的特征构造和实施方式可以涉及以下考虑:在流中消费新闻元数据;过滤每个证券,基于针对具有许多新闻的RIC的经过过滤的新闻事件的定时FIFO以及针对具有很少新闻的RIC的经过过滤的新闻事件的项目FIFO进行累积。每当有新闻条目时,对于每一个FIFO相对于“大于”其的那些发出:小时间窗口内的FIFO中的项目数目与更大时间窗口的比率;以及针对表现出该特征的给定RIC的项目数目的百分数。
参照图44,对于情绪的“冲击”驱动高于总体水平的错误定价和波动性(认知失调和构架)。取代专注于针对情绪的缓慢变动改变或者随着时间的情绪的平均变动(或者甚至滚动平均),本发明更加有力地把冲击性事件的响应相关性考虑或作为因数计入到预测性模型中。通过这种方式,本发明分析事件(新闻和情绪)的导数或比率,从而以更具响应性的方式驱动预测。在实现这一目标的一种方式中,NAS考虑过去的小窗口内的各种新闻元数据相对于过去的新闻项目的更大窗口的导数或比率。一种策略是分层方法,其中:对于每一个新的新闻项目,对于每一种特征类型,对于近来过去的每一对窗口:形成小窗口中的项目数目与大窗口的比率。在图44的实例中,小窗口包括一个早前新闻项目和一个新的新闻项目,其可以由数值2表示,并且大窗口包括所述小窗口项目加上三个附加的早前新闻项目得到数值5。在该例中,所述特征由比率2/5表示,也就是说分子中的小窗口数值与分母中的大窗口数值。
在另一个实例中,本发明使用情绪引擎,并且随后应用情绪的导数来如下面那样预测证券价格的波动性和/或趋势方向。假设情绪引擎摄取(阅读)新闻报道,标识与公司A有关的新闻报道,并且随后如下面那样对新闻报道进行评分:+1对应于正面报道;0对应于中性(例如仅仅提及)新闻报道;以及-1对应于负面新闻报道。新闻报道或内容的类型可以包括:与信用有关;合并和收购;交易;分红;预告;研究和开发;以及FDA活动。NAS将考虑与一公司相关联的最近100个新闻项目的情绪数值,举例来说,75个有利的项目(数值为75)与25个中性项目(数值为0),其中最近的10篇报道全部是中性的。NAS可以指定0.75的情绪分数(75分/100篇新闻报道)。对于后续(现在最近)的十篇报道的集合,假设其全部是负面的,从而具有负十分的分数。NAS随后指定0.65的情绪分数(65分(75篇正面、十篇中性和十篇负面)除以100篇新闻报道)。虽然情绪分数保持为正(+0.65),但是最近十篇报道全都是负面的这一事实可能表明远离正面情绪的更加强烈的变动,并且潜在地与股票价格的预测性变动(下行)更相关。通过查看最近的10篇报道并且因为更相关而对其进行更大加权,NAS可以使用情绪或其他连贯过程的导数(例如比率),以便预测股票价格行为(短期或更长期)。通过这种方式,本发明与现有系统相比专注于在短得多的时间框架内发生的事件或者为之给出更高重要性从而对交易员(包括算法交易员、当日交易员、任何投资者)有利。
取代查看固定数目的最近报道,NAS可以被配置成查看特定时间段(例如最近一小时)内的最近报道。NAS还可以查看新闻报道的内容和情境,并且根据预定分类法对其进行加权。所述加权可以把以下各项作为因数:近期性、关键性、重复性、可信度等等。举例来说,NAS可以被调谐成快速标识和处理报道(比如突破性药物的FDA许可),并且将其与给定先前此类事件的预期响应(短期、长期等等)的数据库进行比较,并且随后预测价格以及向订购所述服务或处理NAS系统的交易员/投资者建议行动路线。而且,NAS可以被配置成预告给定股票价格的此类事件以及公报之前的新闻,从而预测即将发生的新闻报道或显著发布。
图45是表示建立在前面参照图43描述的特征构造和实施技术上的特征引擎校准过程的示意图。在该例中,利用与三家公开交易的公司/股票—IBM、微软和Oracle相关联的数据来校准特征引擎。在该“训练”时段中,特征引擎产生数据(历史当前的数据)以校准金融股票行为预测性模型的,并且做出关于波动性、数量和异常回报率或累计异常回报率(CAR)的观察。
图46是表示在图45的校准过程之后并且在图43的特征构造和实施过程之后处于现场运行模式下的特征引擎的示意图。在该例中,利用特征并且利用现场数据来运行经过校准的特征引擎模型,以便关于三家公开交易的公司/股票—IBM、微软和Oracle的预期价格变动做出预测。在该“训练”时段中,特征引擎产生用以校准金融股票行为预测性模型的数据(历史当前数据),并且关于波动性、数量和异常回报率或累计异常回报率(CAR)做出观察。
关于对预测性模型进行建模,存在大约400个独立变量。可以使用以下各项当中的一项或更多项:普通最小二乘法(OLS),一般化最小二乘法(GLS),鲁棒回归,最小绝对偏差回归,分位数回归,支持向量机(SVM),集成方法,以及其他可用选项。在一个实施例中,使用主分量分析来把近似400项特征减少到大约30项,从而捕获大约25%的方差。此外,OLS被用来根据近似30个经过变换的变量进行预告。这些设计选择不限于本发明,并且可以使用许多方法来验证特征以及示出新闻元数据可以通知短期未来价格变动和波动性。
一项考虑是信号衰减和聚集,即新闻归责到价格中的速度有多快。NAS可以被用来示出在某些情况下,在可预测的时间量(例如大约90分钟)上发生指数衰减。NAS可以应用历史数据来确定信号衰减对于盘后时间(off-hours)以及在交易时间期间如何不同地发生。预测性机会窗口的结束是当价格已经完全“变动”以计及新的信息时。NAS可以被用来将针对各项个体证券的信号“卷起(roll up)”到针对一揽子证券的(一个或多个)信号中。例如可以使用加权平均,“首页”效应可以be作为因数计入,并且NAS可以直接对所述一揽子证券应用预告引擎。NAS使用例如对于2009年1月1日到2010年7月30日之间的训练时段内的盘中时间期间在美国(S&P 1500)股权RIC上(其中在1663个独特RIC上取得了122578个样本)训练的美国股权引擎。
图47到49表示预告的视觉化。举例来说,图47指示向下延伸的“预告”,其中具有6美元的股票价格向下变动连同下方的投影波动性表示。极端负面新闻情绪在该图中被指示为穿过图表上所示出的“极端阈值水平”的数据。图48示出了数量和波动性的“市场起火”视觉化。示出了DOW30上的具有数量和波动性分量的“机器学习预告”。图49表示具有“正面新闻情绪”、“负面新闻情绪”、“高投射波动性”和“低投射波动性”的本发明的视觉化。
在实施过程中,可以自动地或者半自动地(即在某种程度的人类干预情况下)施行本发明的概念。此外,本发明不受这里所描述的具体实施例的范围的限制。完全设想到的是,根据前面的描述和附图,除了这里所描述的那些之外的本发明的其他各种实施例及其修改对于本领域普通技术人员来说将变得显而易见。因此,这样的其他实施例和修改意图落在所附权利要求书的范围内。此外,虽然这里在特定实施例和实施方式和应用的情境中并且在特定环境中描述了本发明,但是本领域普通技术人员将认识到,其有用性不限于此,并且可以出于许多目的有益地通过任意数量的方式并且在任意数量的环境中应用本发明。因此,应当按照这里所公开的本发明的完全范围和精神来解释后面阐述的权利要求。
Claims (26)
1.一种具有可执行代码集合的非临时性计算机可用介质,包括:
第一计算机程序代码集合,被适配成由计算机的文档处理模块从数据库的集合接收包括第一新闻报道的电子新闻内容;
第二计算机程序代码集合,被适配成由计算机的文档处理模块处理第一新闻报道以便标识关于第一家公司的信息;
第三计算机程序代码集合,被适配成由计算机的情绪评分模块应用情绪分析并且当第一新闻报道涉及第一家公司时得到与第一新闻报道相关联的第一情绪分数;
第四计算机程序代码集合,被适配成由计算机的情绪评分模块接近实时地确定与第一家公司有关的导数情绪数值,其中导数情绪数值作为函数表示第一情绪分数与先前情绪分数相比随时间的数值改变,第一情绪分数在时间上接近第一新闻报道的公开而被确定并且被给予比所述先前情绪分数更大的权重,所述先前情绪分数表示与第一家公司有关的并且在第一情绪分数之前在从第一新闻报道公开开始时间上向回延伸的时间段上确定的在前情绪分数的集合;
第五计算机程序代码集合,被适配成由特征引擎确定特征集合,所述特征引擎应用机器学习来训练预测性模型,所述特征引擎基于历史情绪数据自动生成特征集合,其中由所述特征引擎通过分析历史存在数据的集合来校准所述特征集合,并且其中在滚动窗口再训练时段中,所述历史存在数据与仿真训练时段中的训练数据的集合进行比较并用于补充仿真训练时段中的训练数据的集合以提高在现场运行时段中所述特征引擎的准确性并且训练可由所述预测性模块访问和执行的预测性模型的集合;
第六计算机程序代码集合,被适配成通过计算机的预测性模块的操作来提供使用所述导数情绪数值和第一情绪分数执行来自预测性模型的集合的预测性模型以得到与第一家公司相关联的预测的价格行为,所述预测性模块已被所述特征引擎使用机器学习训练,并且其中所述特征集合用于更准确地得到预测的价格行为;以及
第七计算机程序代码集合,被适配成在图形用户界面中由计算机的预测性模块至少部分地基于预测的行为生成与预测的行为有关的视觉指标,所述图形用户界面由集成框架模块与所述文档处理模块、情绪评分模块和预测性模块集成在一起。
2.根据权利要求1所述的计算机可用介质,其中,所述第一情绪分数至少部分地是基于新闻报道的类型,其中所述类型是来自由以下各项构成的组当中的一种:提示、文章、最新信息、更正和标题。
3.根据权利要求1所述的计算机可用介质,其中,第二计算机程序代码集合被适配成处理第一新闻报道以便标识所嵌入的元数据或其他描述符、过程文本、文字、短语和对于第一家公司的属性相关性。
4.根据权利要求1所述的计算机可用介质,其中,第二计算机程序代码集合被适配成处理第一新闻报道以便标识关于能与第一家公司区分开的第二家公司的信息;
第三计算机程序代码集合被适配成应用情绪分析并且当第一新闻报道涉及第二家公司时得到与第一新闻报道相关联的第二情绪分数;以及
第四计算机程序代码集合被适配成确定与第二家公司有关的第二导数情绪数值。
5.根据权利要求1所述的计算机可用介质,其还包括:第八计算机程序代码集合,被适配成生成预测的行为的表达,所述表达包括交易数量、价格方向和价格波动性的至少其中之一。
6.根据权利要求1所述的计算机可用介质,其还包括:第九计算机程序代码集合,被适配成根据预测的行为生成要采取的建议行动。
7.根据权利要求6所述的计算机可读介质,其中,所述建议行动与涉及投资的交易决策有关,并且是由买入、卖出或持有构成的组当中的一项。
8.根据权利要求1所述的计算机可读介质,其中,第四计算机程序代码集合被适配成:通过把与涉及第一家公司的第一新闻报道集合相关联的情绪数值和与涉及第一家公司的第二新闻报道集合相关联的情绪数值进行比较,来确定与第一家公司有关的导数情绪数值。
9.根据权利要求8所述的计算机可读介质,其中,第二新闻报道集合包括比包括在第一新闻报道集合当中的更少的新闻报道,并且第二新闻报道集合是基于时间数值而选择的。
10.一种用于预测价格行为的计算机实施的方法,所述方法包括:
由计算机的文档处理模块从数据库的集合接收包括第一新闻报道的新闻内容;
由计算机的文档处理模块处理第一新闻报道并且标识关于第一家公司的信息;
使用情绪分析,由计算机的情绪评分模块确定当第一新闻报道涉及第一家公司时的与第一新闻报道相关联的第一情绪分数;以及
由计算机的情绪评分模块接近实时地确定与第一家公司有关的导数情绪数值,其中导数情绪数值作为函数表示第一情绪分数与先前情绪分数相比随时间的数值改变,第一情绪分数在时间上接近第一新闻报道的公开而被确定并且被给予比所述先前情绪分数更大的权重,所述先前情绪分数表示与第一家公司有关的并且在第一情绪分数之前在从第一新闻报道公开开始时间上向回延伸的时间段上确定的在前情绪分数的集合;
由特征引擎确定特征集合,所述特征引擎应用机器学习来训练预测性模型,所述特征引擎基于历史情绪数据自动生成特征集合,其中由所述特征引擎通过分析历史存在数据的集合来校准所述特征集合,并且其中在滚动窗口再训练时段中,所述历史存在数据与仿真训练时段中的训练数据的集合进行比较并用于补充仿真训练时段中的训练数据的集合以提高在现场运行时段中所述特征引擎的准确性并且训练可由所述预测性模块访问和执行的预测性模型的集合;
通过计算机的预测性模块的操作来提供使用所述导数情绪数值和第一情绪分数执行来自预测性模型的集合的预测性模型以得到与第一家公司相关联的预测的价格行为,所述预测性模块已被所述特征引擎使用机器学习训练,并且其中所述特征集合用于更准确地得到预测的价格行为;以及
在图形用户界面中由计算机的预测性模块至少部分地基于预测的行为生成与预测的行为有关的视觉指标,所述图形用户界面由集成框架模块与所述文档处理模块、情绪评分模块和预测性模块集成在一起。
11.根据权利要求10所述的方法,其中,所述第一情绪分数至少部分地是基于新闻报道的类型,其中所述类型是来自由以下各项构成的组当中的一种:提示、文章、最新信息、更正和标题。
12.根据权利要求10所述的方法,还包括:处理第一新闻报道以便标识所嵌入的元数据或其他描述符、过程文本、文字、短语和对于第一家公司的属性相关性。
13.根据权利要求10所述的方法,还包括:处理第一新闻报道以便标识关于能与第一家公司区分开的第二家公司的信息;
使用情绪分析来确定当第一新闻报道涉及第二家公司时的与第一新闻报道相关联的第二情绪分数;以及
确定与第二家公司有关的第二导数情绪数值。
14.根据权利要求10所述的方法,还包括:生成预测的行为的表达,所述表达包括交易数量、价格方向和价格波动性的至少其中之一。
15.根据权利要求10所述的方法,还包括:根据预测的行为生成要采取的建议行动。
16.根据权利要求15所述的方法,其中,所述建议行动与涉及投资的交易决策有关,并且是由买入、卖出或持有构成的组当中的一项。
17.根据权利要求10所述的方法,还包括:通过把与涉及第一家公司的第一新闻报道集合相关联的情绪数值和与涉及第一家公司的第二新闻报道集合相关联的情绪数值进行比较,来确定与第一家公司有关的导数情绪数值。
18.根据权利要求17所述的方法,其中,第二新闻报道集合包括比包括在第一新闻报道集合当中的更少的新闻报道,并且第二新闻报道集合是基于时间数值而选择的。
19.一种用于预测价格行为的基于计算机的系统,所述系统包括:
被适配成执行代码的处理器;
用于存储可执行代码的存储器;
被适配成由文档处理模块从数据库的集合接收包括第一新闻报道的新闻内容的输入;以及
代码集合,存储在存储器中并且能够由处理器执行以进行以下操作:
由文档处理模块处理第一新闻报道以便标识关于第一家公司的信息;
应用情绪分析以便确定当第一新闻报道涉及第一家公司时的与第一新闻报道相关联的第一情绪分数;
由情绪评分模块接近实时地确定与第一家公司有关的导数情绪数值,其中导数情绪数值作为函数表示第一情绪分数与先前情绪分数相比随时间的数值改变,第一情绪分数在时间上接近第一新闻报道的公开而被确定并且被给予比所述先前情绪分数更大的权重,所述先前情绪分数表示与第一家公司有关的并且在第一情绪分数之前在从第一新闻报道公开开始时间上向回延伸的时间段上确定的在前情绪分数的集合;
由特征引擎确定特征集合,所述特征引擎应用机器学习来训练预测性模型,所述特征引擎基于历史情绪数据自动生成特征集合,其中由所述特征引擎通过分析历史存在数据的集合来校准所述特征集合,并且其中在滚动窗口再训练时段中,所述历史存在数据与仿真训练时段中的训练数据的集合进行比较并用于补充仿真训练时段中的训练数据的集合以提高在现场运行时段中所述特征引擎的准确性并且训练可由所述预测性模块访问和执行的预测性模型的集合;
通过预测性模块的操作来确定与第一家公司相关联的预测性价格行为,所述预测性价格行为至少部分地基于导数情绪数值和情绪得分,所述预测性模型已被所述特征引擎使用机器学习训练,并且其中所述特征集合用于更准确地得到预测的价格行为;以及
在图形用户界面中由预测性模块至少部分地基于预测的行为生成与预测的行为有关的视觉指标,所述图形用户界面由集成框架模块与所述文档处理模块、情绪评分模块和预测性模块集成在一起。
20.根据权利要求19所述的系统,还包括:由处理器执行的特征引擎,用于使用历史新闻数据和历史股票价格数据来训练所述预测性模块。
21.根据权利要求20所述的系统,其中,所述预测性模块包括被适配成实施以下操作的代码:处理第一新闻报道以便标识所嵌入的元数据或其他描述符、过程文本、文字、短语和对于第一家公司的属性相关性。
22.根据权利要求19所述的系统,其中,所述预测性模块包括被适配成实施以下操作的代码:处理第一新闻报道以便标识关于能够与第一家公司区分开的第二家公司的信息;应用情绪分析以便确定当第一新闻报道涉及第二家公司时的与第一新闻报道相关联的第二情绪分数;以及确定与第二家公司有关的第二导数情绪数值。
23.根据权利要求19所述的系统,其中,所述预测性模块包括被适配成实施以下操作的代码:生成预测的行为的表达,所述表达包括交易数量、价格方向和价格波动性的至少其中之一。
24.根据权利要求1所述的系统,其中,对第一情绪分数应用加权以使得第一情绪分数与所述先前情绪分数相比对于所述导数情绪数值具有按比例更大的效应。
25.根据权利要求10所述的方法,其中,对第一情绪分数应用加权以使得第一情绪分数与所述先前情绪分数相比对于所述导数情绪数值具有按比例更大的效应。
26.根据权利要求19所述的系统,其中,对第一情绪分数应用加权以使得第一情绪分数与所述先前情绪分数相比对于所述导数情绪数值具有按比例更大的效应。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/308,496 US11257161B2 (en) | 2011-11-30 | 2011-11-30 | Methods and systems for predicting market behavior based on news and sentiment analysis |
US13/308496 | 2011-11-30 | ||
CN201280068507.XA CN104115178A (zh) | 2011-11-30 | 2012-11-30 | 基于新闻和情绪分析来预测市场行为的方法和系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280068507.XA Division CN104115178A (zh) | 2011-11-30 | 2012-11-30 | 基于新闻和情绪分析来预测市场行为的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113706185A true CN113706185A (zh) | 2021-11-26 |
Family
ID=48467718
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011110173.0A Pending CN113706185A (zh) | 2011-11-30 | 2012-11-30 | 基于新闻和情绪分析来预测市场行为的方法和系统 |
CN201280068507.XA Pending CN104115178A (zh) | 2011-11-30 | 2012-11-30 | 基于新闻和情绪分析来预测市场行为的方法和系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280068507.XA Pending CN104115178A (zh) | 2011-11-30 | 2012-11-30 | 基于新闻和情绪分析来预测市场行为的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11257161B2 (zh) |
EP (1) | EP2786335A4 (zh) |
CN (2) | CN113706185A (zh) |
WO (1) | WO2013082527A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982229A (zh) * | 2022-12-08 | 2023-04-18 | 中信建投证券股份有限公司 | 一种证券处理方法、装置、电子设备及存储介质 |
Families Citing this family (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130030975A1 (en) * | 2011-05-31 | 2013-01-31 | Helweg Mark W | Systems & methods for evaluation of articles of commerce |
US20170004521A1 (en) * | 2011-07-25 | 2017-01-05 | Prevedere, Inc | Systems and methods for generating industry outlook scores |
US20130185223A1 (en) * | 2012-01-13 | 2013-07-18 | Diogenes Duzoglou | Multi-level automated hedging process with news evaluation tool |
US8781906B2 (en) * | 2012-02-06 | 2014-07-15 | Walter Cruttenden | Systems and methods for managing consumer transaction-based investments |
US10937097B1 (en) | 2012-02-06 | 2021-03-02 | Acorns Grow Incorporated | Systems and methods for creating excess funds from retail transactions and apportioning those funds into investments |
US9495708B2 (en) | 2012-06-11 | 2016-11-15 | Acorns Grow Incorporated | Systems and methods for managing electronic interactive gaming-based investments |
US8793258B2 (en) * | 2012-07-31 | 2014-07-29 | Hewlett-Packard Development Company, L.P. | Predicting sharing on a social network |
US9460401B2 (en) | 2012-08-20 | 2016-10-04 | InsideSales.com, Inc. | Using machine learning to predict behavior based on local conditions |
US9852239B2 (en) * | 2012-09-24 | 2017-12-26 | Adobe Systems Incorporated | Method and apparatus for prediction of community reaction to a post |
US20140107925A1 (en) * | 2012-10-11 | 2014-04-17 | Flyberry Capital LLC | Systems and methods for tracking a set of experiments |
US9678949B2 (en) * | 2012-12-16 | 2017-06-13 | Cloud 9 Llc | Vital text analytics system for the enhancement of requirements engineering documents and other documents |
USD928190S1 (en) | 2013-03-14 | 2021-08-17 | Acorns Grow Incorporated | Mobile device screen or portion thereof with an animated graphical user interface |
US11176614B1 (en) | 2013-03-14 | 2021-11-16 | Acorns Grow Incorporated | Systems and methods for creating excess funds from retail transactions and apportioning those funds into investments |
USD927509S1 (en) | 2013-03-14 | 2021-08-10 | Acorns Grow Incorporated | Mobile device screen or portion thereof with graphical user interface |
USD972577S1 (en) | 2013-03-14 | 2022-12-13 | Acorns Grow Inc. | Mobile device screen with a graphical user interface |
USD969818S1 (en) | 2013-03-14 | 2022-11-15 | Acorns Grow Inc. | Mobile device screen with graphical user interface |
US9047616B2 (en) | 2013-05-31 | 2015-06-02 | Automotivemastermind, Llc | Method of generating a prioritized listing of customers using a purchase behavior prediction score |
US9563847B2 (en) | 2013-06-05 | 2017-02-07 | MultiModel Research, LLC | Apparatus and method for building and using inference engines based on representations of data that preserve relationships between objects |
US10366455B2 (en) | 2014-01-13 | 2019-07-30 | Scottrade, Inc. | Systems and methods for managing portfolio-relevant news content |
SG11201607320TA (en) * | 2014-03-07 | 2016-10-28 | Capitalogix Llc | Systems and methods for allocating capital to trading strategies for big data trading in financial markets |
CN104951982A (zh) * | 2014-03-28 | 2015-09-30 | 株式会社日立制作所 | 风险规避系统 |
US9070088B1 (en) | 2014-09-16 | 2015-06-30 | Trooly Inc. | Determining trustworthiness and compatibility of a person |
US10552746B2 (en) * | 2014-09-25 | 2020-02-04 | International Business Machines Corporation | Identification of time lagged indicators for events with a window period |
US10592841B2 (en) * | 2014-10-10 | 2020-03-17 | Salesforce.Com, Inc. | Automatic clustering by topic and prioritizing online feed items |
US9984166B2 (en) | 2014-10-10 | 2018-05-29 | Salesforce.Com, Inc. | Systems and methods of de-duplicating similar news feed items |
USD785640S1 (en) | 2015-02-11 | 2017-05-02 | Acorns Grow Inc. | Mobile device screen or portion thereof with a graphical user interface |
US20160260108A1 (en) * | 2015-03-05 | 2016-09-08 | David Brian Bracewell | Occasion-based consumer analytics |
US10325212B1 (en) | 2015-03-24 | 2019-06-18 | InsideView Technologies, Inc. | Predictive intelligent softbots on the cloud |
US10740292B2 (en) * | 2015-05-18 | 2020-08-11 | Interactive Data Pricing And Reference Data Llc | Data conversion and distribution systems |
USD792890S1 (en) | 2015-05-22 | 2017-07-25 | Acorns Grow Incorporated | Display screen or portion therof with a financial data graphical user interface |
US10387800B2 (en) * | 2015-06-29 | 2019-08-20 | Wepay, Inc. | System and methods for generating reason codes for ensemble computer models |
US10445343B2 (en) * | 2015-07-16 | 2019-10-15 | Interactive Data Pricing And Reference Data Llc | Systems and methods for data exchange and conversion |
US20170109015A1 (en) * | 2015-10-14 | 2017-04-20 | Microsoft Technology Licensing, Llc | Contextual athlete performance assessment |
US10025980B2 (en) | 2015-12-29 | 2018-07-17 | International Business Machines Corporation | Assisting people with understanding charts |
CN105786962A (zh) * | 2016-01-15 | 2016-07-20 | 优品财富管理有限公司 | 基于新闻传播力的大数据指数分析方法及系统 |
CN107015976B (zh) * | 2016-01-27 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 业务处理方法、数据处理方法及装置 |
US11526944B1 (en) * | 2016-06-08 | 2022-12-13 | Wells Fargo Bank, N.A. | Goal recommendation tool with crowd sourcing input |
US10423800B2 (en) | 2016-07-01 | 2019-09-24 | Capitalogix Ip Owner, Llc | Secure intelligent networked architecture, processing and execution |
CN106897346A (zh) * | 2016-08-04 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 数据处理的方法及装置 |
US10387679B2 (en) | 2017-01-06 | 2019-08-20 | Capitalogix Ip Owner, Llc | Secure intelligent networked architecture with dynamic feedback |
CA3050005A1 (en) * | 2017-01-13 | 2018-07-19 | TruValue Labs, Inc. | Methods of assessing long-term indicators of sentiment |
CN106897932A (zh) * | 2017-01-19 | 2017-06-27 | 沃民高新科技(北京)股份有限公司 | 数据置换方法及装置 |
US11263523B1 (en) | 2017-01-27 | 2022-03-01 | Manzama, Inc. | System and method for organizational health analysis |
WO2018162945A1 (en) * | 2017-03-05 | 2018-09-13 | Sanyal Aniket | Investment analysis using event detection on alternative data |
US11030674B2 (en) | 2017-04-14 | 2021-06-08 | International Business Machines Corporation | Cognitive order processing by predicting resalable returns |
US10726252B2 (en) | 2017-05-17 | 2020-07-28 | Tab2Ex Llc | Method of digitizing and extracting meaning from graphic objects |
US20180349921A1 (en) * | 2017-06-05 | 2018-12-06 | Richard Davidian | Method to Predict the Near-term Direction of Volatility |
US11232363B2 (en) | 2017-08-29 | 2022-01-25 | Jacov Jackie Baloul | System and method of providing news analysis using artificial intelligence |
US20190073413A1 (en) * | 2017-09-01 | 2019-03-07 | Andrew Gun-Young Kim | System and Method for Producing a Media Sentiment Based Index and Portfolio of Securities |
US11238535B1 (en) | 2017-09-14 | 2022-02-01 | Wells Fargo Bank, N.A. | Stock trading platform with social network sentiment |
AU2018236707A1 (en) | 2017-09-22 | 2019-04-11 | Accenture Global Solutions Limited | Virtual artificial intelligence based consultant |
TWI643076B (zh) * | 2017-10-13 | 2018-12-01 | Yuan Ze University | 金融非結構化文本分析系統及其方法 |
US20220253509A1 (en) * | 2017-10-16 | 2022-08-11 | Wells Fargo Bank, N.A. | Network-based customized browsing notifications |
US20200250749A1 (en) * | 2017-10-24 | 2020-08-06 | Hironobu Katoh | Business performance forecast management system and method |
CN107766299B (zh) * | 2017-10-24 | 2021-05-18 | 携程旅游信息技术(上海)有限公司 | 数据指标异常的监控方法及其系统、存储介质、电子设备 |
CN107945034A (zh) * | 2017-11-17 | 2018-04-20 | 平安科技(深圳)有限公司 | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 |
US10360631B1 (en) | 2018-02-14 | 2019-07-23 | Capital One Services, Llc | Utilizing artificial intelligence to make a prediction about an entity based on user sentiment and transaction history |
US10991044B2 (en) * | 2018-03-30 | 2021-04-27 | Hironobu Katoh | Stock price forecast assist system and method |
CN110348653B (zh) | 2018-04-04 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 一种业务数据处理方法、装置及电子设备 |
CN110390408B (zh) * | 2018-04-16 | 2024-03-05 | 北京京东尚科信息技术有限公司 | 交易对象预测方法和装置 |
US11361244B2 (en) | 2018-06-08 | 2022-06-14 | Microsoft Technology Licensing, Llc | Time-factored performance prediction |
CA3046475A1 (en) * | 2018-06-13 | 2019-12-13 | Royal Bank Of Canada | System and method for processing natural language statements |
CN108694476A (zh) * | 2018-06-29 | 2018-10-23 | 山东财经大学 | 一种结合财经新闻的卷积神经网络股票价格波动预测方法 |
USD928799S1 (en) | 2018-07-19 | 2021-08-24 | Acorns Grow Incorporated | Mobile device screen or portion thereof with graphical user interface |
CN109117994B (zh) * | 2018-07-27 | 2020-04-14 | 阿里巴巴集团控股有限公司 | 事件预测方法及装置、电子设备 |
US11593385B2 (en) | 2018-11-21 | 2023-02-28 | International Business Machines Corporation | Contextual interestingness ranking of documents for due diligence in the banking industry with entity grouping |
KR102168198B1 (ko) * | 2018-12-12 | 2020-10-20 | 지속가능발전소 주식회사 | 기업 부도 예측 시스템 및 이의 동작 방법 |
US11062093B2 (en) * | 2019-02-18 | 2021-07-13 | TSG Technologies, LLC | System and method for generating subjective wellbeing analytics score |
US11567655B2 (en) | 2019-02-21 | 2023-01-31 | Acorns Grow Incorporated | Secure signature creation on a secondary device |
US11461847B2 (en) * | 2019-03-21 | 2022-10-04 | The University Of Chicago | Applying a trained model to predict a future value using contextualized sentiment data |
US11908007B2 (en) * | 2019-08-19 | 2024-02-20 | OptionsAI, LLC | Systems and methods for dynamically visualizing potential trade outcomes based on real-time options price data |
CN110517150B (zh) * | 2019-08-29 | 2023-05-12 | 中国银行股份有限公司 | 金融市场产品交易报告的生成方法及装置 |
US11573995B2 (en) * | 2019-09-10 | 2023-02-07 | International Business Machines Corporation | Analyzing the tone of textual data |
CN110991218B (zh) * | 2019-10-10 | 2024-01-12 | 北京邮电大学 | 一种基于图像的网络舆情预警系统和方法 |
US20220198345A1 (en) | 2019-11-21 | 2022-06-23 | Rockspoon, Inc. | System and method for real-time geo-physical social group matching and generation |
USD927521S1 (en) | 2019-12-09 | 2021-08-10 | Acorns Grow Incorporated | Mobile device screen or portion thereof with a graphical user interface |
US20210182972A1 (en) * | 2019-12-17 | 2021-06-17 | Industrial Technology Research Institute | Trading decision generation system and method |
US11494792B2 (en) | 2020-03-19 | 2022-11-08 | Kyndryl, Inc. | Predictive decision making based on influence identifiers and learned associations |
US20210350426A1 (en) * | 2020-05-07 | 2021-11-11 | Nowcasting.ai, Inc. | Architecture for data processing and user experience to provide decision support |
US11664120B1 (en) * | 2020-05-11 | 2023-05-30 | Walgreen Co. | Apparatuses, systems, and methods for reducing return of prescriptions to stock |
US20210374851A1 (en) * | 2020-05-28 | 2021-12-02 | Td Ameritrade Ip Company, Inc. | Hierarchical Node-Based Display Architecture |
US20210390562A1 (en) * | 2020-06-10 | 2021-12-16 | Bitvore Corp. | System and method for analyzing and scoring businesses and creating corresponding indices |
US10878505B1 (en) * | 2020-07-31 | 2020-12-29 | Agblox, Inc. | Curated sentiment analysis in multi-layer, machine learning-based forecasting model using customized, commodity-specific neural networks |
CN112101611B (zh) * | 2020-07-31 | 2022-11-18 | 重庆锐云科技有限公司 | 房地产客户复购时间的预测方法、服务器及存储介质 |
CN112016294B (zh) * | 2020-09-04 | 2023-04-07 | 上海智芝全智能科技有限公司 | 一种基于文本的新闻重要性评估方法、装置及电子设备 |
US11765194B1 (en) | 2021-01-11 | 2023-09-19 | Wells Fargo Bank, N.A. | Risk view sharing platform |
US20220245723A1 (en) * | 2021-01-31 | 2022-08-04 | Shaun Broderick Culler | Social Media-Enabled Market Analysis and Trading |
WO2022170001A1 (en) * | 2021-02-03 | 2022-08-11 | Rockspoon, Inc. | System and method for generating implicit ratings using user-generated content |
WO2022178640A1 (en) * | 2021-02-28 | 2022-09-01 | The Toronto-Dominion Bank | Predicting occurrences of targeted classes of events using trained artificial-intelligence processes |
US20220284450A1 (en) * | 2021-03-03 | 2022-09-08 | The Toronto-Dominion Bank | System and method for determining sentiment index for transactions |
EP4302185A1 (en) * | 2021-03-24 | 2024-01-10 | Data.Ai Inc. | Fast estimation of downloads for apps at launch |
TWI765645B (zh) * | 2021-04-07 | 2022-05-21 | 元智大學 | 財經文本的投資評分方法 |
CN113343046B (zh) * | 2021-05-20 | 2023-08-25 | 成都美尔贝科技股份有限公司 | 一种智能搜索排序系统 |
CN113688297A (zh) * | 2021-08-12 | 2021-11-23 | 富途网络科技(深圳)有限公司 | 期权信息的显示和分析方法、装置、设备及存储介质 |
US11574324B1 (en) | 2021-09-22 | 2023-02-07 | Finvar Corporation | Logic extraction and application subsystem for intelligent timeline and commercialization system |
US11423110B1 (en) | 2021-09-22 | 2022-08-23 | Finvar Corporation | Intelligent timeline and commercialization system with social networking features |
CN115859209B (zh) * | 2023-02-08 | 2023-05-16 | 烟台市福山区动物疫病预防控制中心 | 基于饲料消耗数据的畜牧业家禽养殖异常识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1695152A (zh) * | 2001-07-05 | 2005-11-09 | 电脑联合想象公司 | 用于转换商务处理策略数据的系统和方法 |
CN102150129A (zh) * | 2008-08-04 | 2011-08-10 | 奎德公司 | 实体业绩分析引擎 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761442A (en) | 1994-08-31 | 1998-06-02 | Advanced Investment Technology, Inc. | Predictive neural network means and method for selecting a portfolio of securities wherein each network has been trained using data relating to a corresponding security |
US6125355A (en) | 1997-12-02 | 2000-09-26 | Financial Engines, Inc. | Pricing module for financial advisory system |
US6236980B1 (en) | 1998-04-09 | 2001-05-22 | John P Reese | Magazine, online, and broadcast summary recommendation reporting system to aid in decision making |
US6622140B1 (en) | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
US8285619B2 (en) | 2001-01-22 | 2012-10-09 | Fred Herz Patents, LLC | Stock market prediction using natural language processing |
US20040254798A1 (en) * | 2001-11-30 | 2004-12-16 | Khoi Hoang | Real-time interactive stock quotes using a broadcast channel |
US7467108B2 (en) | 2002-01-18 | 2008-12-16 | Ron Papka | System and method for predicting security price movements using financial news |
US8027893B1 (en) | 2002-05-20 | 2011-09-27 | News Technologies, Llc | News induced automated electronic securities transactions |
US7467102B2 (en) | 2003-09-11 | 2008-12-16 | International Business Machines Corporation | Request type grid computing |
US8930254B2 (en) * | 2005-06-13 | 2015-01-06 | CommEq Asset Management Ltd. | Financial methodology to valuate and predict the news impact of major events on financial instruments |
US8069101B1 (en) | 2005-06-13 | 2011-11-29 | CommEq Asset Management Ltd. | Financial methodology to valuate and predict the news impact of major events on financial instruments |
US7685084B2 (en) | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
US20100131398A1 (en) * | 2008-03-20 | 2010-05-27 | Theresa Molloy | System and method for providing market insight regarding securities trading |
US20100257117A1 (en) * | 2009-04-03 | 2010-10-07 | Bulloons.Com Ltd. | Predictions based on analysis of online electronic messages |
US11132748B2 (en) | 2009-12-01 | 2021-09-28 | Refinitiv Us Organization Llc | Method and apparatus for risk mining |
-
2011
- 2011-11-30 US US13/308,496 patent/US11257161B2/en active Active
-
2012
- 2012-11-30 CN CN202011110173.0A patent/CN113706185A/zh active Pending
- 2012-11-30 WO PCT/US2012/067443 patent/WO2013082527A1/en active Application Filing
- 2012-11-30 EP EP12853292.6A patent/EP2786335A4/en not_active Withdrawn
- 2012-11-30 CN CN201280068507.XA patent/CN104115178A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1695152A (zh) * | 2001-07-05 | 2005-11-09 | 电脑联合想象公司 | 用于转换商务处理策略数据的系统和方法 |
CN102150129A (zh) * | 2008-08-04 | 2011-08-10 | 奎德公司 | 实体业绩分析引擎 |
Non-Patent Citations (1)
Title |
---|
SANJIV R. DAS: "News Analytics:Framework,Techniques and Metrics", SSRN ELECTRONIC JOURNAL, 24 August 2011 (2011-08-24), pages 4 - 4 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982229A (zh) * | 2022-12-08 | 2023-04-18 | 中信建投证券股份有限公司 | 一种证券处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP2786335A4 (en) | 2015-07-15 |
CN104115178A (zh) | 2014-10-22 |
EP2786335A1 (en) | 2014-10-08 |
US20130138577A1 (en) | 2013-05-30 |
WO2013082527A1 (en) | 2013-06-06 |
US11257161B2 (en) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11257161B2 (en) | Methods and systems for predicting market behavior based on news and sentiment analysis | |
Kölbel et al. | Ask BERT: How regulatory disclosure of transition and physical climate risks affects the CDS term structure | |
Ryans | Textual classification of SEC comment letters | |
Nelson et al. | Carrot or stick? The shift from voluntary to mandatory disclosure of risk factors | |
Doran et al. | Earnings conference call content and stock price: The case of REITs | |
Romanus et al. | Auditor industry specialization, auditor changes, and accounting restatements | |
Hagenau et al. | Automated news reading: Stock price prediction based on financial news using context-capturing features | |
Huang et al. | Evidence on the information content of text in analyst reports | |
Zhang et al. | Distillation of news flow into analysis of stock reactions | |
Sprenger et al. | News or noise? Using Twitter to identify and understand company‐specific news flow | |
Kleinnijenhuis et al. | Frame complexity and the financial crisis: A comparison of the United States, the United Kingdom, and Germany in the period 2007–2012 | |
US20120316916A1 (en) | Methods and systems for generating corporate green score using social media sourced data and sentiment analysis | |
Yan et al. | Uncertainty and IPO initial returns: evidence from the tone analysis of China’s IPO prospectuses | |
EP2798604A2 (en) | Methods and systems for generating composite index using social media sourced data and sentiment analysis | |
Sprenger et al. | News or noise? The stock market reaction to different types of company-specific news events | |
Yang et al. | Online social networks, media supervision and investment efficiency: An empirical examination of Chinese listed firms | |
US20150221038A1 (en) | Methods and system for financial instrument classification | |
Nissim | Big data, accounting information, and valuation | |
WO2021257610A1 (en) | Time series forecasting and visualization methods and systems | |
Azuma et al. | Is no news good news? The streaming news effect on investor behavior surrounding analyst stock revision announcement | |
Liu et al. | The role of accounting information in an era of fake news | |
Yin et al. | Daily investor sentiment, order flow imbalance and stock liquidity: evidence from the Chinese stock market | |
Alfano et al. | Language sentiment in fundamental and noise trading: evidence from crude oil | |
Tao et al. | Tomorrow's fish and chip paper? Slowly incorporated news and the cross-section of stock returns | |
Dhanasekaren et al. | A study on the impact of sentiment analysis on stock market prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |