CN110750622A - 基于大数据的金融事件发现方法 - Google Patents
基于大数据的金融事件发现方法 Download PDFInfo
- Publication number
- CN110750622A CN110750622A CN201910873995.5A CN201910873995A CN110750622A CN 110750622 A CN110750622 A CN 110750622A CN 201910873995 A CN201910873995 A CN 201910873995A CN 110750622 A CN110750622 A CN 110750622A
- Authority
- CN
- China
- Prior art keywords
- financial
- event
- data
- class
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于大数据的金融事件发现方法,包括以下步骤:根据特定事件的股民评论数据,获取舆情指标;构建金融本体;将金融本体中每一个类的实例数据输入至金融本体中进行推理,获得特定事件对应的企业的股价变动趋势;爬取特定事件的新闻文本数据,进行预处理,并从新闻文本数据中提取热点词;根据获得的股价变动趋势、热点词以及金融本体的金融事件类,判断特定事件是否为金融事件,以及若为金融事件,并判断该金融事件的类别。本发明结合特定企业的财务指标、非财务指标和舆情指标,利用本体推理、深度学习领域的skip‑gram模型和LSTM算法判断事件是否为金融事件,并根据热点词判断该金融事件的类别,整体方法具有准确性高、应用范围广、易于更新、时效性强等优点。
Description
技术领域
本发明涉及事件发现方法领域,特别涉及一种基于大数据的金融事件发现方法。
背景技术
随着金融一体化和经济全球化的发展,金融事件发现的重要性愈加突出,其作用不仅被政府所重视,而且受到广大投资者密切的关注。金融事件是可能对股价造成影响的事件,如果对可能造成负面影响的金融事件加以预测,就能有效降低股民与投资机构的投资风险。
在事件发现研究中,极少涉及金融事件。因此,金融事件发现方法存在一些问题:(1)很难将传统的事件发现研究方法用于发现金融事件;(2)很难将普通事件映射到金融事件,并判断该事件对股票的影响以及影响范围。
本体是对概念之间关系的精确描述,在知识重用和共享方面有明显优势,在知识库智能系统领域应用广泛。语义网规则语言(SWRL)是以OWL子语言为基础语言,结合规则与OWL语言,提高本体规则推理能力。本体规则推理有较完善的理论和工具。由于本体在构建知识库和案例推理方面的优势,可以通过金融本体将互联网中的金融信息整合起来,并结合舆情指标与规则构建,解决金融领域中信息查找冗余过多,查准率过低的问题。
大多舆情分析都是基于某一社会新闻事件,研究网民负面情绪对社会和政府公信力的影响,很少用于金融舆情的研究,这限制了舆情分析的发展和在其他领域的作用。长短期记忆模型(LSTM)是神经网络模型的一种,它解决了循环神经网络的梯度弥散的问题,经常被用于情感分析和舆情分析。
发明内容
本发明的目的在于提供一种准确性高的金融事件发现方法,填补该领域的空白。
实现本发明目的的技术解决方案为:一种基于大数据的金融事件发现方法,包括以下步骤:
步骤1、根据特定事件的股民评论数据,获取舆情指标;
步骤2、利用protégé软件构建金融本体,所述金融本体包括财务指标类、非财务指标类、金融事件类、舆情指标类、股价类;
步骤3、将金融本体中每一个类的实例数据输入至金融本体中进行推理,获得特定事件对应的企业的股价变动趋势;金融本体类的实例数据中舆情指标具体采用步骤1获得的舆情指标;
步骤4、从网络中爬取特定事件的新闻文本数据,对该新闻文本数据进行预处理,并求取预处理后新闻文本数据的词频-逆文件频率tf-idf值,根据tf-idf值从新闻文本数据中提取热点词;
步骤5、根据所述推理获得的特定事件对应的企业的股价变动趋势、热点词以及金融本体的金融事件类,判断所述特定事件是否为金融事件,以及若为金融事件,并判断该金融事件的类别。
本发明与现有技术相比,其显著优点为:1)结合了深度学习领域的skip-gram模型和LSTM算法,相较于传统的事件发现计算方法而言,在计算结果方面具有更高的准确性;2)引入网民情感倾向作为股票预测系统的特征指标之一,提高了推理结果的准确性;3)创新性的结合本体技术进行推理,在知识重用和案例更新方面均具有很高的效率。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于大数据的金融事件发现方法的流程图。
图2为本发明其中一个实施例中构建的金融本体示意图。
图3为本发明其中一个实施例中获得的推理结果示意图。
具体实施方式
结合图1,本发明提出的基于大数据的金融事件发现方法,包括以下步骤:
步骤1、根据特定事件的股民评论数据,获取舆情指标;
步骤2、利用protégé软件构建金融本体,所述金融本体包括财务指标类、非财务指标类、金融事件类、舆情指标类、股价类;
步骤3、将金融本体中每一个类的实例数据输入至金融本体中进行推理,获得特定事件对应的企业的股价变动趋势;金融本体类的实例数据中舆情指标具体采用步骤1获得的舆情指标;
示例性地,在其中一个实施例中,推理结果如图3所示;
步骤4、从网络中爬取特定事件的新闻文本数据,对该新闻文本数据进行预处理,并求取预处理后新闻文本数据的词频-逆文件频率tf-idf值,根据tf-idf值从新闻文本数据中提取热点词;
步骤5、根据所述推理获得的特定事件对应的企业的股价变动趋势、热点词以及金融本体的金融事件类,判断所述特定事件是否为金融事件,以及若为金融事件,并判断该金融事件的类别。
进一步地,在其中一个实施例中,步骤1中根据特定事件的股民评论数据,获取舆情指标具体为:
步骤1-1、对特定事件的股民评论数据进行预处理;所述预处理包括:对数据进行清洗,删除错误数据;进行分词以及去停用词处理;
步骤1-2、从网络中随机选取大量的网民评论数据以及新闻文本数据,利用Skip-gram模型训练所选取的数据,获得词向量模型;
步骤1-3、利用步骤1-2训练好的词向量模型将步骤1-1预处理后的股民评论数据表示为词向量形式;
步骤1-4、构建用于训练长短期记忆模型即LSTM模型的样本数据集,并根据该样本数据集对LSTM模型进行训练,之后根据网民评论包含的情感倾向对其进行人工情感标注;所述样本数据集包括从网络中随机选取的大量的网民评论数据以及新闻文本数据;所述情感倾向包括正面情感倾向、负面情感倾向以及中立情感倾向;
步骤1-5、利用步骤1-4训练好的LSTM模型对步骤1-3获得的词向量形式的股民评论数据进行分类,获得正面评论数据、负面评论数据以及中立评论数据;
步骤1-6、统计正面评论数据、负面评论数据以及中立评论数据各自的比例,根据这些比例结合舆情计算规则求取舆情指标,所用公式为:
舆情指标=[1*正面评论比例+0*中立评论比例+(-1)*负面评论比例]*100。 (1)
进一步地,在其中一个实施例中,步骤1-1中错误数据包括乱码错误,内容中企业、时间与特定事件不相关的错误;
分词以及去停用词,具体为:根据金融领域词典、常用分词词典以及常用停用词词典,利用结巴分词进行分词以及去停用词处理。
进一步地,在其中一个实施例中,结合图2,步骤2中构建金融本体具体为:
步骤2-1、构建金融本体的层次结构,包括财务指标类、非财务指标类、金融事件类、舆情指标类、股价类;
步骤2-2、对步骤2-1中每一个类的数据属性和对象属性进行定义;
步骤2-3、对本体的规则进行定义,并将其转化为SWRL规则下的表达。在设计规则时应遵循以下原则:明确条件与结果之间的关联;满足Horn子句形式,以便后续处理;规则之间必须是无矛盾的。
进一步地,在其中一个实施例中,步骤2-1中财务指标类包括偿债能力子类、经营能力子类、盈利能力子类、现金流水平子类、风险水平子类、发展能力子类;所述非财务指标类包括债权人子类、员工子类、研发能力子类、运营情况子类;所述舆情指标类包括舆情得分子类,得分公式如式1所示;所述金融事件类包括个股因素子类、宏观因素子类、行业因素子类;所述股价类包括事件前五天股价描述子类、事件前十天股价描述子类、事件后股价升降子类、股价得分子类。
进一步地,在其中一个实施例中,步骤2-2中每一个类的数据属性为RDF或RDFS的数据类型,对象属性为两个类的实例间的关系,两者均包括定义域Domain、值域Range和公理Axiom。定义域定义了该属性属于哪一类。数据属性中:值域限制了数据属性取值需符合的数据类型,公理是对值域的一种约束。在公理中选择Functional则表明该属性取值唯一。对象属性中:定义域同样限制该属性属于哪些类。但对象属性中的值域并不是限制类取某些具体的数值的类型而是限制其属于哪些类的实例。公理除了Functional(取值唯一)外,还有InverseFunctional(取值不唯一)、Symmetric(对称)、Transitive(传递)、Inverse(互逆)。
示例性地,在其中一个实施例中,本体部分数据属性如下表1所示。
表1金融领域本体部分数据属性列表
示例性地,在其中一个实施例中,本体部分对象属性如下表2所示。
表2金融领域本体部分对象属性列表
进一步地,在其中一个实施例中,步骤2-3中对本体的规则进行定义具体如下表3所示:
表3本体规则的定义
进一步地,在其中一个实施例中,步骤4中对新闻文本数据进行预处理的过程与步骤1-1的过程相同。
进一步地,在其中一个实施例中,步骤4中根据tf-idf值从新闻文本数据中提取热点词具体为:选取tf-idf值为前10%的词为热点词。
进一步地,在其中一个实施例中,步骤5中根据推理获得的特定事件对应的企业的股价变动趋势、热点词以及金融本体的金融事件类,判断所述特定事件是否为金融事件,以及若为金融事件,并判断该金融事件的类别,具体为:
若股价变动趋势为下跌,则判定该特定事件为金融事件,之后根据热点词和金融本体的金融事件类,判别该金融事件的类别;反之,该特定事件不是金融事件。
本发明结合特定企业的财务指标、非财务指标和舆情指标,利用本体推理、深度学习领域的skip-gram模型和LSTM算法判断某一事件是否为金融事件,并根据该金融事件的热点词判断该金融事件的类别,整体方法具有准确性高、应用范围广、易于更新、时效性强等优点。
Claims (10)
1.一种基于大数据的金融事件发现方法,其特征在于,包括以下步骤:
步骤1、根据特定事件的股民评论数据,获取舆情指标;
步骤2、利用protégé软件构建金融本体,所述金融本体包括财务指标类、非财务指标类、金融事件类、舆情指标类、股价类;
步骤3、将金融本体中每一个类的实例数据输入至金融本体中进行推理,获得特定事件对应的企业的股价变动趋势;金融本体类的实例数据中舆情指标具体采用步骤1获得的舆情指标;
步骤4、从网络中爬取特定事件的新闻文本数据,对该新闻文本数据进行预处理,并求取预处理后新闻文本数据的词频-逆文件频率tf-idf值,根据tf-idf值从新闻文本数据中提取热点词;
步骤5、根据所述推理获得的特定事件对应的企业的股价变动趋势、热点词以及金融本体的金融事件类,判断所述特定事件是否为金融事件,以及若为金融事件,并判断该金融事件的类别。
2.根据权利要求1所述的基于大数据的金融事件发现方法,其特征在于,步骤1所述根据特定事件的股民评论数据,获取舆情指标具体为:
步骤1-1、对特定事件的股民评论数据进行预处理;所述预处理包括:对数据进行清洗,删除错误数据;进行分词以及去停用词处理;
步骤1-2、从网络中随机选取大量的网民评论数据以及新闻文本数据,利用Skip-gram模型训练所选取的数据,获得词向量模型;
步骤1-3、利用步骤1-2训练好的词向量模型将步骤1-1预处理后的股民评论数据表示为词向量形式;
步骤1-4、构建用于训练长短期记忆模型即LSTM模型的样本数据集,并根据该样本数据集对LSTM模型进行训练,之后根据网民评论包含的情感倾向对其进行人工情感标注;所述样本数据集包括从网络中随机选取的大量的网民评论数据以及新闻文本数据;所述情感倾向包括正面情感倾向、负面情感倾向以及中立情感倾向;
步骤1-5、利用步骤1-4训练好的LSTM模型对步骤1-3获得的词向量形式的股民评论数据进行分类,获得正面评论数据、负面评论数据以及中立评论数据;
步骤1-6、统计正面评论数据、负面评论数据以及中立评论数据各自的比例,根据这些比例结合舆情计算规则求取舆情指标,所用公式为:
舆情指标=[1*正面评论比例+0*中立评论比例+(-1)*负面评论比例]*100 (1)。
3.根据权利要求2所述的基于大数据的金融事件发现方法,其特征在于,步骤1-1所述错误数据包括乱码错误,内容中企业、时间与特定事件不相关的错误;
所述分词以及去停用词,具体为:根据金融领域词典、常用分词词典以及常用停用词词典,利用结巴分词进行分词以及去停用词处理。
4.根据权利要求1所述的基于大数据的金融事件发现方法,其特征在于,步骤2所述构建金融本体具体为:
步骤2-1、构建金融本体的层次结构,包括财务指标类、非财务指标类、金融事件类、舆情指标类、股价类;
步骤2-2、对步骤2-1中每一个类的数据属性和对象属性进行定义;
步骤2-3、对本体的规则进行定义,并将其转化为SWRL规则下的表达。
5.根据权利要求1或3所述的基于大数据的金融事件发现方法,其特征在于,步骤2-1所述财务指标类包括偿债能力子类、经营能力子类、盈利能力子类、现金流水平子类、风险水平子类、发展能力子类;所述非财务指标类包括债权人子类、员工子类、研发能力子类、运营情况子类;所述舆情指标类包括舆情得分子类,得分公式如式1所示;所述金融事件类包括个股因素子类、宏观因素子类、行业因素子类;所述股价类包括事件前五天股价描述子类、事件前十天股价描述子类、事件后股价升降子类、股价得分子类。
6.根据权利要求1所述的基于大数据的金融事件发现方法,其特征在于,步骤2-2所述每一个类的数据属性为RDF或RDFS的数据类型,对象属性为两个类的实例间的关系,两者均包括定义域Domain、值域Range和公理Axiom。
8.根据权利要求1或2所述的基于大数据的金融事件发现方法,其特征在于,步骤4所述对新闻文本数据进行预处理的过程与步骤1-1的过程相同。
9.根据权利要求1所述的基于大数据的金融事件发现方法,其特征在于,步骤4所述根据tf-idf值从新闻文本数据中提取热点词具体为:选取tf-idf值为前10%的词为热点词。
10.根据权利要求1所述的基于大数据的金融事件发现方法,其特征在于,步骤5所述根据推理获得的特定事件对应的企业的股价变动趋势、热点词以及金融本体的金融事件类,判断所述特定事件是否为金融事件,以及若为金融事件,并判断该金融事件的类别,具体为:
若股价变动趋势为下跌,则判定该特定事件为金融事件,之后根据热点词和金融本体的金融事件类,判别该金融事件的类别;反之,该特定事件不是金融事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910873995.5A CN110750622A (zh) | 2019-09-17 | 2019-09-17 | 基于大数据的金融事件发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910873995.5A CN110750622A (zh) | 2019-09-17 | 2019-09-17 | 基于大数据的金融事件发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110750622A true CN110750622A (zh) | 2020-02-04 |
Family
ID=69276533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910873995.5A Pending CN110750622A (zh) | 2019-09-17 | 2019-09-17 | 基于大数据的金融事件发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750622A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495959A (zh) * | 2021-05-20 | 2021-10-12 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
CN113515626A (zh) * | 2021-05-19 | 2021-10-19 | 中国工商银行股份有限公司 | 一种确定舆论类别的方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945034A (zh) * | 2017-11-17 | 2018-04-20 | 平安科技(深圳)有限公司 | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 |
CN108846547A (zh) * | 2018-05-06 | 2018-11-20 | 成都信息工程大学 | 一种动态调整的企业信用风险评估方法 |
-
2019
- 2019-09-17 CN CN201910873995.5A patent/CN110750622A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945034A (zh) * | 2017-11-17 | 2018-04-20 | 平安科技(深圳)有限公司 | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 |
CN108846547A (zh) * | 2018-05-06 | 2018-11-20 | 成都信息工程大学 | 一种动态调整的企业信用风险评估方法 |
Non-Patent Citations (2)
Title |
---|
吴鹏等: "基于双向长短期记忆模型的网民负面情感分类研究", 《情报学报》 * |
强韶华等: "基于RBR和CBR的金融事件本体推理研究", 《数据分析与知识发现》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515626A (zh) * | 2021-05-19 | 2021-10-19 | 中国工商银行股份有限公司 | 一种确定舆论类别的方法、装置及设备 |
CN113495959A (zh) * | 2021-05-20 | 2021-10-12 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
CN113495959B (zh) * | 2021-05-20 | 2022-09-09 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Day et al. | Deep learning for financial sentiment analysis on finance news providers | |
Bing et al. | Public sentiment analysis in Twitter data for prediction of a company's stock price movements | |
Gull et al. | Pre processing of twitter's data for opinion mining in political context | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
Song et al. | Forecasting economic indicators using a consumer sentiment index: Survey‐based versus text‐based data | |
CN112214614A (zh) | 基于知识图谱挖掘风险传播路径的方法及其系统 | |
CN115689717A (zh) | 企业风险预警方法、装置、电子设备、介质和程序产品 | |
CN110750622A (zh) | 基于大数据的金融事件发现方法 | |
Aiba et al. | Network structure in ESG ratings suggests new corporate strategies: Evolving AI technology to quantify qualitative data | |
Darena et al. | Machine learning-based analysis of the association between online texts and stock price movements | |
Li et al. | Credit risk management of scientific and technological enterprises based on text mining | |
Lee et al. | ESG2PreEM: Automated ESG grade assessment framework using pre-trained ensemble models | |
Zhao et al. | Dynamic impacts of online investor sentiment on international crude oil prices | |
Huang | Web mining for the mayoral election prediction in Taiwan | |
Kou et al. | Understanding housing market behaviour from a microscopic perspective | |
Gui et al. | Measuring investor sentiment of China’s growth enterprises market with ERNIE | |
Zhu | Financial data analysis application via multi-strategy text processing | |
Li | Research on the transfer rules of internet users’ negative emotional state in financial public opinion | |
Zhao et al. | Financial account audit early warning based on fuzzy comprehensive evaluation and random forest model | |
Song | Construction of corporate investment decision support model based on deep learning | |
Wang et al. | The big data analysis and visualization of mass messages under “smart government affairs” based on text mining | |
Carboni et al. | Ecb and fed governors’ speeches: A topic modeling analysis (2007–2019) | |
Jin et al. | Diagnosis of corporate insolvency using massive news articles for credit management | |
Consoli et al. | Fine-grained, aspect-based semantic sentiment analysis within the economic and financial domains | |
Liu et al. | Supply and demand matching of financial support policies for private enterprises based on text measurement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |