CN110968696B - 一种财经博客文本分析方法 - Google Patents
一种财经博客文本分析方法 Download PDFInfo
- Publication number
- CN110968696B CN110968696B CN201911142631.6A CN201911142631A CN110968696B CN 110968696 B CN110968696 B CN 110968696B CN 201911142631 A CN201911142631 A CN 201911142631A CN 110968696 B CN110968696 B CN 110968696B
- Authority
- CN
- China
- Prior art keywords
- blog
- score
- bloggers
- stock market
- updown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种财经博客文本分析方法,爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。本发明能够对财经博客的前几名的博主进行有效排序,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,一定程度上减少投资者的投资失误。
Description
技术领域
本发明涉及一种社交媒体对证券市场的影响分析方法,尤其涉及的是一种财经博客文本分析方法。
背景技术
社交媒体对股市波动的影响越来越大.投资者通过社交媒体可以实时获取证券市场的相关资讯,与他人交流对证券市场和个股的看法和感受,并且参与到社区的各类讨论和交流中。与此同时,不同渠道的信息通过社交媒体对信息的分享、聚集和放大等功能在社区中迅速传播,为投资者的投资决策行为提供了丰富的决策参考信息。深入分析涉及媒体与证券市场之间的相互影响,总结社交媒体对证券市场的预测作用,能够帮助投资者去掉投机心理、树立投资理念。
博客作为网民表达思想感情的平台,对于部分财经类博客,从初步统计情况看来,大部分博文字数在2000字左右,相对于股吧和微博平台文本数据,博文结构较完整、观点更明朗、言语表达更加权威和官方,为文本分析提供了强有力的便捷。
据不完全统计,目前中国博客数量已经超过2000万,其中财经博主大约占六分之一,在繁杂的博客中,发现权威博主,减少无意义的分析是必要的,有针对性的分析权威博主,提高效率的同时增加说服力。
发明内容
本发明所要解决的技术问题在于:如何利用社交媒体的信息对投资者提供辅助参考,提供了一种财经博客文本分析方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
(1)爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;
(2)通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;
(3)计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。
所述步骤(1)中,包括以下步骤:(11)首先用第一类分类器将未来句子提取出来;
(12)再用第二类分类器对提取出来的未来句子进行切词;
(13)得到每个词语的重要性权重,对一篇博文的N个词匹配涨跌词典得到这些词对应的词得分;
(14)计算每篇博文的得分,当得分小于阈值下限,则博文看跌,当得分大于阈值上限,则博文看涨,当得分在阈值上限和阈值下限之间,则博文看平。
所述第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,未来是指表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。
所述涨跌词典为:
博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若Score<Scorelow,则博文看跌,若Scorelow<Score<Scorehigh,则博文看平,若Score>Scorehigh,则博文看涨。
所述步骤(2)中,首先定义股市的涨跌平如下:设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若Updown<Updownlow,则股市跌,若Updownlow<Updown<Updownhigh,则股市平,若Updown>Updownhigh,则股市涨。
所述步骤(3)中,用numhigh、numlow、numave、num1、num-1、num0来分别表示看涨、跌、平正确的数量与看涨、跌、平的总数量,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,对博主给予等级评定。
对博主根据看涨看跌和看平进行分类排序,公式如下:
其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
本发明相比现有技术具有以下优点:本发明能够对财经博客的前几名的博主进行有效排序,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,一定程度上减少投资者的投资失误。
附图说明
图1是本发明的博文分类的流程图;
图2是博主月准确率排名。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例首先爬取新浪和东方财富网上排名靠前的130多位博主的博客数据,主要包括:博文标题、博主昵称、发帖日期、博主人气、博文网址、博文内容等。
如图1所示,对于使用两类分类器,第一类分类器先将过去的句子剔除掉,仅仅保留未来的句子,避免了过去行情描述的句子对未来股市趋势判断造成不必要的影响。再使用第二类分类器基于未来句子对博文进行涨跌平分类。
通过对句子分词,匹配未来、过去词典来实现第一类分类器的判断,第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,这里的未来是指那些表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。第二类分类器为涨跌平分类器,对于第一类分类器提取出来的未来句子,通过词频、TF-IDF、Text-Rank等方法进行切词,并得到每个词语的一个重要性权重。
由于博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若Score<Scorelow,则博文看跌,若Scorelow<Score<Scorehigh,则博文看平,若Score>Scorehigh,则博文看涨。
为了衡量分类效果,本实施例选取宏大数据网首页上已分类的148篇博文,以申请人单位(国元)的评判类别为依据,对比宏大数据网和本实施例的分类效果,统计情况如表1所示:
表1分类结果对比表
若定义衡量评判误差准则,则
宏大数据和本实施例的博文分类效果相当的,由此可见,本实施例的博文分类结果可信度较高。
本实施例同时定义权威博主:看盘准确率高的财经博主。
通过将一段时期内博主所有博文的分类情况与其对应的接下来三个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性。类似地定义股市的涨跌平,设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若Updown<Updownlow,则股市跌,若Updownlow<Updown<Updownhigh,则股市平,若Updown>Updownhigh,则股市涨。
若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误。用numhigh,numlow,numave,num1,num-1,num0来分别表示看涨/跌/平正确的数量与看涨/跌/平的总数量。进一步观察,发现大多数文章都属于看平,为了加强体现博主鲜明的看涨看跌观点,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
计算一段时间内博主所有博文的准确率,然后根据准确率的高低可以对博主进行排序,考虑到博主看盘准确率的数值较低,按照将其划分不同的区间,对博主给予等级评定,如图2所示。
从一段时期内博主排名结果来看,持续在前几名的博主是较权威的,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,降低投资失误的风险。
可以对客户展示看涨、看跌、看平加权得分最高的十篇博文,其中排序公式如下:
其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种财经博客文本分析方法,其特征在于,包括以下步骤:
(1)爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;
(2)通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;
(3)计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定;
所述步骤(1)中,包括以下步骤:
(11)首先用第一类分类器将未来句子提取出来;
(12)再用第二类分类器对提取出来的未来句子进行切词;
(13)得到每个词语的重要性权重,对一篇博文的N个词匹配涨跌词典得到这些词对应的词得分;
(14)计算每篇博文的得分,当得分小于阈值下限,则博文看跌,当得分大于阈值上限,则博文看涨,当得分在阈值上限和阈值下限之间,则博文看平;
所述步骤(3)中,用numhigh、numlow、numave、num1、num-1、num0来分别表示看涨、跌、平正确的数量与看涨、跌、平的总数量,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,对博主给予等级评定。
2.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,未来是指表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。
4.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(2)中,首先定义股市的涨跌平如下:设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若Updown<Updownlow,则股市跌,若Updownlow<Updown<Updownhigh,则股市平,若Updown>Updownhigh,则股市涨。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911142631.6A CN110968696B (zh) | 2019-11-20 | 2019-11-20 | 一种财经博客文本分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911142631.6A CN110968696B (zh) | 2019-11-20 | 2019-11-20 | 一种财经博客文本分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968696A CN110968696A (zh) | 2020-04-07 |
CN110968696B true CN110968696B (zh) | 2023-06-06 |
Family
ID=70031061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911142631.6A Active CN110968696B (zh) | 2019-11-20 | 2019-11-20 | 一种财经博客文本分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968696B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880985A (zh) * | 2012-09-17 | 2013-01-16 | 沈文策 | 一种提示信息生成方法及装置 |
CN105701223A (zh) * | 2016-01-15 | 2016-06-22 | 中国人民解放军国防科学技术大学 | 基于Spark Streaming的财经信息情感趋势分析方法 |
CN106227756A (zh) * | 2016-07-14 | 2016-12-14 | 苏州大学 | 一种基于情感分类的股票指数预测方法及系统 |
CN107797983A (zh) * | 2017-04-07 | 2018-03-13 | 平安科技(深圳)有限公司 | 微博数据处理方法、装置、计算机设备及存储介质 |
CN109214590A (zh) * | 2018-10-11 | 2019-01-15 | 平安科技(深圳)有限公司 | 基金数据的预测方法、装置、计算机设备和存储介质 |
CN110390408A (zh) * | 2018-04-16 | 2019-10-29 | 北京京东尚科信息技术有限公司 | 交易对象预测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246390A1 (en) * | 2010-04-06 | 2011-10-06 | Zhaoji George Yang | System and method for constructing investment instruments, portfolios , and benchmark indexes with active leveraged written call or put options overlay |
-
2019
- 2019-11-20 CN CN201911142631.6A patent/CN110968696B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880985A (zh) * | 2012-09-17 | 2013-01-16 | 沈文策 | 一种提示信息生成方法及装置 |
CN105701223A (zh) * | 2016-01-15 | 2016-06-22 | 中国人民解放军国防科学技术大学 | 基于Spark Streaming的财经信息情感趋势分析方法 |
CN106227756A (zh) * | 2016-07-14 | 2016-12-14 | 苏州大学 | 一种基于情感分类的股票指数预测方法及系统 |
CN107797983A (zh) * | 2017-04-07 | 2018-03-13 | 平安科技(深圳)有限公司 | 微博数据处理方法、装置、计算机设备及存储介质 |
CN110390408A (zh) * | 2018-04-16 | 2019-10-29 | 北京京东尚科信息技术有限公司 | 交易对象预测方法和装置 |
CN109214590A (zh) * | 2018-10-11 | 2019-01-15 | 平安科技(深圳)有限公司 | 基金数据的预测方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110968696A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
Xu et al. | Using deep linguistic features for finding deceptive opinion spam | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
WO2021184674A1 (zh) | 文本关键词提取方法、电子设备及计算机可读存储介质 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN108763402A (zh) | 基于依存关系、词性和语义词典的类中心向量文本分类法 | |
Rangel et al. | Overview of the track on author profiling and deception detection in arabic | |
Shen et al. | Latent friend mining from blog data | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN112507711A (zh) | 文本摘要抽取方法及系统 | |
Khalid et al. | Style matters! Investigating linguistic style in online communities | |
CN111241824B (zh) | 一种用于中文隐喻信息识别的方法 | |
CN108363784A (zh) | 一种基于文本机器学习的舆情走向预测方法 | |
CN109933648A (zh) | 一种真实用户评论的区分方法和区分装置 | |
CN115358201A (zh) | 一种期货领域的投研报告处理方法和系统 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
JP5986687B2 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
Asha et al. | Fake news detection using n-gram analysis and machine learning algorithms | |
CN110968696B (zh) | 一种财经博客文本分析方法 | |
CN112380346A (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |