CN110968696A - 一种财经博客文本分析方法 - Google Patents

一种财经博客文本分析方法 Download PDF

Info

Publication number
CN110968696A
CN110968696A CN201911142631.6A CN201911142631A CN110968696A CN 110968696 A CN110968696 A CN 110968696A CN 201911142631 A CN201911142631 A CN 201911142631A CN 110968696 A CN110968696 A CN 110968696A
Authority
CN
China
Prior art keywords
bloggers
score
blog
updown
falling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911142631.6A
Other languages
English (en)
Other versions
CN110968696B (zh
Inventor
张国威
胡汤磊
杨杰
诸葛瑜亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoyuan Securities Co ltd
Original Assignee
Guoyuan Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoyuan Securities Co ltd filed Critical Guoyuan Securities Co ltd
Priority to CN201911142631.6A priority Critical patent/CN110968696B/zh
Publication of CN110968696A publication Critical patent/CN110968696A/zh
Application granted granted Critical
Publication of CN110968696B publication Critical patent/CN110968696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种财经博客文本分析方法,爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。本发明能够对财经博客的前几名的博主进行有效排序,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,一定程度上减少投资者的投资失误。

Description

一种财经博客文本分析方法
技术领域
本发明涉及一种社交媒体对证券市场的影响分析方法,尤其涉及的是一种财经博客文本分析方法。
背景技术
社交媒体对股市波动的影响越来越大.投资者通过社交媒体可以实时获取证券市场的相关资讯,与他人交流对证券市场和个股的看法和感受,并且参与到社区的各类讨论和交流中。与此同时,不同渠道的信息通过社交媒体对信息的分享、聚集和放大等功能在社区中迅速传播,为投资者的投资决策行为提供了丰富的决策参考信息。深入分析涉及媒体与证券市场之间的相互影响,总结社交媒体对证券市场的预测作用,能够帮助投资者去掉投机心理、树立投资理念。
博客作为网民表达思想感情的平台,对于部分财经类博客,从初步统计情况看来,大部分博文字数在2000字左右,相对于股吧和微博平台文本数据,博文结构较完整、观点更明朗、言语表达更加权威和官方,为文本分析提供了强有力的便捷。
据不完全统计,目前中国博客数量已经超过2000万,其中财经博主大约占六分之一,在繁杂的博客中,发现权威博主,减少无意义的分析是必要的,有针对性的分析权威博主,提高效率的同时增加说服力。
发明内容
本发明所要解决的技术问题在于:如何利用社交媒体的信息对投资者提供辅助参考,提供了一种财经博客文本分析方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
(1)爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;
(2)通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;
(3)计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。
所述步骤(1)中,包括以下步骤:(11)首先用第一类分类器将未来句子提取出来;
(12)再用第二类分类器对提取出来的未来句子进行切词;
(13)得到每个词语的重要性权重,对一篇博文的N个词匹配涨跌词典得到这些词对应的词得分;
(14)计算每篇博文的得分,当得分小于阈值下限,则博文看跌,当得分大于阈值上限,则博文看涨,当得分在阈值上限和阈值下限之间,则博文看平。
所述第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,未来是指表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。
对于一篇博文的N个词权重向量为:s=(s1,s2,…,sN),N个词的对应词得分λ=(λ12,…,λN),计算每篇博文的得分:
Figure BDA0002281364680000021
所述涨跌词典为:
Figure BDA0002281364680000022
博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若Score<Scorelow,则博文看跌,若Scorelow<Score<Scorehigh,则博文看平,若Score>Scorehigh,则博文看涨。
所述步骤(2)中,首先定义股市的涨跌平如下:设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若Updown<Updownlow,则股市跌,若Updownlow<Updown<Updownhigh,则股市平,若Updown>Updownhigh,则股市涨。
所述步骤(3)中,用numhigh、numlow、numave、num1、num-1、num0来分别表示看涨、跌、平正确的数量与看涨、跌、平的总数量,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
Figure BDA0002281364680000023
计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,对博主给予等级评定。
对博主根据看涨看跌和看平进行分类排序,公式如下:
分类标签为看涨的公式:
Figure BDA0002281364680000024
分类标签为看跌的公式:
Figure BDA0002281364680000025
分类标签为看平的公式:
Figure BDA0002281364680000031
其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
本发明相比现有技术具有以下优点:本发明能够对财经博客的前几名的博主进行有效排序,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,一定程度上减少投资者的投资失误。
附图说明
图1是本发明的博文分类的流程图;
图2是博主月准确率排名。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例首先爬取新浪和东方财富网上排名靠前的130多位博主的博客数据,主要包括:博文标题、博主昵称、发帖日期、博主人气、博文网址、博文内容等。
如图1所示,对于使用两类分类器,第一类分类器先将过去的句子剔除掉,仅仅保留未来的句子,避免了过去行情描述的句子对未来股市趋势判断造成不必要的影响。再使用第二类分类器基于未来句子对博文进行涨跌平分类。
通过对句子分词,匹配未来、过去词典来实现第一类分类器的判断,第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,这里的未来是指那些表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。第二类分类器为涨跌平分类器,对于第一类分类器提取出来的未来句子,通过词频、TF-IDF、Text-Rank等方法进行切词,并得到每个词语的一个重要性权重。
某篇博文的N个词权重向量为:s=(s1,s2,…,sN),对于这N个词匹配看涨、看跌词典得到这些词对应的词得分λ=(λ12,…,λN),计算每篇博文的得分:
Figure BDA0002281364680000032
其中第二类分类器的涨跌词典为:
Figure BDA0002281364680000033
由于博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若Score<Scorelow,则博文看跌,若Scorelow<Score<Scorehigh,则博文看平,若Score>Scorehigh,则博文看涨。
为了衡量分类效果,本实施例选取宏大数据网首页上已分类的148篇博文,以申请人单位(国元)的评判类别为依据,对比宏大数据网和本实施例的分类效果,统计情况如表1所示:
表1分类结果对比表
Figure BDA0002281364680000041
若定义衡量评判误差准则,则
Figure BDA0002281364680000042
Figure BDA0002281364680000043
宏大数据和本实施例的博文分类效果相当的,由此可见,本实施例的博文分类结果可信度较高。
本实施例同时定义权威博主:看盘准确率高的财经博主。
通过将一段时期内博主所有博文的分类情况与其对应的接下来三个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性。类似地定义股市的涨跌平,设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若Updown<Updownlow,则股市跌,若Updownlow<Updown<Updownhigh,则股市平,若Updown>Updownhigh,则股市涨。
若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误。用numhigh,numlow,numave,num1,num-1,num0来分别表示看涨/跌/平正确的数量与看涨/跌/平的总数量。进一步观察,发现大多数文章都属于看平,为了加强体现博主鲜明的看涨看跌观点,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
Figure BDA0002281364680000044
计算一段时间内博主所有博文的准确率,然后根据准确率的高低可以对博主进行排序,考虑到博主看盘准确率的数值较低,按照将其划分不同的区间,对博主给予等级评定,如图2所示。
从一段时期内博主排名结果来看,持续在前几名的博主是较权威的,他们在看盘准确率上相对较高,发表的关于股市交易指导的博文是有一定参考价值的,可考虑最为日常资讯推送给重要客户参考,降低投资失误的风险。
可以对客户展示看涨、看跌、看平加权得分最高的十篇博文,其中排序公式如下:
分类标签为1(看涨)的公式:
Figure BDA0002281364680000051
分类标签为-1(看跌)的公式:
Figure BDA0002281364680000052
分类标签为0(看平)的公式:
Figure BDA0002281364680000053
其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种财经博客文本分析方法,其特征在于,包括以下步骤:
(1)爬取博客数据,对博文进行两类分类,对博文进行看涨看跌看平分类;
(2)通过将一段时期内博主所有博文的分类情况与其对应的接下来若干个交易日股市的涨跌情况比较来判断该博主看涨看跌的准确性,若博文的看涨看跌与股市的涨跌一致,则认为该博文预测正确,否则预测错误;
(3)计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,将其划分不同的区间,对博主给予等级评定。
2.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(1)中,包括以下步骤:(11)首先用第一类分类器将未来句子提取出来;
(12)再用第二类分类器对提取出来的未来句子进行切词;
(13)得到每个词语的重要性权重,对一篇博文的N个词匹配涨跌词典得到这些词对应的词得分;
(14)计算每篇博文的得分,当得分小于阈值下限,则博文看跌,当得分大于阈值上限,则博文看涨,当得分在阈值上限和阈值下限之间,则博文看平。
3.根据权利要求2所述的一种财经博客文本分析方法,其特征在于,所述第一类分类器为时间分类器,对于每篇博文的句子,判断句子属于未来还是过去,未来是指表达博主对于未来股市看涨看跌,或者倾向性的句子,过去是指博主对于过去股市的分析、总结,以及一些无关句子。
4.根据权利要求2所述的一种财经博客文本分析方法,其特征在于,对于一篇博文的N个词权重向量为:s=(s1,s2,…,sN),N个词的对应词得分λ=(λ12,…,λN),计算每篇博文的得分:
Figure FDA0002281364670000011
5.根据权利要求2所述的一种财经博客文本分析方法,其特征在于,所述涨跌词典为:
Figure FDA0002281364670000012
博文得分值落在[-1,1]区间上,设置得分阈值下限Scorelow和得分阈值上限Scorehigh,若Score<Scorelow,则博文看跌,若Scorelow<Score<Scorehigh,则博文看平,若Score>Scorehigh,则博文看涨。
6.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(2)中,首先定义股市的涨跌平如下:设置股市的涨跌阈值下限Updownlow和涨跌阈值上限Updownhigh,Updown为当日的涨跌幅,若Updown<Updownlow,则股市跌,若Updownlow<Updown<Updownhigh,则股市平,若Updown>Updownhigh,则股市涨。
7.根据权利要求1所述的一种财经博客文本分析方法,其特征在于,所述步骤(3)中,用numhigh、numlow、numave、num1、num-1、num0来分别表示看涨、跌、平正确的数量与看涨、跌、平的总数量,对看涨正确的,看跌正确的文章加大其重要性,对看盘准确率定义为:
Figure FDA0002281364670000021
计算一段时间内博主所有博文的准确率,然后根据准确率的高低对博主进行排序,对博主给予等级评定。
8.根据权利要求7所述的一种财经博客文本分析方法,其特征在于,对博主根据看涨看跌和看平进行分类排序,公式如下:
分类标签为看涨的公式:
Figure FDA0002281364670000022
分类标签为看跌的公式:
Figure FDA0002281364670000023
分类标签为看平的公式:
Figure FDA0002281364670000024
其中SCOREi为某篇博文的得分,BLOGER_AccMi为该博文对应博主的准确率/月。
CN201911142631.6A 2019-11-20 2019-11-20 一种财经博客文本分析方法 Active CN110968696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911142631.6A CN110968696B (zh) 2019-11-20 2019-11-20 一种财经博客文本分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911142631.6A CN110968696B (zh) 2019-11-20 2019-11-20 一种财经博客文本分析方法

Publications (2)

Publication Number Publication Date
CN110968696A true CN110968696A (zh) 2020-04-07
CN110968696B CN110968696B (zh) 2023-06-06

Family

ID=70031061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911142631.6A Active CN110968696B (zh) 2019-11-20 2019-11-20 一种财经博客文本分析方法

Country Status (1)

Country Link
CN (1) CN110968696B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246390A1 (en) * 2010-04-06 2011-10-06 Zhaoji George Yang System and method for constructing investment instruments, portfolios , and benchmark indexes with active leveraged written call or put options overlay
CN102880985A (zh) * 2012-09-17 2013-01-16 沈文策 一种提示信息生成方法及装置
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN106227756A (zh) * 2016-07-14 2016-12-14 苏州大学 一种基于情感分类的股票指数预测方法及系统
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN109214590A (zh) * 2018-10-11 2019-01-15 平安科技(深圳)有限公司 基金数据的预测方法、装置、计算机设备和存储介质
CN110390408A (zh) * 2018-04-16 2019-10-29 北京京东尚科信息技术有限公司 交易对象预测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246390A1 (en) * 2010-04-06 2011-10-06 Zhaoji George Yang System and method for constructing investment instruments, portfolios , and benchmark indexes with active leveraged written call or put options overlay
CN102880985A (zh) * 2012-09-17 2013-01-16 沈文策 一种提示信息生成方法及装置
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN106227756A (zh) * 2016-07-14 2016-12-14 苏州大学 一种基于情感分类的股票指数预测方法及系统
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN110390408A (zh) * 2018-04-16 2019-10-29 北京京东尚科信息技术有限公司 交易对象预测方法和装置
CN109214590A (zh) * 2018-10-11 2019-01-15 平安科技(深圳)有限公司 基金数据的预测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110968696B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
Al-Kabi et al. An opinion analysis tool for colloquial and standard Arabic
CN108009135B (zh) 生成文档摘要的方法和装置
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
KR101346115B1 (ko) 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법
CN109086375A (zh) 一种基于词向量增强的短文本主题抽取方法
CN112507711A (zh) 文本摘要抽取方法及系统
CN112989802A (zh) 一种弹幕关键词提取方法、装置、设备及介质
KR101326313B1 (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN111966832A (zh) 评价对象的提取方法、装置和电子设备
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN103608805B (zh) 辞典产生装置及方法
CN111754208A (zh) 一种招聘简历自动筛选方法
CN105354184A (zh) 一种使用优化的向量空间模型实现文档自动分类的方法
CN106649255A (zh) 一种对短文本自动分类和识别主题词的方法
CN110968696A (zh) 一种财经博客文本分析方法
Saputri et al. Sentiment analysis on shopee e-commerce using the naïve bayes classifier algorithm
CN105183894B (zh) 过滤网站内链的方法及装置
TWI534640B (zh) Chinese network information monitoring and analysis system and its method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant