CN107403017A - 一种智能分析实时新闻对金融市场影响的方法 - Google Patents
一种智能分析实时新闻对金融市场影响的方法 Download PDFInfo
- Publication number
- CN107403017A CN107403017A CN201710674605.2A CN201710674605A CN107403017A CN 107403017 A CN107403017 A CN 107403017A CN 201710674605 A CN201710674605 A CN 201710674605A CN 107403017 A CN107403017 A CN 107403017A
- Authority
- CN
- China
- Prior art keywords
- topic
- news
- word
- sentence
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于实时新闻的金融市场分析方法技术领域,具体来说是一种智能分析实时新闻对金融市场影响的方法,对新闻按话题进行分类,并按时间进行词频统计,进行话题的热度分析和预测,构建情绪评价体系,对话题的情绪进行评价,最后检验话题是否导致异常收益率,并对其进行量化分析和分类,排除了人工分析时主观因素的干扰,分析结果更为准确和直观,并且实时搜集新闻信息,更具时效性。
Description
[技术领域]
本发明涉及基于实时新闻的金融市场分析方法技术领域,具体来说是一种智能分析实时新闻对金融市场影响的方法。
[背景技术]
社会中发生的事件、国家政策以及各方各面的信息都对金融市场的情况变化有着极为重要的影响,而这些事件的信息往往都会通过新闻对社会公众进行发布。现有技术中,主要通过行业分析师撰写相关领域股票的分析文章,对新闻和金融市场之间的关系进行分析,但往往会受其个人主观因素的影响,并且也很难及时高效的作出准确的分析,因此,本发明设计了一种技术方案,基于实时新闻信息,对金融市场的变动进行分析。
[发明内容]
本发明的目的在于解决现有技术的不足,提供一种智能分析实时新闻对金融市场影响的方法,排除了分析师主观因素的影响,通过智能分析能迅速地得出更加准确的分析结果。
为了实现上述目的,设计一种智能分析实时新闻对金融市场影响的方法,其特征在于步骤如下:
a.抓取原始新闻并进行分词,分词后按新闻时间将词划入不同时间窗并进行词频统计,在检测出主题词后根据主题词的相似度将新闻聚类至话题下;
b.评价话题的当前热度,并建立热度预测模型对未来热度进行预测;
c.对新闻中的命名实体进行识别,以得到与话题相关的投资标的;
d.选择研究话题,判断研究话题对相关的投资标的的影响是否明显并量化其影响程度,然后对投资标的的涨跌情况进行分类。
所述的步骤a具体包括:
a1.实时抓取原始新闻,剔除异常的URL地址和异常内容后提取出提取新闻元数据;
a2.将新闻元数据与词库中的词进行逐一匹配,直至将新闻元数据中的所有词分开,按新闻时间将词划入不同的时间窗,对各个时间窗内不同词的词频进行统计,并去掉词频最高和最低的词;
a3.通过词频计算各词在时间窗中的词频变化速率,基于词频变化速率和词频计算词的热度,以热度大于一定值的词以构成主题词库,公式如下:
Vij=Cij/Cijavg
Pij=logVij+K*log(Cij/Cjavg)
其中,Pij表示词i在时间窗j中的热度,Vij表示词i在时间窗j中的变化速率,Cij表示词i在时间窗j中的词频,Cijavg表示词i在前j-1个时间窗的平均词频,Cjavg表示时间窗j内的最高词频,K取值在-1~1之间;
a4.将每个新闻的主题词库逐一与已有话题的主体词库进行相似度比较,将相似的新闻加入已有话题中,并将该新闻的主题词库与已有话题的主体词库相合并;若不相似,则将该新闻作为一个新话题,并将该新闻的主题词库作为新话题的主体词库,所述的相似度为新闻词频向量和话题词频向量之间的欧式距离,所述的新闻词频向量和话题词频向量由主体词的词频构成,所述的欧式距离小于0.5时判断新闻和话题相似。
所述的步骤b具体包括:
b1.通过每个话题的热度因子计算出话题的当前热度;
b2.建立历史新闻及新闻话题样本库,将样本库拆分为训练集和测试集,基于训练集得到话题热度预测模型,并通过话题热度预测模型预测未来的话题热度值。
所述的热度因子包括数量因子、影响力因子、用户因子和价值因子,
所述的数量因子指话题中新闻的总数量;
所述的影响力因子由话题中新闻的网站来源、作者、是否置顶决定;
所述的用户因子由话题中新闻的阅读量、评论、跟帖等用户反馈决定;
所述的价值因子由话题中新闻的内容的商业价值、市场价值决定;
计算话题当前热度的公式如下:
话题的当前热度=K1*数量因子+K2*影响力因子+K3*用户因子+K4*价值因子,K1、K2、K3、K4均取值为0.25。
所述的话题热度预测模型通过深度学习方法获得,以话题的热度因子作为话题热度预测模型的输入参数,以未来的话题热度值为话题热度预测模型的输出参数。
所述的步骤c具体包括:
c1.定义用以区分某个词是否属于命名实体的标注集,并对新闻分词后的文本进行标注,得到标注语料;
c2.建立特征模板,所述的特征模板由命名实体及其词性、命名实体前两个词和命名实体后两个词组成;
c3.将特征模板和若干作为训练语料的标注语料输入CRF模型,使用最大似然函数估计模型参数:即先对模型取对数,再通过倒数来求得使该对数函数最大化的参数值;
c4.输入某一命名实体,并将标注语料输入模型,通过识别算法寻找与输入的命名实体相匹配的语料,并将命名实体归入与该命名实体相匹配的语料所属话题的投资标的列表内,所述的识别算法如下:
1)首先初始化变量,判断词的最后一个字与命名实体的最后一个字是否相同;
2)如果是,则将该词从该状态回溯,找到最优状态序列;
3)如果不是,则选择其他的变量最大的词,并进行状态回溯,找到最优状态序列;
4)循环上述步骤,直至所有的词都识别完毕。
所述的命名实体为股票名称中的字词。
所述的步骤d具体包括:
d1.提取金融数据库与研究话题相关的投资标的的信息,并提取研究话题的时间窗日期,计算话题时间窗日期前后相关投资标的收益率,公式如下:
收益率=(股息+卖出价格-买进价格)/买进价格×100%
比较话题时间窗日期前后的收益率结果,并对结果进行统计显著性检验,以判断研究话题对股价的影响是否明显;
d2.以历史数据为训练集,未来的预测数据为预测集,构建由每日的话题向量和投资标的涨跌情况构成的样本点,对数据根据涨跌情况进行分类成上涨和下跌两类后,通过最大化几何间隔确定最优分类超平面,并利用得到的超平面对预测集中的股票涨跌情况进行分类。
所述的步骤d之前还设有评价话题情绪的步骤,具体如下:
1)衡量报道基调:首先对新闻中每个句子计算其主题相关性,新闻由句子a1,a2,...al组成,句子ai由词语k1,k2,...km组成,句子ai与标题s的相关性为:
Rel(s,ai)=(∑bs,kn*bi,kn)/[(∑bs,kn)(∑bi,kn)]0.5;
式中bs,kn表示标题s中词语kn在句子中的权重,bi,kn表示句子i中词语kn在句子中的权重,1≤n≤m,1≤i≤l。
然后考察每个句子的情感、位置和特征词属性,句子中含有的情感词越多,其情感属性越高;位于新闻开头和结尾的句子,位置属性高;句子中含有的概括性和阐述观点的词语越多,其特征词属性越高;
对每个句子,将其主题相关性与上述三个属性加权平均,得分最高者作为表明该篇新闻极性的句子;
根据正面、中性、负面三个词库来分类提取上述选择的句子中的短语,作为对该篇新闻分类的依据;
2)衡量报道曝光度:以话题相关新闻的报道数量来衡量曝光度;
3)衡量公众关注度:以话题相关新闻的点击量来衡量公众关注度。
本发明同现有技术相比,其优点在于:对新闻按话题进行分类,并按时间进行词频统计,进行话题的热度分析和预测,构建情绪评价体系,对话题的情绪进行评价,最后检验话题是否导致异常收益率,并对其进行量化分析和分类,排除了人工分析时主观因素的干扰,分析结果更为准确和直观,并且实时搜集新闻信息,更具时效性。
[具体实施方式]
下面对本发明作进一步说明,这种方法的原理对本专业的人来说是非常清楚的。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
步骤a1的具体操作如下:抓取新闻门户、行业门户、财经门户等网站的实时新闻URL地址;根据异常URL特征识别等方法清洗URL地址,剔除异常的URL;实时解析新闻URL地址的原文内容;根据异常内容特征识别等方法清洗原文内容,剔除异常的原文内容。利用正则表达式提取新闻元数据,包括:发表时间、标题、正文、新闻链接、来源网站等。在提取到的文本信息的基础上,对正文内容进行预处理,包括但不限于:利用垃圾段落特征识别等方法,剔除广告、声明等垃圾段落内容;
步骤a2的具体操作如下:
1)分词:首先将文本中的文字与已有的词库中的词逐一匹配,若匹配成功,则将该词与文本分开,将剩余文本与词库中的词再进行匹配。不断循环,直到结束。
2)词频统计:将分词中得到的词按新闻时间划入不同的时间窗,对同一时间窗下的词,得到一个词语表,统计该表的总词数并计算不同词的词频,去掉频率特别高及特别低的词。
示例如下:
假设时间窗长度为2天,那么6月27日和6月28日为同一时间窗,对该时间窗下的词频进行统计并剔除高频和低频的词,结果为:
词 | 词频 |
爱立信 | 3 |
将 | 2 |
电信 | 2 |
和 | 2 |
业务 | 2 |
发展 | 2 |
但 | 2 |
全球 | 2 |
VR产业 | 2 |
应用 | 2 |
尚 | 2 |
步骤a3的具体操作如下:仍以上述两则新闻为例,选择K为0.5,则词的热度为:
步骤a4具体如下:将每个新闻的主题词库逐一与已有话题的主体词库进行相似度比较,将相似的新闻加入已有话题中,并将该新闻的主题词库与已有话题的主体词库相合并;若不相似,则将该新闻作为一个新话题,并将该新闻的主题词库作为新话题的主体词库,所述的相似度为新闻词频向量和话题词频向量之间的欧式距离,所述的新闻词频向量和话题词频向量由主体词的词频构成,例如某新闻的4个主题词词频分别为1,2,3,4,则该新闻词频向量即为【1,2.3.4】。
评价话题情绪的提取规则如下,设有正面、中性、负面三个词库,通过词库与表明该篇新闻极性的句子进行比对,以确定其极性:
具体步骤如下:
新闻:“6月21日,中国沈阳·数据开放与应用创新大赛总决赛在沈阳举行,北京大学、同济大学等10个进入总决赛的团队围绕“数据服务沈阳、打造智慧交通”主题提出解决方案,分享了57万元奖金。其中,来自同济大学的“低碳先锋队”凭借“安途”作品摘得桂冠,获得数据创新大奖以及20万元奖金。
作为国家大数据综合应用试验区,沈阳市通过数据开放,吸引各方面智慧推动大数据的创新应用,借鉴国际国内数据创新的有关经验,启动了数据开放与应用创新大赛。其间,共有548人报名参赛,组建了126支参赛团队,作品多集中在行程优化、交通安全、绿色出行、定制出行、空间布局等领域。沈阳市交通、公安、城建、环保、气象、地铁等单位为海内外个人和机构开放了近1TB的26项交通类数据集,并建立了完备的数据提供、数据发布、数据授权的分工机制。”
该新闻中可以表明新闻极性的句子是“中国沈阳·数据开放与应用创新大赛总决赛在沈阳举行。”根据提取规则,可以判断新闻情绪为中性。
步骤C1中的标注集示例如下:
步骤C2中的特征模板如下:
特征模板:
步骤C4具体如下:
给出命名实体为:爱立信,给出一则新闻如下:“爱立信将专注于电信客户和网络。爱立信曾力图推动其媒体、公共事业和运输业务的发展,但希望不幸落空,爱立信不得已选择将重点转回电信公司的销售业务。”
经前述的分词步骤后,得到的新闻分词文本为:“爱立信将专注于电信客户和网络爱立信曾力图推动其媒体公共事业和运输业务的发展但希望不幸落空爱立信不得已选择将重点转回电信公司的销售业务。”
识别算法如下,首先初始化变量,然后将分词文本中的词逐一进行识别,判断上述各词的最后一个字与命名实体的最后一个字是否相同,如果相同,则该词的变量值加1,不同则该词的变量值不变;然后对于最大的词(在此情况下则为变量为1的词),从当前状态回溯,找到最优状态序列,即确认其有几个字与命名实体相同,继续识别其倒数第二个字是否与命名实体相同,相同则变量加1,不同则变量不变,一直到命名实体中的字都识别完毕,记录下变量的值。如文本中“电信”的最后一个字与命名实体的最后一个字相同,则对这个词从该状态回溯,继续判断与命名实体的倒数第二个字是否相同,不相同则将变量数1记录并返回对其他变量为1的词进行识别;又如文本中“爱立信”的最后一个字与命名实体的最后一个字相同,对这词从该状态回溯,继续判断与命名实体的倒数第二个字是否相同,也相同则再向前回溯,判断与命名实体的倒数第三个字是否相同,发现改词与命名实体完全相同,则记录下变量数3。如此,对文本中的每一个词逐一进行识别。
对倒数第一个字与命名实体不相同的词,计算其可能为命名实体的概率,选择概率最大的词,例如选择字数大于等于命名实体的词,判断其与命名实体的倒数第二个字是否相同,并记录下相应变量的值。
Claims (9)
1.一种智能分析实时新闻对金融市场影响的方法,其特征在于步骤如下:
a.抓取原始新闻并进行分词,分词后按新闻时间将词划入不同时间窗并进行词频统计,在检测出主题词后根据主题词的相似度将新闻聚类至话题下;
b.评价话题的当前热度,并建立热度预测模型对未来热度进行预测;
c.对新闻中的命名实体进行识别,以得到与话题相关的投资标的;
d.选择研究话题,判断研究话题对相关的投资标的的影响是否明显并分析其影响程度,然后对投资标的的涨跌情况进行分类。
2.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的步骤a具体包括:
a1.实时抓取原始新闻,剔除异常的URL地址和异常内容后提取出提取新闻元数据;
a2.将新闻元数据与词库中的词进行逐一匹配,直至将新闻元数据中的所有词分开,按新闻时间将词划入不同的时间窗,对各个时间窗内不同词的词频进行统计,并去掉词频最高和最低的词;
a3.通过词频计算各词在时间窗中的词频变化速率,基于词频变化速率和词频计算词的热度,以热度大于一定值的词以构成主题词库,公式如下:
Vij=Cij/Cijavg
Pij=logVij+K*log(Cij/Cjavg)
其中,Pij表示词i在时间窗j中的热度,Vij表示词i在时间窗j中的变化速率,Cij表示词i在时间窗j中的词频,Cijavg表示词i在前j-1个时间窗的平均词频,Cjavg表示时间窗j内的最高词频,K取值在-1~1之间;
a4.将每个新闻的主题词库逐一与已有话题的主体词库进行相似度比较,将相似的新闻加入已有话题中,并将该新闻的主题词库与已有话题的主体词库相合并;若不相似,则将该新闻作为一个新话题,并将该新闻的主题词库作为新话题的主体词库,所述的相似度为新闻词频向量和话题词频向量之间的欧式距离,所述的新闻词频向量和话题词频向量由主体词的词频构成。
3.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的步骤b具体包括:
b1.通过每个话题的热度因子计算出话题的当前热度;
b2.建立历史新闻及新闻话题样本库,将样本库拆分为训练集和测试集,基于训练集得到话题热度预测模型,并通过话题热度预测模型预测未来的话题热度值。
4.如权利要求3所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的热度因子包括数量因子、影响力因子、用户因子和价值因子,
所述的数量因子指话题中新闻的总数量;
所述的影响力因子由话题中新闻的网站来源、作者、是否置顶决定;
所述的用户因子由话题中新闻的阅读量、评论、跟帖等用户反馈决定;
所述的价值因子由话题中新闻的内容的商业价值、市场价值决定;
计算话题当前热度的公式如下:
话题的当前热度=K1*数量因子+K2*影响力因子+K3*用户因子+K4*价值因子,K1、K2、K3、K4均取值为0.25。
5.如权利要求3所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的话题热度预测模型通过深度学习方法获得,以话题的热度因子作为话题热度预测模型的输入参数,以未来的话题热度值为话题热度预测模型的输出参数。
6.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的步骤c具体包括:
c1.定义用以区分某个词是否属于命名实体的标注集,并对新闻分词后的文本进行标注,得到标注语料;
c2.建立特征模板,所述的特征模板由命名实体及其词性、命名实体前两个词和命名实体后两个词组成;
c3.将特征模板和若干作为训练语料的标注语料输入CRF模型,使用最大似然函数估计模型参数:即先对模型取对数,再通过倒数来求得使该对数函数最大化的参数值;
c4.输入某一命名实体,并将标注语料输入模型,通过识别算法寻找与输入的命名实体相匹配的语料,并将命名实体归入与该命名实体相匹配的语料所属话题的投资标的列表内,所述的识别算法如下:
1)首先初始化变量,判断词的最后一个字与命名实体的最后一个字是否相同;
2)如果是,则将该词从该状态回溯,找到最优状态序列;
3)如果不是,则选择其他的变量最大的词,并进行状态回溯,找到最优状态序列;
4)循环上述步骤,直至所有的词都识别完毕。
7.如权利要求7所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的命名实体为股票名称中的字词。
8.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的步骤d具体包括:
d1.提取金融数据库与研究话题相关的投资标的的信息,并提取研究话题的时间窗日期,计算话题时间窗日期前后相关投资标的收益率,公式如下:
收益率=(股息+卖出价格-买进价格)/买进价格×100%
比较话题时间窗日期前后的收益率结果,并对结果进行统计显著性检验,以判断研究话题对股价的影响是否明显;
d3.以历史数据为训练集,未来的预测数据为预测集,构建由每日的话题向量和投资标的涨跌情况构成的样本点,对数据根据涨跌情况进行分类后,通过最大化几何间隔确定最优分类超平面,并利用得到的超平面对预测集中的股票涨跌情况进行分类。
9.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的步骤d之前还设有评价话题情绪的步骤,具体如下:
1)衡量报道基调:首先对新闻中每个句子计算其主题相关性,新闻由句子a1,a2,...al组成,句子ai由词语k1,k2,...km组成,句子ai与标题s的相关性为:
Rel(s,ai)=(∑bs,kn*bi,kn)/[(∑bs,kn)(∑bi,kn)]0.5;
式中bs,kn表示标题s中词语kn在句子中的权重,bi,kn表示句子i中词语kn在句子中的权重,1≤n≤m,1≤i≤l。
然后考察每个句子的情感、位置和特征词属性,句子中含有的情感词越多,其情感属性越高;位于新闻开头和结尾的句子,位置属性高;句子中含有的概括性和阐述观点的词语越多,其特征词属性越高;
对每个句子,将其主题相关性与上述三个属性加权平均,得分最高者作为表明该篇新闻极性的句子;
根据正面、中性、负面三个词库来分类提取上述选择的句子中的短语,作为对该篇新闻分类的依据;
2)衡量报道曝光度:以话题相关新闻的报道数量来衡量曝光度;
3)衡量公众关注度:以话题相关新闻的点击量来衡量公众关注度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710674605.2A CN107403017A (zh) | 2017-08-09 | 2017-08-09 | 一种智能分析实时新闻对金融市场影响的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710674605.2A CN107403017A (zh) | 2017-08-09 | 2017-08-09 | 一种智能分析实时新闻对金融市场影响的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107403017A true CN107403017A (zh) | 2017-11-28 |
Family
ID=60402683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710674605.2A Pending CN107403017A (zh) | 2017-08-09 | 2017-08-09 | 一种智能分析实时新闻对金融市场影响的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107403017A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268451A (zh) * | 2018-03-13 | 2018-07-10 | 中国科学院大学 | 一种股票情感指数构建方法及系统 |
CN108573025A (zh) * | 2018-03-12 | 2018-09-25 | 北京云知声信息技术有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN109284369A (zh) * | 2018-08-01 | 2019-01-29 | 数据地平线(广州)科技有限公司 | 证券新闻资讯重要性的判定方法、系统、装置及介质 |
CN109284367A (zh) * | 2018-11-30 | 2019-01-29 | 北京字节跳动网络技术有限公司 | 用于处理文本的方法和装置 |
CN109446336A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻筛选的方法、装置、计算机设备和存储介质 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN109492097A (zh) * | 2018-10-23 | 2019-03-19 | 重庆誉存大数据科技有限公司 | 一种企业新闻数据风险分类方法 |
CN110222864A (zh) * | 2019-04-26 | 2019-09-10 | 浙江工业大学 | 基于支持向量机的新闻极性对股票价格变化趋势预测的方法 |
WO2019205378A1 (zh) * | 2018-04-26 | 2019-10-31 | 平安科技(深圳)有限公司 | 基于舆情因子的投资选股方法、装置及存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
WO2019214048A1 (zh) * | 2018-05-08 | 2019-11-14 | 平安科技(深圳)有限公司 | 自动生成投资建议的方法、装置、计算机设备和存储介质 |
CN111008525A (zh) * | 2020-03-11 | 2020-04-14 | 北京搜狐新媒体信息技术有限公司 | 一种关注度的计算方法及系统 |
CN111241399A (zh) * | 2020-01-10 | 2020-06-05 | 杜长江 | 一种上市公司关注度的评估方法 |
CN116611696A (zh) * | 2023-07-19 | 2023-08-18 | 北京大学 | 一种基于时间序列分析的数字资产市场风险预测系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215988A1 (en) * | 2000-06-21 | 2008-09-04 | Ebay Inc. | System and method to process information contributed by members of a virtual community |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103778215A (zh) * | 2014-01-17 | 2014-05-07 | 北京理工大学 | 一种基于情感分析和隐马尔科夫模型融合的股市预测方法 |
CN105740359A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 个股识别的方法及装置 |
CN107357860A (zh) * | 2017-06-30 | 2017-11-17 | 中山大学 | 一种基于新闻数据的个股情绪汇聚方法 |
-
2017
- 2017-08-09 CN CN201710674605.2A patent/CN107403017A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215988A1 (en) * | 2000-06-21 | 2008-09-04 | Ebay Inc. | System and method to process information contributed by members of a virtual community |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103778215A (zh) * | 2014-01-17 | 2014-05-07 | 北京理工大学 | 一种基于情感分析和隐马尔科夫模型融合的股市预测方法 |
CN105740359A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 个股识别的方法及装置 |
CN107357860A (zh) * | 2017-06-30 | 2017-11-17 | 中山大学 | 一种基于新闻数据的个股情绪汇聚方法 |
Non-Patent Citations (1)
Title |
---|
赵茜倩: "互联网财经新闻对中国股市的影响研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573025A (zh) * | 2018-03-12 | 2018-09-25 | 北京云知声信息技术有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108573025B (zh) * | 2018-03-12 | 2021-07-02 | 云知声智能科技股份有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108268451A (zh) * | 2018-03-13 | 2018-07-10 | 中国科学院大学 | 一种股票情感指数构建方法及系统 |
WO2019205378A1 (zh) * | 2018-04-26 | 2019-10-31 | 平安科技(深圳)有限公司 | 基于舆情因子的投资选股方法、装置及存储介质 |
WO2019214048A1 (zh) * | 2018-05-08 | 2019-11-14 | 平安科技(深圳)有限公司 | 自动生成投资建议的方法、装置、计算机设备和存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN109284369A (zh) * | 2018-08-01 | 2019-01-29 | 数据地平线(广州)科技有限公司 | 证券新闻资讯重要性的判定方法、系统、装置及介质 |
CN109284369B (zh) * | 2018-08-01 | 2020-10-09 | 数据地平线(广州)科技有限公司 | 证券新闻资讯重要性的判定方法、系统、装置及介质 |
CN109446336A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻筛选的方法、装置、计算机设备和存储介质 |
CN109446336B (zh) * | 2018-09-18 | 2024-05-03 | 平安科技(深圳)有限公司 | 新闻筛选的方法、装置、计算机设备和存储介质 |
CN109492097A (zh) * | 2018-10-23 | 2019-03-19 | 重庆誉存大数据科技有限公司 | 一种企业新闻数据风险分类方法 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN109492097B (zh) * | 2018-10-23 | 2021-11-16 | 重庆誉存大数据科技有限公司 | 一种企业新闻数据风险分类方法 |
CN109284367A (zh) * | 2018-11-30 | 2019-01-29 | 北京字节跳动网络技术有限公司 | 用于处理文本的方法和装置 |
CN110222864A (zh) * | 2019-04-26 | 2019-09-10 | 浙江工业大学 | 基于支持向量机的新闻极性对股票价格变化趋势预测的方法 |
CN111241399B (zh) * | 2020-01-10 | 2023-07-04 | 杜长江 | 一种上市公司关注度的评估方法 |
CN111241399A (zh) * | 2020-01-10 | 2020-06-05 | 杜长江 | 一种上市公司关注度的评估方法 |
CN111008525B (zh) * | 2020-03-11 | 2020-06-30 | 北京搜狐新媒体信息技术有限公司 | 一种关注度的计算方法及系统 |
CN111008525A (zh) * | 2020-03-11 | 2020-04-14 | 北京搜狐新媒体信息技术有限公司 | 一种关注度的计算方法及系统 |
CN116611696A (zh) * | 2023-07-19 | 2023-08-18 | 北京大学 | 一种基于时间序列分析的数字资产市场风险预测系统 |
CN116611696B (zh) * | 2023-07-19 | 2024-01-26 | 北京大学 | 一种基于时间序列分析的数字资产市场风险预测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107403017A (zh) | 一种智能分析实时新闻对金融市场影响的方法 | |
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
Sehgal et al. | Sops: stock prediction using web sentiment | |
CN107025299B (zh) | 一种基于加权lda主题模型的金融舆情感知方法 | |
CN106529804A (zh) | 基于文本挖掘技术的客户投诉预警监测分析方法 | |
CN108038240A (zh) | 基于内容、用户多因素分析的社交网络谣言检测方法 | |
CN111914087B (zh) | 一种舆情分析方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN106530127A (zh) | 基于文本挖掘技术的客户投诉预警监测分析系统 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN105320960A (zh) | 一种基于投票的跨语言主客观情感分类方法 | |
CN105893582A (zh) | 一种社交网络用户情绪判别方法 | |
CN108614855A (zh) | 一种谣言识别方法 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN106547866A (zh) | 一种基于情感词随机共现网络的细粒度情感分类方法 | |
CN110909529A (zh) | 一种公司形象提升系统的用户情感分析和预判系统 | |
Alostad et al. | Directional prediction of stock prices using breaking news on Twitter | |
Peng | Analysis of investor sentiment and stock market volatility trend based on big data strategy | |
CN106202299B (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 | |
Kumar et al. | Emotion analysis of news and social media text for stock price prediction using svm-lstm-gru composite model | |
CN109344248B (zh) | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 | |
CN113064989B (zh) | 一种交通舆情感知特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171128 |
|
RJ01 | Rejection of invention patent application after publication |