CN105740353A - 个股和文章关联度的计算方法及其系统 - Google Patents

个股和文章关联度的计算方法及其系统 Download PDF

Info

Publication number
CN105740353A
CN105740353A CN201610050955.7A CN201610050955A CN105740353A CN 105740353 A CN105740353 A CN 105740353A CN 201610050955 A CN201610050955 A CN 201610050955A CN 105740353 A CN105740353 A CN 105740353A
Authority
CN
China
Prior art keywords
personal share
title
emotion
degree
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610050955.7A
Other languages
English (en)
Inventor
陈发君
黄金才
刘忠
程光权
朱承
修保新
陈超
冯旸赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201610050955.7A priority Critical patent/CN105740353A/zh
Publication of CN105740353A publication Critical patent/CN105740353A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种个股和文章关联度的计算方法及其系统,系统包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块。通过每天获取海量财经新闻语料,进行文本数据挖掘,分析实时获取的语料中的个股与文章的关联关系,分析实时获取的语料中的个股情感,按日汇总个股与文章的关联度即个股的热度;使投资者能在统一的入口检索其关注的股票的市场行情资讯,并提供与文章的关联度、情感和股票的历史热度指标供查阅,成为投资者个股行情资讯的检索利器。

Description

个股和文章关联度的计算方法及其系统
技术领域
本发明涉及实体与海量文章的关联分析,尤其涉及个股实体与文章的关联分析方法及其系统。
背景技术
当前对于个股相关资讯的获取主要通过搜索引擎工具检索,这种方法存在以下缺点:
1、噪音大:广告推广链接多,一般情况下广告的搜索结果都是排在靠前位置;语义错误,搜索引擎主要根据关键字获取搜索结果,不是语义层次的,当有歧义时,有很多不准确的结果。
2、度高:对于热点新闻资讯,各大网站都会有报导;很多情况下标题和内容都是一模一样的,但是搜索引擎不会帮你去除重复。
3、缺少关键指标:搜索引擎的结果一般只能说明文章中含有你搜索的关键字(这里是个股),并没有说明个股与文章的关联度有多大,情感信息(是利好还是利空),投资者还需要发大量时间和精力取阅读分析才能做出投资决策。
4、没有时间轨迹:搜索引擎没有时间维度,对于投资者关注的股票,只是能获取当前的文章,不能查阅历史热度,不利于投资者的决策选择。
发明内容
针对现有技术存在的缺陷,本发明提出一种个股和文章关联度的计算方法及其系统。通过每天获取海量财经新闻语料,进行文本数据挖掘,分析出个股与文章的关联度,构建个股相关文章列表和历史热度;使投资者能在统一的入口检索其关注的股票的市场行情资讯,并提供与文章的关联度、情感和股票的历史热度指标供查阅,成为投资者个股行情资讯的检索利器。
本发明的技术方案是:
一种个股和文章关联度的计算方法,包括以下步骤:
S1.数据获取
实时的从互联网上爬取获取财经类新闻作为语料并存档入库;
S2.关联度分析
分析实时获取的语料中的个股与文章的关联关系,计算关联度;
S3.热度分析
按日汇总个股与文章的关联度即个股的热度;
S4.情感分析
分析实时获取的语料中的个股情感;
S5.数据存储
将关联度分析、热度分析和情感分析的结果存入mysql数据库中;
S6.数据检索
通过WebService对终端用户提供查询接口,用户输入个股信息,返回个股关联的文章及关联度、个股情感和个股热度信息;
本发明,所述步骤S2中关联度的计算方法为:
S2.1获取语料并区分标题和内容,分词并计算各个词的提及数,这里分词可使用的分词算法有:正向最大匹配分词,反向最大匹配分词,双向最大匹配分词,N-最短路分词,隐马尔科夫模型(HMM)分词,CRF分词等;
S2.2对于个股A和新闻N,其关联度计算如下:
S2.2.1记个股A的代码、同义词、简称、全称在新闻N的标题和内容中出现的次数分别为nat_id、nat_syn、nat_short、nat_long和nct_id、nct_syn、nct_short、nct_long;记股票关键字字典为Stocks;记需要股票代码和简称一块出现的个股字典为codeAndName;
S2.2.2计算个股A和标题的关联度assetTitleRel:
1)如果标题中没有包含股票关键字字典Stocks中的词,并且个股简称和代码没有同时在标题中出现,则assetTitleRel=(nat_syn+nat_long)*2;
2)如果标题中没有包含股票关键字字典Stocks中的词,并且个股简称和代码同时在标题中出现,assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
3)如果标题中包含股票关键字字典Stocks中的词,并且个股A不在codeAndName中,则assetTitleRel=(nat_syn+nat_long+nat_short)*2;
4)如果标题中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码没有同时在标题中出现,则assetTitleRel=(nat_syn+nat_long)*2;
5)如果标题中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码同时在标题中出现,则assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
S2.2.3计算个股A和内容的关联度assetContentRel:
1)如果内容中没有包含股票关键字字典Stocks中的词,并且个股简称和代码没有同时在内容中出现,则assetContentRel=(nac_syn+nac_long)*2;
2)如果内容中没有包含股票关键字字典Stocks中的词,并且个股简称和代码同时在内容中出现,assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
3)如果内容中包含股票关键字字典Stocks中的词,并且个股A不在codeAndName中,则assetContentRel=(nac_syn+nac_long+nac_short)*2;
4)如果内容中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码没有同时在内容中出现,则assetContentRel=(nac_syn+nac_long)*2;
5)如果内容中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码同时在内容中出现,则
assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
S.2.4个股A和新闻N的关联度assetRel等于个股A与标题关联度加上个股A与内容关联度,即assetRel=assetTitleRel+assetContentRel。
本发明,步骤S3中热度分析的具体方法为:
S3.1按天统计股票与新闻关联度:对于股票A,在统计日期D有dn篇文章与A关联,其关联度分别为a_d_1,a_d_2,...a_d_dn,则股票A在统计日期D的热度a_d=a_d_1+a_d_2+..a_d_dn;
S3.2每一天都统计所有股票的当天热度,便可获得历史热度信息。;
本发明,步骤S4中情感分析的具体方法为:
S4.1获取语料并区分标题和内容;
S4.2对于个股A和新闻N,其情感得分计算如下:
S4.2.1记新闻N的标题为Title,内容为Content;将Title和Content分别分词;记正面情感词库为Post,负面情感词库为Neg,情感程度词库为Degree;
S4.2.2计算标题情感得分titleScore:若Title中正面情感词出现pt次,负面情感词出现nt次,则titleScore=pt-nt;
S4.2.3计算个股A的标题情感得分assetTitleScore:记个股A的同义词、简称、全称、股票代号在标题Title中出现的次数总和为numt;若情感程度词在标题Title中没有出现,则assetTitleScore=numt;若情感程度词在标题中出现了i次,对应的情感程度分别为d_1,d_2,...d_i;则assetTitleScore=numt*d_1*d_2*...*d_i;
S4.2.4对于新闻内容Content划分为以子句为单位的序列{subSentence_i,(0<i<=tSS)},tSS为新闻内容Content包含的子句个数;记个股A的同义词、简称、全称、股票代号在子句subSentence_i中出现的次数总和为numcss_i次;正面情感词在子句subSentence_i中出现了pcss_i次;负面情感词在子句subSentence_i中出现了ncss_i次;情感程度词在子句subSentence_i中出现了j次,对应的情感程度分别为d_i1,d_i2,...,d_ij;
S4.2.5个股A在子句subSentence_i中的情感得分
assetSubSentenceScore_i=(pcss_i-ncss_i)*d_i1*...*d_ij;
S4.2.6计算个股在新闻内容中的归一化情感值assetNormalValue;设
pc=pcss_1+pcss_2+...+pcss_tSS,nc=ncss_1+ncss_2+...+ncss_tSS;则assetNormalValue=(pc-nc)/(pc+nc);
S4.2.7计算个股A和新闻N的情感得分assetScore:1)如果个股A在标题中出现,则情感得分为个股A的标题情感得分,即assetScore=assetTitleScore;2)如果个股A在标题中没有出现,在内容中出现了并且归一化情感值assetNormalValue小于等于0.1,则情感得分为标题情感得分,即assetScore=titleScore;3)如果个股A在标题中没有出现,在内容中出现了并且归一化情感值assetNormalValue大于0.1,则情感得分为新闻内容中各个子句的情感得分之和,即
assetScore=assetSubSentenceScore_1+assetSubSentenceScore_2+...+assetSubSentenceScore_tSS;
S4.2.8对于情感得分assetScore如果为正数表示为利好消息,如果为负数表示利空消息。
本发明提供一种个股和文章关联度的计算系统,用于在金融数据分析中,建立个股和文章相关度、情感并分析个股的热度,其能够帮助金融投资者迅速锁定其关注个股的相关文章获取详尽市场信息,给投资者提供投资决策资讯。系统包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块,
所述数据获取模块实时的从互联网上爬取获取财经类新闻作为语料并存档入库;
所述关联度分析模块与数据获取模块连接,关联度分析模块分析实时获取的语料中的个股与文章的关联关系,计算关联度;
所述情感分析模块与数据获取模块连接,情感分析模块分析实时获取的语料中的个股情感;
所述热度分析模块与关联度分析模块连接,热度分析模块按日汇总个股与文章的关联度即个股的热度;
所述数据存储模块与关联度分析模块、情感分析模块以及热度分析模块连接,数据存储模块将关联度分析、热度分析和情感分析的结果存入mysql数据库中;
所述数据检索模块与数据存储模块连接,数据检索模块通过WebService对终端用户提供查询接口,用户输入个股信息,返回个股关联的文章及关联度、个股情感和个股热度信息。
本发明的有益技术效果:
当投资者关注某些或某只个股时,需要快速准确的获取此个股的相关的信息,以便及时抓住瞬息万变的投资机遇。比如:投资者关注佛山星期六鞋业股份,想知道当前这只个股相关的市场行情,如果去搜索引擎检索出来了一堆不相关的广告链接、重复的新闻等等;也不能简洁明了知道搜索结果的文章跟个股的相关度和利好利空消息,需要一个个去阅读文章才能知道文章是否真的与个股相关、是利好还是利空。本发明致力于帮助投资者处理噪音、重复新闻的过滤并且计算个股与新闻的关联度及情感得分,从而使投资者能够快速高效的检索到个股市场行情咨询的相关文章及相关度和利好利空信息等。
本发明提供的个股与文章的关联度和情感得分是实时的、无噪音的、准确率较高、全面的以及含有历史轨迹的。因为文章是实时获取分析计算结果的;关联度和情感得分是通过独反创的系列算法计算得到的,而非简单的关键字匹配;爬取了各个主要的财经网站文章故做到没有遗漏市场信息,不像搜索引擎由于噪音过大导致无法查阅的全面的信息;统计了历史热度,其历史趋势与个股股价走势结合可以提供给投资者作为趋势关系分析的依据。
附图说明
图1为本发明一种个股和文章关联度的计算系统的功能模块图
图2为本发明的流程图
图3为关联度计算的流程图
图4为情感得分计算流程图
具体实施方式
下面结合附图,对本发明作进一步的说明:
参照图1,一种个股和文章关联度的计算系统,系统包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块,所述数据获取模块实时的从互联网上爬取获取财经类新闻作为语料并存档入库;所述关联度分析模块与数据获取模块连接,关联度分析模块分析实时获取的语料中的个股与文章的关联关系,计算关联度;所述情感分析模块与数据获取模块连接,情感分析模块分析实时获取的语料中的个股情感;所述热度分析模块与关联度分析模块连接,热度分析模块按日汇总个股与文章的关联度即个股的热度;所述数据存储模块与关联度分析模块、情感分析模块以及热度分析模块连接,数据存储模块将关联度分析、热度分析和情感分析的结果存入mysql数据库中;所述数据检索模块与数据存储模块连接,数据检索模块通过WebService对终端用户提供查询接口,用户输入个股信息,返回个股关联的文章及关联度、个股情感和个股热度信息。
参照图2,一种个股和文章关联度的计算方法包含如下步骤:
a)数据获取:实时的从互联网上爬取财经类新闻作为语料并存档入库。
b)关联度分析:分析实时获取的语料中的个股与文章的关联关系。
c)热度分析:按日汇总个股与文章的关联度即个股的热度。
d)情感分析:分析实时获取的语料中的个股情感。
e)数据存储:将关联度分析、热度分析和情感分析的结果存入mysql数据库中。
f)数据检索:通过WebService对终端用户提供查询接口,用户输入个股信息(个股代码、个股简称或个股全称),返回个股关联的文章及关联度、个股情感和个股热度信息。
参照图3,为关联度计算的流程图,关联度的计算方法为:
S2.1获取语料并区分标题和内容,使用N-最短路分词并计算各个词的提及数;
S2.2对于个股A和新闻N,其关联度计算如下:
S2.2.1记个股A的代码、同义词、简称、全称在新闻N的标题和内容中出现的次数分别为nat_id、nat_syn、nat_short、nat_long和nct_id、nct_syn、nct_short、nct_long;记股票关键字字典为Stocks;记需要股票代码和简称一块出现的个股字典为codeAndName;
S2.2.2计算个股A和标题的关联度assetTitleRel:
1)如果标题中没有包含股票关键字字典Stocks中的词,并且个股简称和代码没有同时在标题中出现,则assetTitleRel=(nat_syn+nat_long)*2;
2)如果标题中没有包含股票关键字字典Stocks中的词,并且个股简称和代码同时在标题中出现,assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
3)如果标题中包含股票关键字字典Stocks中的词,并且个股A不在codeAndName中,则assetTitleRel=(nat_syn+nat_long+nat_short)*2;
4)如果标题中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码没有同时在标题中出现,则assetTitleRel=(nat_syn+nat_long)*2;
5)如果标题中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码同时在标题中出现,则assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
S2.2.3计算个股A和内容的关联度assetContentRel:
1)如果内容中没有包含股票关键字字典Stocks中的词,并且个股简称和代码没有同时在内容中出现,则assetContentRel=(nac_syn+nac_long)*2;
2)如果内容中没有包含股票关键字字典Stocks中的词,并且个股简称和代码同时在内容中出现,assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
3)如果内容中包含股票关键字字典Stocks中的词,并且个股A不在codeAndName中,则assetContentRel=(nac_syn+nac_long+nac_short)*2;
4)如果内容中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码没有同时在内容中出现,则assetContentRel=(nac_syn+nac_long)*2;
5)如果内容中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码同时在内容中出现,则
assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
S.2.4个股A和新闻N的关联度assetRel等于个股A与标题关联度加上个股A与内容关联度,即assetRel=assetTitleRel+assetContentRel。
热度分析的具体方法为:
S3.1按天统计股票与新闻关联度:对于股票A,在统计日期D有dn篇文章与A关联,其关联度分别为a_d_1,a_d_2,...a_d_dn,则股票A在统计日期D的热度a_d=a_d_1+a_d_2+..a_d_dn;
S3.2每一天都统计所有股票的当天热度,便可获得历史热度信息。;
参照图4,为情感得分计算流程图,其具体方法为:
S4.1获取语料并区分标题和内容;
S4.2对于个股A和新闻N,其情感得分计算如下:
S4.2.1记新闻N的标题为Title,内容为Content;将Title和Content分别分词;记正面情感词库为Post,负面情感词库为Neg,情感程度词库为Degree;
S4.2.2计算标题情感得分titleScore:若Title中正面情感词出现pt次,负面情感词出现nt次,则titleScore=pt-nt;
S4.2.3计算个股A的标题情感得分assetTitleScore:记个股A的同义词、简称、全称、股票代号在标题Title中出现的次数总和为numt;若情感程度词在标题Title中没有出现,则assetTitleScore=numt;若情感程度词在标题中出现了i次,对应的情感程度分别为d_1,d_2,...d_i;则assetTitleScore=numt*d_1*d_2*...*d_i;
S4.2.4对于新闻内容Content划分为以子句为单位的序列{subSentence_i,(0<i<=tSS)},tSS为新闻内容Content包含的子句个数;记个股A的同义词、简称、全称、股票代号在子句subSentence_i中出现的次数总和为numcss_i次;正面情感词在子句subSentence_i中出现了pcss_i次;负面情感词在子句subSentence_i中出现了ncss_i次;情感程度词在子句subSentence_i中出现了j次,对应的情感程度分别为d_i1,d_i2,...,d_ij;
S4.2.5个股A在子句subSentence_i中的情感得分为:
assetSubSentenceScore_i=(pcss_i-ncss_i)*d_i1*...*d_ij;
S4.2.6计算个股在新闻内容中的归一化情感值assetNormalValue;设pc=pcss_1+pcss_2+...+pcss_tSS,nc=ncss_1+ncss_2+...+ncss_tSS;则assetNormalValue=(pc-nc)/(pc+nc);
S4.2.7计算个股A和新闻N的情感得分assetScore:1)如果个股A在标题中出现,则情感得分为个股A的标题情感得分,即assetScore=assetTitleScore;2)如果个股A在标题中没有出现,在内容中出现了并且归一化情感值assetNormalValue小于等于0.1,则情感得分为标题情感得分,即assetScore=titleScore;3)如果个股A在标题中没有出现,在内容中出现了并且归一化情感值assetNormalValue大于0.1,则情感得分为新闻内容中各个子句的情感得分之和,即
assetScore=assetSubSentenceScore_1+assetSubSentenceScore_2+...+assetSubSentenceScore_tSS;
S4.2.8对于情感得分assetScore如果为正数表示为利好消息,如果为负数表示利空消息。

Claims (6)

1.个股和文章关联度的计算方法,其特征在于,包括以下步骤:
S1.数据获取
实时的从互联网上爬取获取财经类新闻作为语料并存档入库;
S2.关联度分析
分析实时获取的语料中的个股与文章的关联关系,计算关联度;
S3.热度分析
按日汇总个股与文章的关联度即个股的热度;
S4.情感分析
分析实时获取的语料中的个股情感;
S5.数据存储
将关联度分析、热度分析和情感分析的结果存入mysql数据库中;
S6.数据检索
通过WebService对终端用户提供查询接口,用户输入个股信息,返回个股关联的文章及关联度、个股情感和个股热度信息。
2.根据权利要求1所述的个股和文章关联度的计算方法,其特征在于,所述步骤S2中关联度的计算方法为:
S2.1获取语料并区分标题和内容,分词并计算各个词的提及数;
S2.2对于个股A和新闻N,其关联度计算如下:
S2.2.1记个股A的代码、同义词、简称、全称在新闻N的标题和内容中出现的次数分别为nat_id、nat_syn、nat_short、nat_long和nct_id、nct_syn、nct_short、nct_long;记股票关键字字典为Stocks;记需要股票代码和简称一块出现的个股字典为codeAndName;
S2.2.2计算个股A和标题的关联度assetTitleRel:
1)如果标题中没有包含股票关键字字典Stocks中的词,并且个股简称和代码没有同时在标题中出现,则assetTitleRel=(nat_syn+nat_long)*2;
2)如果标题中没有包含股票关键字字典Stocks中的词,并且个股简称和代码同时在标题中出现,assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
3)如果标题中包含股票关键字字典Stocks中的词,并且个股A不在codeAndName中,则assetTitleRel=(nat_syn+nat_long+nat_short)*2;
4)如果标题中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码没有同时在标题中出现,则assetTitleRel=(nat_syn+nat_long)*2;
5)如果标题中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码同时在标题中出现,则assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
S2.2.3计算个股A和内容的关联度assetContentRel:
1)如果内容中没有包含股票关键字字典Stocks中的词,并且个股简称和代码没有同时在内容中出现,则assetContentRel=(nac_syn+nac_long)*2;
2)如果内容中没有包含股票关键字字典Stocks中的词,并且个股简称和代码同时在内容中出现,assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
3)如果内容中包含股票关键字字典Stocks中的词,并且个股A不在codeAndName中,则assetContentRel=(nac_syn+nac_long+nac_short)*2;
4)如果内容中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码没有同时在内容中出现,则assetContentRel=(nac_syn+nac_long)*2;
5)如果内容中包含股票关键字字典Stocks中的词,并且个股A在codeAndName中,同时个股简称和代码同时在内容中出现,则
assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
S.2.4个股A和新闻N的关联度assetRel等于个股A与标题关联度加上个股A与内容关联度,即assetRel=assetTitleRel+assetContentRel。
3.根据权利要求2所述的个股和文章关联度的计算方法,其特征在于,所述步骤S2.1中分词采用的方法为正向最大匹配分词,反向最大匹配分词,双向最大匹配分词,N-最短路分词,隐马尔科夫模型分词或CRF分词。
4.根据权利要求1所述的个股和文章关联度的计算方法,其特征在于,所述步骤S3中热度分析的具体方法为:
S3.1按天统计股票与新闻关联度:对于股票A,在统计日期D有dn篇文章与A关联,其关联度分别为a_d_1,a_d_2,...a_d_dn,则股票A在统计日期D的热度a_d=a_d_1+a_d_2+..a_d_dn;
S3.2每一天都统计所有股票的当天热度,便可获得历史热度信息。
5.根据权利要求1所述的个股和文章关联度的计算方法,其特征在于,所述步骤S4中情感分析的具体方法为:
S4.1获取语料并区分标题和内容;
S4.2对于个股A和新闻N,其情感得分计算如下:
S4.2.1记新闻N的标题为Title,内容为Content;将Title和Content分别分词;记正面情感词库为Post,负面情感词库为Neg,情感程度词库为Degree;
S4.2.2计算标题情感得分titleScore:若Title中正面情感词出现pt次,负面情感词出现nt次,则titleScore=pt-nt;
S4.2.3计算个股A的标题情感得分assetTitleScore:记个股A的同义词、简称、全称、股票代号在标题Title中出现的次数总和为numt;若情感程度词在标题Title中没有出现,则assetTitleScore=numt;若情感程度词在标题中出现了i次,对应的情感程度分别为d_1,d_2,...d_i;则assetTitleScore=numt*d_1*d_2*...*d_i;
S4.2.4对于新闻内容Content划分为以子句为单位的序列{subSentence_i,(0<i<=tSS)},tSS为新闻内容Content包含的子句个数;记个股A的同义词、简称、全称、股票代号在子句subSentence_i中出现的次数总和为numcss_i次;正面情感词在子句subSentence_i中出现了pcss_i次;负面情感词在子句subSentence_i中出现了ncss_i次;情感程度词在子句subSentence_i中出现了j次,对应的情感程度分别为d_i1,d_i2,...,d_ij;
S4.2.5个股A在子句subSentence_i中的情感得分为:
assetSubSentenceScore_i=(pcss_i-ncss_i)*d_i1*...*d_ij;
S4.2.6计算个股在新闻内容中的归一化情感值assetNormalValue;设
pc=pcss_1+pcss_2+...+pcss_tSS,nc=ncss_1+ncss_2+...+ncss_tSS;则assetNormalValue=(pc-nc)/(pc+nc);
S4.2.7计算个股A和新闻N的情感得分assetScore:
1)如果个股A在标题中出现,则情感得分为个股A的标题情感得分,即assetScore=assetTitleScore;
2)如果个股A在标题中没有出现,在内容中出现了并且归一化情感值assetNormalValue小于等于0.1,则情感得分为标题情感得分,即assetScore=titleScore;
3)如果个股A在标题中没有出现,在内容中出现了并且归一化情感值assetNormalValue大于0.1,则情感得分为新闻内容中各个子句的情感得分之和,即
assetScore=assetSubSentenceScore_1+assetSubSentenceScore_2+...+assetSubSentenceScore_tSS;
S4.2.8对于情感得分assetScore如果为正数表示为利好消息,如果为负数表示利空消息。
6.个股和文章关联度的计算系统,其特征在于,包括数据获取模块、关联度分析模块、情感分析模块、热度分析模块、数据存储模块和数据检索模块,
所述数据获取模块实时的从互联网上爬取获取财经类新闻作为语料并存档入库;
所述关联度分析模块与数据获取模块连接,关联度分析模块分析实时获取的语料中的个股与文章的关联关系,计算关联度;
所述情感分析模块与数据获取模块连接,情感分析模块分析实时获取的语料中的个股情感;
所述热度分析模块与关联度分析模块连接,热度分析模块按日汇总个股与文章的关联度即个股的热度;
所述数据存储模块与关联度分析模块、情感分析模块以及热度分析模块连接,数据存储模块将关联度分析、热度分析和情感分析的结果存入mysql数据库中;
所述数据检索模块与数据存储模块连接,数据检索模块通过WebService对终端用户提供查询接口,用户输入个股信息,返回个股关联的文章及关联度、个股情感和个股热度信息。
CN201610050955.7A 2016-01-26 2016-01-26 个股和文章关联度的计算方法及其系统 Pending CN105740353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610050955.7A CN105740353A (zh) 2016-01-26 2016-01-26 个股和文章关联度的计算方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610050955.7A CN105740353A (zh) 2016-01-26 2016-01-26 个股和文章关联度的计算方法及其系统

Publications (1)

Publication Number Publication Date
CN105740353A true CN105740353A (zh) 2016-07-06

Family

ID=56247648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610050955.7A Pending CN105740353A (zh) 2016-01-26 2016-01-26 个股和文章关联度的计算方法及其系统

Country Status (1)

Country Link
CN (1) CN105740353A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780036A (zh) * 2016-11-16 2017-05-31 硕橙(厦门)科技有限公司 一种基于互联网数据采集的情绪指数构建方法
CN107025264A (zh) * 2017-02-13 2017-08-08 闽南师范大学 一种基于新闻大数据的自动选股方法
CN107357860A (zh) * 2017-06-30 2017-11-17 中山大学 一种基于新闻数据的个股情绪汇聚方法
CN108268451A (zh) * 2018-03-13 2018-07-10 中国科学院大学 一种股票情感指数构建方法及系统
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN109213934A (zh) * 2018-08-23 2019-01-15 阿里巴巴集团控股有限公司 一种资源的处理方法、装置及设备
CN110309253A (zh) * 2018-03-01 2019-10-08 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN110442713A (zh) * 2019-07-08 2019-11-12 深圳壹账通智能科技有限公司 文章管理方法、装置、计算机设备和存储介质
CN114036949A (zh) * 2021-11-08 2022-02-11 中国银行股份有限公司 基于资讯信息分析的投资策略确定方法及装置
CN115858986A (zh) * 2023-02-10 2023-03-28 上海朝阳永续信息技术股份有限公司 确定新闻与股票之间的关联状态的方法、设备和存储介质
TWI811580B (zh) * 2020-11-04 2023-08-11 合作金庫商業銀行股份有限公司 金融訊息提供系統及提供金融訊息的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090265332A1 (en) * 2008-04-18 2009-10-22 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090265332A1 (en) * 2008-04-18 2009-10-22 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐军: ""面向金融信息检索的体裁分类与情感分析技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 *
毕斌: ""文本挖掘选股与资产组合建模及其分散化研究"", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780036A (zh) * 2016-11-16 2017-05-31 硕橙(厦门)科技有限公司 一种基于互联网数据采集的情绪指数构建方法
CN107025264A (zh) * 2017-02-13 2017-08-08 闽南师范大学 一种基于新闻大数据的自动选股方法
CN107357860A (zh) * 2017-06-30 2017-11-17 中山大学 一种基于新闻数据的个股情绪汇聚方法
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108460014B (zh) * 2018-02-07 2022-02-25 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN110309253A (zh) * 2018-03-01 2019-10-08 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN108268451A (zh) * 2018-03-13 2018-07-10 中国科学院大学 一种股票情感指数构建方法及系统
CN109213934A (zh) * 2018-08-23 2019-01-15 阿里巴巴集团控股有限公司 一种资源的处理方法、装置及设备
CN110442713A (zh) * 2019-07-08 2019-11-12 深圳壹账通智能科技有限公司 文章管理方法、装置、计算机设备和存储介质
TWI811580B (zh) * 2020-11-04 2023-08-11 合作金庫商業銀行股份有限公司 金融訊息提供系統及提供金融訊息的方法
CN114036949A (zh) * 2021-11-08 2022-02-11 中国银行股份有限公司 基于资讯信息分析的投资策略确定方法及装置
CN115858986A (zh) * 2023-02-10 2023-03-28 上海朝阳永续信息技术股份有限公司 确定新闻与股票之间的关联状态的方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN105740353A (zh) 个股和文章关联度的计算方法及其系统
US11704006B1 (en) User interface for use with a search engine for searching financial related documents
CN101408886B (zh) 通过分析文档的段落来选择该文档的标签
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
Chowdhury et al. News analytics and sentiment analysis to predict stock price trends
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN101408887A (zh) 推荐词条以指定本体空间
Darena et al. Machine learning-based analysis of the association between online texts and stock price movements
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
US11295078B2 (en) Portfolio-based text analytics tool
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
Lee et al. ESG2PreEM: Automated ESG grade assessment framework using pre-trained ensemble models
Zhang et al. Stock trend forecasting method based on sentiment analysis and system similarity model
Ziv et al. CompanyName2Vec: Company Entity Matching Based on Job Ads
Zhang et al. A study of relationship between investor sentiment and stock price: Realization of investor sentiment classification based on bayesian model
CN113688633A (zh) 一种提纲确定方法及装置
CN111241399A (zh) 一种上市公司关注度的评估方法
Verma et al. Comprehensive analysis of trends in software engineering Q&A site
CN113486232B (zh) 查询方法、装置、服务器、介质及产品
Zhang et al. Exchange rate modelling for e-negotiators using text mining techniques
Perera et al. Ontology based annotation mechanism for financial documents
ABDULLAH Classifying Innovation with biLSTM and biGRU
CN117851544A (zh) 基于lda和ann的企业文本数据挖掘方法和系统
CN117421397A (zh) 问题应答方法、装置、电子设备和可读存储介质
Novak et al. Analysis of financial news with newsstream, technical report ijs-dp-11892

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706