CN105022725A - 一种应用于金融Web领域的文本情感倾向分析方法 - Google Patents

一种应用于金融Web领域的文本情感倾向分析方法 Download PDF

Info

Publication number
CN105022725A
CN105022725A CN201510406228.5A CN201510406228A CN105022725A CN 105022725 A CN105022725 A CN 105022725A CN 201510406228 A CN201510406228 A CN 201510406228A CN 105022725 A CN105022725 A CN 105022725A
Authority
CN
China
Prior art keywords
emotion
text
web
financial
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510406228.5A
Other languages
English (en)
Other versions
CN105022725B (zh
Inventor
严勤
丁聪
吕勇
夏阁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201510406228.5A priority Critical patent/CN105022725B/zh
Publication of CN105022725A publication Critical patent/CN105022725A/zh
Application granted granted Critical
Publication of CN105022725B publication Critical patent/CN105022725B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种应用于金融Web领域的文本情感倾向分析方法,对Web金融文本信息筛选数据来源并进行数据获取,根据Web金融文本特点构建金融情感词典,设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web进行文本情感倾向分类,本发明分类准确率高、分类速度快,且本发明能通过对Web金融文本的情感倾向分类有效的分析金融市场整体情绪,对金融趋势预测具有重要的帮助和指导意义。

Description

一种应用于金融Web领域的文本情感倾向分析方法
技术领域
本发明涉及一种利用金融情感词典和中文语法特征对Web金融文本进行情感倾向分析的,属于自然语言处理和机器学习技术领域。
背景技术
随着互联网和信息技术的发展,Web信息量得到了前所未有的增长,越来越多的机构和个人通过互联网途径以各种方式表达对各种事物观点、态度和立场,如豆瓣影评、新闻评论、社交网站等。海量的Web观点信息对于电子商务、市场预测等各个方面有重要的意义以及巨大的商业价值,而金融行业Web信息量是互联网信息增长最快,受影响最大的行业,对Web金融文本信息进行情感倾向分析以进行更加深入的研究已经成为国内外热门研究课题。
文本情感倾向性分析属于文本情感分析[1]的一部分,如今已是自然语言处理和机器学习领域的研究热点。通过情感倾向性分析,可以掌握文本的褒贬性倾向。在金融领域,新闻舆情被认为是反映国家宏观政策的执行情况,体现市场和行业景气程度和投资者的交易热情的重要指标。而要有效利用Web金融信息来进行各种分析,就必须将文本信息数字化。文本倾向性分析,计算文本的情感倾向值是分析文本褒贬性和将文本信息数字化的有效手段之一。
通过计算文本的情感倾向值来分析文本的情感倾向,是文本情感倾向性分析的主要方法。其中具有代表性的工作是,Turney等[2]运用点互信息和潜在语义分析的方法计算目标词汇和种子词的关联度,进而分析目标词汇的倾向性。香港城市大学的Yuen等[3]在Turney的工作基础上,对汉语极性词的自动获取进行了研究。复旦大学的朱嫣岚等[4]利用Hownet提供的语义相似度和语义相关场,计算目标词汇与已标注褒贬性的种子词间的相似度,提出了词语倾向性的判断方法。从已有的研究成果可以发现,文本倾向性分析已引起了研究者的普遍关注,但在金融领域应用尚未展开,金融信息文本的倾向性分析对于金融市场的研究有举足轻重的影响,但却还没有被众多学者所涉足。
文本情感分析技术在金融领域应用较少,究其原因主要包括以下几点:(1)国内文本情感倾向分析研究起步较晚。(2)中文汉语本身的博大精深。(3)各学 科交叉导致研究复杂,研究者需要具备自然语言处理技术、计算机技术、金融专业知识等多方面综合能力。综合上述因素,本文研究了Web金融信息的情感倾向的计算方法以及其在金融市场预测中的应用。
参考文献: 
[1]Zhao Y Y,Qin B,Liu T.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848. 
[2]Turney P D.Thumbs Up or Thumbs DownSemantic Orientation Applied to Unsupervised Classification of Reviews[J].Proc Annual Meeting of the Association for Computational Linguistics,2002:417--424. 
[3]Yuen R,Chan T,Lai T et al.Morpheme-based Derivation of Bipolar Semantic Orientation of Chinese Words.In:Proceedings of the 20th International Conference on Computational Linguistics(COLING’04).Geneva,Switzerland,2004.1008-1014. 
[4]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,(1):14-20.
发明内容
发明目的:为了提高Web金融文本情感倾向分类的准确率,本发明提供一种应用于金融Web领域的文本情感倾向分析方法。采用人工标注和现有词典扩展的方法构建金融情感词典,即包括极性词典、主观词典、修饰词典和连词词典,通过分析金融情感词汇的不同使用以及中文语法特征,设计了无关信息清理算法和Web金融文本情感倾向分析方法,无关信息清理算法剔除主题无关文本信息,保证金融文本情感倾向分类数据的有效性。
技术方案:一种应用于金融Web领域的文本情感倾向分析方法,包括以下几个步骤:
步骤A、筛选金融数据来源并设计多线程网络爬虫获取Web金融数据;
步骤B、对获取的Web金融文本数据进行文本预处理;
步骤C、根据情感分类特征,结合人工标注和现有词典扩展的方法构建金融情感词典,并采用多人标注取众数的方法确定情感词汇的情感倾向和强度;
步骤D、提出无关信息清理算法,依据主题相关和主题无关关键词对Web金融新闻的无关信息进行识别清理;
步骤E、根据金融情感词典的不同使用以及中文语法特征,提出Web金融文本情感倾向分类算法,对Web金融文本信息进行情感倾向分类,即将Web金融文本情感倾向分为正面情感、负面情感和中立情感。
作为本发明的一个优选方案,设计多线程网络爬虫程序获取Web金融文本数据,步骤A包括以下步骤:
步骤A1、筛选Web金融数据网站来源,分别获取所研究的金融主题新闻版块的URL链接并初始化种子URL列表;
步骤A2、循环从种子URL列表获取URL,下载种子URL新闻主页面源代码,若主页面有金融新闻更新,则解析该主页面源代码,抽取符合要求的新闻URL并添加到下载队列,队列管理调度根据线程的空闲情况给下载队列URL分配线程,下载新闻页面源代码;
步骤A3、利用页面抽取技术解析新闻页面源代码,抽取需要的字段,包括新闻标题、新闻正文、发布时间、新闻来源等。Web金融数据存储时,若该新闻URL已存在数据库,则无需存储该条新闻,否则存入数据库。
作为本发明的一个优选方案,分析Web金融文本的特点,构建金融情感词典,步骤B包括以下步骤:
步骤B1、利用中文标点符号将所获取的Web金融文本信息,分解为语义停顿的短字符串,去乱码符号和web转义符号,利用“。……;”将文档分割成短字符串,删除“”所在的句子,数学符号“.%/等”保持不变。
步骤B2、将去除杂乱符号的新闻构建成包含title和content的json字符串以方便后续分别对title和content分别进行处理,中文文档经标点处理后被分解成语义独立的句子,句子被分解成语义停顿的短字符串,然后利用最大正向匹配法分词技术以及金融情感词典进行中文分词预处理,情感词典构造如步骤C。
作为本发明的一个优选方案,分析Web金融文本的特点,构建金融情感词典,步骤C包括以下步骤:
步骤C1、利用人工标注方式收集金融情感词汇,主要包括两种方式:1)利用现有的证券领域操作词汇表,人工提取其中具有情感倾向的词语。2)利用网络爬虫从金融网站抓取大量金融新闻文本信息,经多人标注抽取其中情感词汇。
步骤C2、利用HowNet、哈工大《同义词词林》公共情感词典进行补充和扩展,将HowNet情感词典的中文负面情感词语、负面评价词语、正面情感词语和正面评价词语汇总并人工筛选与金融领域相关的极性词对极性词典进行补充,利用HowNet的中文程度级别词语对修饰词典进行补充,利用HowNet的主张词语扩展主观词典等。
步骤C3、对情感词汇进行情感倾向和情感强度标注,情感词汇的属性主要有三个:词汇本身、倾向、情感强度。词汇的情感倾向和情感强度均没有权威的可参考的标准,主要依靠人对词汇的认识,故采用多人标注取众数的方法确定各个词汇的情感倾向和情感强度。
作为本发明的一个优选方案,分析金融主题无关信息的特点,设计无关信息清理算法,步骤D包括以下步骤:
步骤D1、收集与所研究主题相关的相关关键词,如对于黄金市场主题而言,“金价”、“伦敦金”、“金银”等均为黄金市场相关关键词,主题相关关键词数量较少,故采用人工标注方式收集。
步骤D2、收集与所研究主题无关但经常同时出现的无关关键词,如对于黄金市场主题而言,“黄金装备”、“黄金地段”、“装备”和“游戏”等关键词均与黄金主题无关的,故采用人工标注方式收集。
步骤D3、若金融新闻文本中匹配到主题无关关键词,则认为该条新闻与金融主题无关,标记该条新闻为无关信息,并进行剔除。
步骤D4、对于主题相关新闻,若金融新闻文本中某个句子匹配到主题相关关键词且至少匹配一个极性词才认为该句为金融主题相关句,否则为无关句。
作为本发明的一个优选方案,结合金融情感词典的使用不同以及中文语法特点,设计Web金融文本情感倾向分类算法,步骤E包括以下步骤:
步骤E1、文本预处理。利用中文标点符号预处理方法对待测文档进行文本断句,将文本分解成各个独立的句子。
步骤E2、分句输入。将第i个句子利用最大正向匹配法分词技术进行中文分 词作为后续处理的输入,i=i+1,其中i从1递增值分句总数n。
步骤E3、无关信息清理。利用无关信息清理算法进行判断,若判断为无关新闻,则返回文档为无关信息;若判断为无关句,则跳过该句并转到步骤E2,否则转入步骤E4。
步骤E4、主观句识别。利用主观词典匹配句中主观词,若匹配失败,则跳过该句并转至步骤E2,否则转至步骤E4。
步骤E5、连词词汇的处理。连词词汇的出现通常会改变句子的情感重点,例如“虽然你对我很好,但是我不会喜欢你。”句子的情感重点为后半句,若在情感分析时考虑该部分连词语句的特点,可以有效提高情感分析的效率和准确率,利用连词词典匹配句子连词,若匹配成功,则转至连词词汇处理即根据不同连词搭配分情况区分转折关系,确定句子有效语义是在前半句还是后半句,否则转至步骤E6。
步骤E6、句子情感值计算。分别利用极性词典、修饰词典识别句中的情感极性词和修饰词,各个极性词为独立情感分析单元,其情感值计算如表1所示。
表0情感分析单元情感值计算
表0中,n表示句中情感词的个数,T()表示情感强度,w表示句中匹配的情感极性词,factor表示情感极性词窗口范围内匹配的修饰词,factori表示情感词w窗口内匹配的第i个修饰词,phrase表示包含情感极性词的情感分析单元,依据上述规则可计算得到不同规则情感分析单元的情感值。依次对句中所有的情感分析单元进行情感值计算,最终该句的情感值计算公式如下:
T ( s e n ) = Σ i = 1 n T ( phase i ) - - - ( 1 )
其中,T()表示情感强度,sen表示该句子,phasei表示句中匹配到第i个情感极性词所在的情感分析单元。
步骤E7、文档情感值计算。Web文档由新闻标题和新闻正文两部分组成, 其中金融新闻的标题通常能直接表达作者的观点,而新闻正文部分是对标题的详细阐述阐述。因此,文档情感倾向应该以标题为主,正文为辅,即当文档标题的情感值不为零时,以标题情感值为文档情感值,否则以正文的情感值为文档情感值,计算定义如下:
T ( c o n t e n t ) = Σ i = 1 n T ( sen i ) , i = 1 , 2 , ... n - - - ( 2 )
T ( d o c ) = T ( t i t l e ) T ( t i t l e ) ≠ 0 T ( c o n t e n t ) T ( t i t l e ) = 0 - - - ( 3 )
其中,T表示情感强度值,seni表示文档的第i个句子,title表示文档的标题,content表示文档的正文,doc表示文档。
步骤E8、文档情感倾向分类。本文将文本的情感倾向分为正面、负面和中立三种类别,则情感倾向判定规则如下:
T r e n d = p o s i t i v e T ( d o c ) &GreaterEqual; 1 n e u t r a l | T ( d o c ) | < 1 n e g a t i v e T ( d o c ) &le; - 1 - - - ( 4 )
其中,Trend表示文档的情感倾向其中positive表示正面情感倾向,negative表示负面情感倾向,neutral表示中立情感倾向。
本发明采用上述技术方案,具有以下有益效果:
本发明设计了一种应用于金融Web领域的文本情感倾向分析方法,对Web金融数据来源进行筛选并通过设计多线程网络爬虫进行数据获取,利用人工标注和现有词典扩展方法构造金融情感词典,包括极性词典、修饰词典、主观词典以及连词词典,然后通过对Web金融文本的分析,建立两阶段的Web金融文本情感分类,即提出无关信息清理分类算法,将金融主题无关的文本信息剔除,提出Web金融文本情感倾向分类算法,对主题相关的金融文本进行情感感倾向分类,即将Web金融文本情感倾向分为正面情感、负面情感和中性情感,该算法分类准确率高、分类速度快,情感倾向分类算法整体准确率为76.84%,其中看涨情绪的分类准确率达到80.68%,召回率为77.10%,F-measure为78.85%;看跌情绪的分类准确率达到82.32%,召回率为73.18%,F-measure为77.48%。本发明能够有效的提高Web金融文本情感倾向分类的效率,对于把握整体金融市场情绪以及利用金融趋势预测具有重要的指导意义。
附图说明
图1是本发明Web金融文本情感倾向分类框架
图2是多线程网络爬虫流程
图3是中文分词流程
图4是金融情感词典构建流程
图5是Web金融文本情感倾向分类算法总流程。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种应用于金融Web领域的文本情感倾向分析方法,具体的步骤包括:
步骤A、如图2所示,筛选数据来源并设计多线程网络爬虫获取Web金融数据,具体为:
A1、依据Alexa官网提供的金融网站排名,综合筛选东方财富网、和讯网、金融界和百度新闻作为金融数据来源,选择所研究主题相关的网站入口URL链接为种子URL列表并初始化。
A2、循环从种子URL列表中获取URL,下载种子URL新闻主页面源代码,若主页面新闻有更新,则解析该主页面源代码,抽取符合要求的新闻URL并添加到下载队列,队列管理调度根据线程的空闲情况给下载队列URL分配线程,下载新闻页面源代码。
A3、利用正则表达式技术解析新闻页面源代码,抽取需要的字段,本发明包括新闻标题、新闻正文、发布时间、新闻来源等。数据存储时,若该新闻URL已存在数据库,则无需存储该条新闻,否则存入数据库,则该条新闻即为一条金融文本数据。
步骤B、对爬虫获取的Web金融文本数据进行文本预处理,如图3所示,具体为:
B1、对金融文本进行中文标点符号预处理,以提高分词效率和分词准确性,中文标点的处理方式如表1所示。
B2、经中文标点符号预处理后得到语义清晰的短文本,对短文本进行中文分词,本发明的中文分词过程为:定义分词的最大字长MaxLen为4,从左到右依次从待分字串中取出长度不大于4的候选子串,获取候选子串过程中若遇到空格,则取空格之前的字符为候选子串;若获取开始遇到空格,则跳过该空格向后获取候选子串。依据本文构建的词典匹配查找子串,若匹配成功,则将该子串保存到输出词串,待分字串后移子串长度的指针后继续进行切分;若查找失败,候选子串从最右边减1个字长后得到新的候选子串并再次进行字典匹配,若直至子串为单字时仍然查找失败,则待分字串指针后移一个单位,继续进行匹配,直到原字符串长度为空分词结束。
步骤C、根据情感分类特征,采用人工标注和现有词典扩展相结合的方式构建金融情感词典,如图4所示,具体为:
步骤C1、利用人工标注收集情感词汇,主要包括两种方式:1)利用现有的证券领域操作词汇表,人工提取其中具有情感倾向的词语。2)利用网络爬虫从金融网站抓取大量金融新闻文本信息,经多人标注抽取其中情感词汇。
步骤C2、利用HowNet、哈工大《同义词词林》情感词典进行补充和扩展,将HowNet情感词典的中文负面情感词语、负面评价词语、正面情感词语和正面评价词语汇总并人工筛选与金融领域相关的极性词对极性词典进行补充,利用HowNet的中文程度级别词语对修饰词典进行补充等。
表1 中文标点符号处理
步骤C3、对情感词汇进行情感倾向和情感强度标注,情感词汇的属性主要有三个:词汇本身、情感倾向、情感强度。词汇的情感倾向和情感强度没有可参考的标准,主要依靠人对词汇的认识,故采用多人标注取众数的方法确定其情感倾向和情感强度,情感强度主要采用-1,1,0.5等数据进行简单划分。
表4 修饰词典
本发明构建金融情感词典,包括极性词典、主观词典、修饰词典和连词词典。极性词典,是情感倾向分类的核心词,包括独立情感词汇和情感组合单元,其情感倾向和情感强度如表2所示;主观词典,是文本主客观句识别的依据,部分数据如表3所示;修饰词典,是对极性词典词汇的情感增强、减弱或反转等作用,其情感倾向和情感强度如表4所示;连词词典,其中转折连词和总结连词对于复句的情感表达有重要影响,其情感倾向和情感强度如表5所示。
表2 极性词典
表3 主观词典
表5 连词词典
步骤D、提出无关信息清理算法,剔除金融无关信息信息,具体为;
步骤D1、收集与所研究金融主题相关的关键词,以黄金市场新闻为主题,通过人工收集得到“金价”、“伦敦金”、“金银”等8个黄金市场相关关键词。
步骤D2、收集与所研究金融主题无关但经常同时出现的无关关键词,以黄 金市场新闻为主题,通过人工收集得到“黄金装备”、“黄金时段”、“岁月”和“游戏”等106个黄金市场主题无关关键词。
步骤D3、对于黄金市场新闻文本,若匹配到黄金市场主题无关关键词,则判定该条新闻与主题无关,即标记该条新闻为无关信息并进行剔除。
步骤D4、对于主题相关的黄金市场新闻,其某个句子匹配到主题相关关键词且至少匹配一个极性词判定该句为黄金市场相关句,否则为无关句。
抓取2012年10月至2014年10月共30多万条Web黄金版块新闻数据作为原始数据,从中随机抽取10000条新闻并选择金融领域熟悉的志愿者对其进行人工情感标注,标注为看涨、看跌、中立和无关四类情感,将看涨、看跌和中立统称为相关类别,最终得到其中8988条标注有效的新闻作为实验数据,包含看涨新闻2259条、看跌新闻2521条、中立新闻2244条以及无关新闻1964条。实验结果表明,无关新闻识别准确率为81.40%,召回率为77.75%,F-measure为79.53%;相关新闻识别准确率为93.86%,召回率为95.03%,F-measure为94.44%。
步骤E、根据金融情感词典的不同使用以及中文语法特征,提出了一种Web金融文本情感倾向分析方法,如图5所示,具体为;
步骤E1、文本预处理。对原始文本数据中文标点预处理,并根据标点符号进行分句。
步骤E2、分句输入。将第i小句利用最大正向匹配法分词技术进行中文分词作为后续处理的输入,其中i从1递增值分句总数。
步骤E3、无关信息清理。其具体步骤如步骤C所示,若算法判断文本为无关新闻,则返回该文档为无关信息;若判断该句为无关句,则跳过该句并转至步骤E2,否则转入步骤E4。
步骤E4、主观句识别。利用主观词典匹配句中主观词,若匹配失败,则判断该句为客观句而跳过该句并转至步骤E2,否则转至步骤E5。
步骤E5、连词词汇处理。利用连词词典匹配句子的连词,若匹配成功,则判断该句为连词复句转至连词词汇处理,否则转至步骤E6。
步骤E6、句子情感值计算。分别利用极性词典、修饰词典识别句中的情感
表6 情感分析单元情感值计算
极性词和修饰词,各个极性词为独立情感分析单元,其情感值计算如表6所示。
表6中,n表示句中情感词的个数,T表示情感强度,w表示句中匹配的情感极性词,factor表示情感极性词窗口范围内匹配的修饰词,factori表示情感词w窗口内匹配的第i个修饰词,phrase表示包含情感极性词的情感分析单元,依据上述规则可计算得到不同规则情感分析单元的情感值。依次对句中所有的情感分析单元进行情感值计算,最终该句的情感值计算公式如下:
T ( s e n ) = &Sigma; i = 1 n T ( phase i ) - - - ( 1 )
其中,T表示情感强度值,sen表示该句子,phasei表示句中匹配到第i个情感极性词所在的情感分析单元。
步骤E7、文档情感值计算。Web文档由新闻标题和新闻正文两部分组成,其中金融新闻的标题通常能直接表达作者的观点,而新闻正文部分是对标题的详细阐述阐述。因此,文档情感倾向应该以标题为主,正文为辅,即当文档标题的情感值不为零时,以标题情感值为文档情感值,否则以正文的情感值为文档情感值,计算定义如下:
T ( c o n t e n t ) = &Sigma; i = 1 n T ( sen i ) , i = 1 , 2 , ... n - - - ( 2 )
T ( d o c ) = T ( t i t l e ) T ( t i t l e ) &NotEqual; 0 T ( c o n t e n t ) T ( t i t l e ) = 0 - - - ( 3 )
其中,T表示情感强度值,seni表示文档的第i个句子,title表示文档的标题,content表示文档的正文,doc表示文档。
步骤E8、文档情感倾向分类判断。本文将金融文本的情感倾向分为正面、负面和中立三种类别,则情感倾向判定规则如下:
T r e n d = p o s i t i v e T ( d o c ) &GreaterEqual; 1 n e u t r a l | T ( d o c ) | < 1 n e g a t i v e T ( d o c ) &le; - 1 - - - ( 4 )
其中,Trend表示文档的情感倾向其中positive表示正面情感倾向,negative表示负面情感倾向,neutral表示中立情感倾向。
实验结果表明,本发明设计了一种Web金融文本情感倾向分类算法,通过多线程网络爬虫程序抓取Web金融文本数据,利用人工标注和现有词典扩展方法构造金融情感词典,包括极性词典、修饰词典、主观词典以及连词词典,然后对Web金融文本分析,建立两阶段的Web金融文本情感分类,即提出无关信息清理分类算法,将金融主题无关的文本信息剔除,提出Web金融文本情感倾向 分类算法,对主题相关的金融文本进行情感感倾向分类,即分为正面情感、负面情感和中性情感,该算法分类准确率高、分类速度快。根据步骤D得到的实验数据集,即看涨新闻2259条,看跌新闻2521条,中立新闻2244条,进行金融文本情感倾向分类算法测试,得到情感倾向分类算法整体准确率为76.84%,其中看涨情绪的分类准确率达到80.68%,召回率为77.10%,F-measure为78.85%;看跌情绪的分类准确率达到82.32%,召回率为73.18%,F-measure为77.48%。本发明能够有效的提高Web金融文本情感倾向分类的效率,对于把握整体金融市场情绪以及利用金融趋势预测具有重要的指导意义。

Claims (6)

1.一种应用于金融Web领域的文本情感倾向分析方法,其特征在于,具体包括以下步骤:
步骤A、筛选金融数据来源并设计多线程网络爬虫获取Web金融数据;
步骤B、对获取的Web金融文本数据进行文本预处理;
步骤C、根据情感分类特征,结合人工标注和现有词典扩展的方法构建金融情感词典,并采用多人标注取众数的方法确定情感词汇的情感倾向和强度;
步骤D、提出无关信息清理算法,依据主题相关和主题无关关键词对Web金融新闻的无关信息进行识别清理;
步骤E、根据金融情感词典的不同使用以及中文语法特征,提出Web金融文本情感倾向分类算法,对Web金融文本信息进行情感倾向分类,即将Web金融文本情感倾向分为正面情感、负面情感和中立情感。
2.如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所述的步骤A具体包括以下几个步骤:
步骤A1、筛选Web金融数据网站来源,分别获取所研究的金融主题新闻版块的URL链接并初始化种子URL列表;
步骤A2、循环从种子URL列表获取URL,下载种子URL新闻主页面源代码,若主页面有金融新闻更新,则解析该主页面源代码,抽取符合要求的新闻URL并添加到下载队列,队列管理调度根据线程的空闲情况给下载队列URL分配线程,下载新闻页面源代码;
步骤A3、利用页面抽取技术解析新闻页面源代码,抽取需要的字段,包括新闻标题、新闻正文、发布时间、新闻来源。Web金融数据存储时,若该新闻URL已存在数据库,则无需存储该条新闻,否则存入数据库。
3.如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所述的步骤B具体包括以下几个步骤:
步骤B1、利用中文标点符号将所获取的Web金融文本信息,分解为语义停顿的短字符串,去除乱码符号和web转义符号,利用“。!……;”将文档分割成短字符串,删除“?”所在的句子,数学符号“.%/等”保持不变。
步骤B2、将去除杂乱符号的新闻构建成包含title和content的json字符串以方便后续分别对title和content分别进行处理,中文文档经标点处理后被分解成 语义独立的句子,句子被分解成语义停顿的短字符串,然后利用最大正向匹配法分词技术以及金融情感词典进行中文分词预处理,情感词典构造如步骤C。
4.如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所述的步骤C具体包括以下几个步骤:
步骤C1、利用人工标注方式收集金融情感词汇,主要包括两种方式:1)利用现有的证券领域操作词汇表,人工提取其中具有情感倾向的词语;2)利用网络爬虫从金融网站抓取大量金融新闻文本信息,经多人标注抽取其中情感词汇;
步骤C2、利用HowNet、哈工大《同义词词林》公共情感词典进行补充和扩展,将HowNet情感词典的中文负面情感词语、负面评价词语、正面情感词语和正面评价词语汇总并人工筛选与金融领域相关的极性词对极性词典进行补充,利用HowNet的中文程度级别词语对修饰词典进行补充,利用HowNet的主张词语扩展主观词典。
步骤C3、对情感词汇进行情感倾向和情感强度标注,情感词汇的属性主要有三个:词汇本身、倾向、情感强度;词汇的情感倾向和情感强度均没有权威的可参考的标准,主要依靠人对词汇的认识,故采用多人标注取众数的方法确定各个词汇的情感倾向和情感强度。
5.如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所述的步骤D具体包括以下几个步骤:
步骤D1、收集与所研究主题相关的相关关键词;
步骤D2、收集与所研究主题无关但经常同时出现的无关关键词;
步骤D3、若金融新闻文本中匹配到主题无关关键词,则认为该条新闻与金融主题无关,标记该条新闻为无关信息,并进行剔除;
步骤D4、对于主题相关新闻,若金融新闻文本中某个句子匹配到主题相关关键词且至少匹配一个极性词才认为该句为金融主题相关句,否则为无关句。
6.如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所述的步骤E具体包括以下几个步骤:
步骤E1、文本预处理;对于title和content分别(注:以下未经强调均视为对title和content分别作同样处理)利用中文标点符号预处理方法对待测文档进行文本断句,将文本分解成n个独立的句子;
步骤E2、分句输入。将第i个句子利用最大正向匹配法分词技术进行中文分词作为后续处理的输入,i=i+1,其中i从1递增值分句总数n。
步骤E3、无关信息清理;利用无关信息清理算法进行判断,若判断为无关新闻,则返回文档为无关信息;若判断为无关句,则跳过该句并转到步骤E2,否则转入步骤E4。
步骤E4、主观句识别。利用主观词典匹配句中主观词,若匹配失败,则跳过该句并转到步骤E2,否则转至步骤E5;
步骤E5、连词词汇的处理;利用连词词典匹配句子连词,若匹配成功,则转至连词词汇处理,否则转至步骤E6。
步骤E6、句子情感值计算;分别利用极性词典、修饰词典识别句中的情感极性词和修饰词,各个极性词为独立情感分析单元;
步骤E7、文档情感值计算;Web文档由新闻标题和新闻正文两部分组成,文档情感倾向应该以标题为主,正文为辅,即当文档标题的情感值不为零时,以标题情感值为文档情感值,否则以正文的情感值为文档情感值,计算定义如下:
其中,T表示情感强度值,seni表示文档的第i个句子,title表示文档的标题,content表示文档的正文,doc表示文档;
步骤E8、文档情感倾向分类;将文本的情感倾向分为正面、负面和中立三种类别,则情感倾向判定规则如下:
其中,Trend表示文档的情感倾向其中positive表示正面情感倾向,negative表示负面情感倾向,neutral表示中立情感倾向。
CN201510406228.5A 2015-07-10 2015-07-10 一种应用于金融Web领域的文本情感倾向分析方法 Expired - Fee Related CN105022725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510406228.5A CN105022725B (zh) 2015-07-10 2015-07-10 一种应用于金融Web领域的文本情感倾向分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510406228.5A CN105022725B (zh) 2015-07-10 2015-07-10 一种应用于金融Web领域的文本情感倾向分析方法

Publications (2)

Publication Number Publication Date
CN105022725A true CN105022725A (zh) 2015-11-04
CN105022725B CN105022725B (zh) 2018-04-20

Family

ID=54412709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510406228.5A Expired - Fee Related CN105022725B (zh) 2015-07-10 2015-07-10 一种应用于金融Web领域的文本情感倾向分析方法

Country Status (1)

Country Link
CN (1) CN105022725B (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095777A (zh) * 2016-05-26 2016-11-09 优品财富管理有限公司 基于大数据的预测证券市场多空情绪指标方法
CN106202200A (zh) * 2016-06-28 2016-12-07 昆明理工大学 一种基于固定主题的文本情感倾向性分类方法
CN106649603A (zh) * 2016-11-25 2017-05-10 北京资采信息技术有限公司 一种基于网页文本数据情感分类的指定信息推送方法
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN106709824A (zh) * 2016-12-15 2017-05-24 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN106886916A (zh) * 2017-01-20 2017-06-23 电通公共关系顾问(北京)有限公司 声誉管理系统及方法
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107515928A (zh) * 2017-08-25 2017-12-26 百度在线网络技术(北京)有限公司 一种判断资产价格走势的方法、装置、服务器、存储介质
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108090099A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN108170826A (zh) * 2018-01-08 2018-06-15 北京国信宏数科技有限责任公司 一种基于互联网大数据的宏观经济分析方法及系统
CN108304568A (zh) * 2018-02-12 2018-07-20 郑长敬 一种房地产公众预期大数据处理方法及系统
CN108563630A (zh) * 2018-03-21 2018-09-21 上海蔚界信息科技有限公司 一种文本分析知识库的构建方法
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
TWI643076B (zh) * 2017-10-13 2018-12-01 Yuan Ze University 金融非結構化文本分析系統及其方法
CN109271623A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 文本情感去噪方法及系统
CN109947951A (zh) * 2019-03-19 2019-06-28 北京师范大学 一种可自动更新的用于金融文本分析的情感字典构建方法
CN110134781A (zh) * 2019-04-09 2019-08-16 国金涌富资产管理有限公司 一种金融文本摘要自动抽取方法
CN110162781A (zh) * 2019-04-09 2019-08-23 国金涌富资产管理有限公司 一种金融文本主观句自动识别方法
CN110189170A (zh) * 2019-05-27 2019-08-30 中译语通科技股份有限公司 市场情绪分析方法和系统
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及系统
CN110457599A (zh) * 2019-08-15 2019-11-15 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
WO2019218517A1 (zh) * 2018-05-16 2019-11-21 平安科技(深圳)有限公司 服务器、文本数据的处理方法及存储介质
CN110704615A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 互联网金融非显性广告识别方法及装置
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112445913A (zh) * 2020-11-25 2021-03-05 重庆邮电大学 一种基于大数据的金融信息负面主体判定分类方法
CN112464646A (zh) * 2020-11-23 2021-03-09 中国船舶工业综合技术经济研究院 一种面向国防领域防务智库的文本情感分析方法
CN113392189A (zh) * 2021-08-17 2021-09-14 东华理工大学南昌校区 基于自动分词的新闻文本处理方法
CN114417821A (zh) * 2022-03-29 2022-04-29 南昌华梦达航空科技发展有限公司 基于云平台的金融文本核查分析系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN103699626A (zh) * 2013-12-20 2014-04-02 华南理工大学 一种微博用户个性化情感倾向分析方法及系统
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN104636425A (zh) * 2014-12-18 2015-05-20 北京理工大学 一种网络个体或群体情绪认知能力预测与可视化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN103699626A (zh) * 2013-12-20 2014-04-02 华南理工大学 一种微博用户个性化情感倾向分析方法及系统
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN104636425A (zh) * 2014-12-18 2015-05-20 北京理工大学 一种网络个体或群体情绪认知能力预测与可视化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周林: "《面向中文web评论的情感分析技术研究》", 《中国优秀硕士学文论文全文数据库 信息科技辑》 *
李国林等: "《基于语素的金融证券域文本情感探测》", 《计算机研究与发展》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095777A (zh) * 2016-05-26 2016-11-09 优品财富管理有限公司 基于大数据的预测证券市场多空情绪指标方法
CN106202200A (zh) * 2016-06-28 2016-12-07 昆明理工大学 一种基于固定主题的文本情感倾向性分类方法
CN106202200B (zh) * 2016-06-28 2019-09-27 昆明理工大学 一种基于固定主题的文本情感倾向性分类方法
CN108090099A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN108090099B (zh) * 2016-11-22 2022-02-25 科大讯飞股份有限公司 一种文本处理方法及装置
CN106649603B (zh) * 2016-11-25 2020-11-10 北京资采信息技术有限公司 一种基于网页文本数据情感分类的指定信息推送方法
CN106649603A (zh) * 2016-11-25 2017-05-10 北京资采信息技术有限公司 一种基于网页文本数据情感分类的指定信息推送方法
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN106709824A (zh) * 2016-12-15 2017-05-24 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN106709824B (zh) * 2016-12-15 2020-07-28 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN106886916A (zh) * 2017-01-20 2017-06-23 电通公共关系顾问(北京)有限公司 声誉管理系统及方法
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107515928A (zh) * 2017-08-25 2017-12-26 百度在线网络技术(北京)有限公司 一种判断资产价格走势的方法、装置、服务器、存储介质
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
TWI643076B (zh) * 2017-10-13 2018-12-01 Yuan Ze University 金融非結構化文本分析系統及其方法
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108170826A (zh) * 2018-01-08 2018-06-15 北京国信宏数科技有限责任公司 一种基于互联网大数据的宏观经济分析方法及系统
CN108304568A (zh) * 2018-02-12 2018-07-20 郑长敬 一种房地产公众预期大数据处理方法及系统
CN108304568B (zh) * 2018-02-12 2021-01-05 郑长敬 一种房地产公众预期大数据处理方法及系统
CN108563630A (zh) * 2018-03-21 2018-09-21 上海蔚界信息科技有限公司 一种文本分析知识库的构建方法
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
WO2019218517A1 (zh) * 2018-05-16 2019-11-21 平安科技(深圳)有限公司 服务器、文本数据的处理方法及存储介质
CN109271623A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 文本情感去噪方法及系统
CN109947951A (zh) * 2019-03-19 2019-06-28 北京师范大学 一种可自动更新的用于金融文本分析的情感字典构建方法
CN110162781A (zh) * 2019-04-09 2019-08-23 国金涌富资产管理有限公司 一种金融文本主观句自动识别方法
CN110134781A (zh) * 2019-04-09 2019-08-16 国金涌富资产管理有限公司 一种金融文本摘要自动抽取方法
CN110189170A (zh) * 2019-05-27 2019-08-30 中译语通科技股份有限公司 市场情绪分析方法和系统
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及系统
CN110457599A (zh) * 2019-08-15 2019-11-15 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
CN110457599B (zh) * 2019-08-15 2021-09-03 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
CN110704615A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 互联网金融非显性广告识别方法及装置
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112464646A (zh) * 2020-11-23 2021-03-09 中国船舶工业综合技术经济研究院 一种面向国防领域防务智库的文本情感分析方法
CN112445913A (zh) * 2020-11-25 2021-03-05 重庆邮电大学 一种基于大数据的金融信息负面主体判定分类方法
CN112445913B (zh) * 2020-11-25 2022-09-27 重庆邮电大学 一种基于大数据的金融信息负面主体判定分类方法
CN113392189A (zh) * 2021-08-17 2021-09-14 东华理工大学南昌校区 基于自动分词的新闻文本处理方法
CN113392189B (zh) * 2021-08-17 2022-02-08 东华理工大学南昌校区 基于自动分词的新闻文本处理方法
CN114417821A (zh) * 2022-03-29 2022-04-29 南昌华梦达航空科技发展有限公司 基于云平台的金融文本核查分析系统

Also Published As

Publication number Publication date
CN105022725B (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN105022725B (zh) 一种应用于金融Web领域的文本情感倾向分析方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
Ptaszynski et al. Language combinatorics: A sentence pattern extraction architecture based on combinatorial explosion
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
Soliman et al. Sentiment analysis of Arabic slang comments on facebook
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN109960724A (zh) 一种基于tf-idf的文本摘要方法
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN103678565B (zh) 一种基于自引导方式的领域自适应句子对齐系统
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
Youssef et al. MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion
Das et al. Subjectivity detection in english and bengali: A crf-based approach
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
Ibrahim et al. Sentiment analysis of Arabic tweets: With special reference restaurant tweets
CN107220293A (zh) 基于情绪的文本分类方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
Kešelj et al. A SUFFIX SUBSUMPTION-BASED APPROACH TO BUILDING STEMMERS AND LEMMATIZERS FOR HIGHLY INFLECTIONAL LANGUAGES WITH SPARSE RESOURCES.
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
CN103942188B (zh) 一种识别语料语言的方法和装置
Maheswari et al. Rule based morphological variation removable stemming algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180420

Termination date: 20210710

CF01 Termination of patent right due to non-payment of annual fee