CN109614490A - 基于lstm的金融新闻倾向性分析方法 - Google Patents
基于lstm的金融新闻倾向性分析方法 Download PDFInfo
- Publication number
- CN109614490A CN109614490A CN201811566674.2A CN201811566674A CN109614490A CN 109614490 A CN109614490 A CN 109614490A CN 201811566674 A CN201811566674 A CN 201811566674A CN 109614490 A CN109614490 A CN 109614490A
- Authority
- CN
- China
- Prior art keywords
- sentence
- score
- company name
- formula
- critical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于LSTM的金融新闻倾向性分析方法,包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。本发明在公司名识别方法中加入百度百科查询作为识别的一个因素,效果更优且扩展性更好,解决了因产品过多而误判为非公司名的问题,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,使用Word2vec训练文本,同时引入TFIDF方法,充分利用了文本上下文的信息和词在文本的重要程度,可以取得很好的效果。
Description
技术领域
本发明属于文本处理技术领域,具体涉及一种基于LSTM的金融新闻倾向性分析方法。
背景技术
金融新闻的负面倾向性会损害银行、金融机构的声誉,同时在一定程度上还会影响投资者的决策,特别是在当今信息时代,一件很小的事情有可能无限发酵,短时间内传播给无数受众,有可能因为一个新闻使一个企业涌现危机甚至面临破产,例如:2016年一篇名为乐视公司资金链断裂的新闻在网上传播,导致乐视网股价大幅缩水,当日收盘跌7.49%,因此提前感知风险对企业有重大意义。随着互联网的发展,越来越多的人可以很轻易地接触到金融新闻,仅靠人工筛选公司新闻难以达到实际需求,自动准确地识别金融新闻倾向性具有重要研究价值。
当前文本情感倾向性分析主要有基于统计和基于规则两大类。例如,利用含有否定词表、倾向性词表、程度词表的情感词表训练文本进行特征扩展,缺陷在于没有考虑上下文,效果差强人意;基于语义分析的方法,提取待分析句子相应的格,根据规则和词分析倾向性,缺陷在于定义规则比较复杂且准确率也比较低。有针对性的对金融新闻文本分类在国内外研究相对较少,方法复杂效果也一般。
公司名识别是金融新闻关键句群抽取很重要的研究点,新闻文本中公司名的识别效果对新闻文本情感的判别结果有较大影响,然而到目前为止,这方面的研究成果相对较少,现有技术中对于公司名识别有以下几种方法:(1)利用简称在新闻文本中第一次出现时定义的全称信息,基于规则的算法用于公司名简称的识别。但是金融新闻文本中很少出现公司全称,这使得该方法的应用范围大大受限。(2)以人工总结公司名的结构特征基于上下文信息和六个知识库,进行两次扫描实现对公司名的识别,该方法侧重于识别公司全称,用于识别简称的正确率和召回率都比较低。(3)首先从文本中取N元组,然后建立每个n元组与公司全称表的最优对齐关系,最后对每组对齐关系进行评价和筛选以确定N元组是不是公司简称。其严重依赖于公司全称表且无法识别新的公司名。(4)利用互联网搜索和上市公司名信息进行识别,该方法的公司名词典没有考虑公司股票代码和百度百科查询的信息,所以仍然有部分著名公司由于产品较多,在百度搜索返回结果里介绍产品的较多并未识别为公司名称。
由此可见,现有技术中已有的公司名识别方法,对于公司简称的识别准确率仍然比较低,有的方法中规则和知识库过于复杂,严重了影响方法的应用。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于LSTM的金融新闻倾向性分析方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种基于LSTM的金融新闻倾向性分析方法,包括:识别公司名、抽取关键句群、基于LSTM对关键句群进行倾向性分析。
进一步地,所述分析方法包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。
进一步地,识别公司名包括:
(1)将待处理新闻文本分解为N元组集合;
(2)在含有六位公司代码的句子中且在公司代码之前的N元组得分加1;
(3)将每个N元组依次和简称词典进行相似度匹配更新得分;
(4)最后将候选公司名进行百度搜索和百度百科查询更新得分,得分高于设定阈值的N元组设为公司名。
进一步地,所述简称词典的建立方法包括:从国内三大证券交易所获得公司代码和公司简称创建简称词典且两者在词典里互为映射,建立公司名简称词典。
进一步地,识别公司名包括:
首先初始化N元组集合得分,分别将N元组集合中N元组与以上所创建的基础公司名词典进行相似度匹配,得出候选公司名集合;
一个N元组X和一个公司名Y的相似度计算公式为:
式中α,β为权重;
互联网查询更新得分公式为:
internet_search(X)=η*count(X∈search_list)+γ*baike_query(x);
式中,internet_search为互联网查询更新函数,η为百度搜索权重,count为百度搜索中有效的查询条数,γ为百科查询权重,baike_query为百度百科返回值;
公司名识别的计算公式为:
name=λ*Sim+μ*internet_search;
式中,name为N元组的最终得分,λ和μ为权重,Sim为计算N元组与公司名词典相似度,internet_search为互联网搜索N元组更新结果。
进一步地,抽取关键句群包括:首先将新闻标题加入关键句群,使用doc2vec模型计算文本中句子与新闻标题相似度,同时综合句子在新闻文本中的位置、句子中是否含有公司名或者六位公司代码、是否含有领域动词信息再次更新句子集得分,得分高于阈值Ф的句子集作为新闻关键句群,如果没有句子得分高于阈值,则将得分最高的句子加入关键句群。
进一步地,抽取关键句群包括:
(1)将新闻标题加入关键句群;
(2)使用训练好的doc2vec模型进行每个句子与新闻标题的相似度计算,更新句子得分;
(3)对候选句子位置信息打分,
句子位置的打分公式为
式中position为句子打分函数,Si为文本中第i个句子,abs为求绝对值,n是文本中句子总数;
判断句子中是否有领域词信息如果含有则记为1否则为0、句子中是否含有公司名含有记为1否则为0,再次更新每个句子得分;
(4)根据句子的得分进行倒序排列,得分大于阈值Ф的句子作为新闻文本关键句群,如果候选关键句群中没有句子得分大于Ф,得分最高的句子加入关键句群。
句子总得分机制公式为
式中Score(Si)为句子Si的最终得分,Si为一篇新闻文本中第i个句子,j是句子打分特征集合,包含句子位置、是否含有公司名、是否含有领域词以及句子和新闻标题的相似度,Wj为特征j得分权重,Scorej(Si)代表句子Si在特征j方面的打分。
进一步地,基于LSTM对关键句群进行倾向性分析包括:
(1)用LSTM模型训练已标注好的语料,直至满足各项参数要求;
(2)对获得的关键句群进行分词,去除停用词;
(3)用Word2vec和TFIDF对句子进行训练,获得句子向量;
(4)使用训练好的LSTM模型对句子向量进行倾向性分类;
(5)使用倾向性判断机制分析一篇新闻文本中关键句群中的正、负向数,得出一篇新闻文本的倾向性。
进一步地,所述倾向性判断机制为:用训练好的LSTM模型分别对每个关键句进行倾向性判断,如果正向的关键句数大于负向的关键句数,则该新闻文本被认为是正向的;如果负向的关键句数大于正向的关键句数,则认为新闻文本是负向的;如果正向和负向关键句数相同,则新闻文本的倾向取决于新闻标题倾向性。
进一步地,LSTM的结构包括:Xt为t时刻LSTM单元的输入数据,ht是输出,C是记忆单元的值;遗忘门决定信息的通过量,该门将xt和上一时刻输出ht-1作为输入,输出值在0和1之间,值用来描述每个部分通过量的多少,0代表完全舍弃,1代表全部通过;ft值的计算式为:
ft=σ(wf[ht-1,xt]+bf);
式中σ为sigmoid函数或称为“输入门层“,该结构决定应该更新那个值,wf是遗忘门权重,bf为遗忘门偏执;
it为更新后的值,控制当前的输入数据对记忆单元状态的影响,tanh层产生新的候选值向量并加入到状态中;it和的更新公式分别为
it=σ(wi[ht-1,xt]+bi);
式中σ为sigmoid函数,wi为更新门权重,bi是更新门偏执,tanh为双曲正切函数,wc为更新后候选值,bc为更新候选值偏执,是候选值;
接下来更新原来单元的状态,由状态Ct-1至Ct状态,将原来状态Ct-1和ft相乘,丢弃要屏蔽的信息,再加上的值;Ct更新公式为
sigmoid层决定当前状态的输出部分,状态通过tanh得到区间在-1和1的值,该值乘以sigmoid门的输出Ot,输出本时刻的输出值;Ot和ht的更新公式分别为
Ot=σ(wo[ht-1,xt]+bo);
ht=Ot*tanh(Ct);
式中wo为更新输出值的权重,bo是更新输出值偏执,ht为最终输出值。
本发明提供的基于LSTM的金融新闻倾向性分析方法,在公司名识别方法中加入百度百科查询作为识别的一个因素,效果更优且扩展性更好,解决了因产品过多而误判为非公司名的问题,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,使用Word2vec训练文本,同时引入TFIDF方法,充分利用了文本上下文的信息和词在文本的重要程度,可以取得很好的效果,可以很好地满足实际应用的需要。
附图说明
图1为LSTM的结构示意图;
图2为准确率和召回率随着参数Ф值变化的变化曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于LSTM的金融新闻倾向性分析方法,首先基于百度百科查询和公司名与公司代码映射进行公司名识别;然后,使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;最后使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。
通过对大量网上金融新闻文本的特征分析,本发明基于公司名简称词典和百科查询进行公司名识别,对公司名简称词典加入公司简称和公司代码的映射,同时更新候选公司名得分时,增加百度百科查询因子。该方法容易理解,实现方便,可扩展性强且对新公司名有着较好的识别效果。首先提取每个待处理文本中N元组(N-gram)集合作为候选公司名,结合简称词典计算相似度、判断元组是否在含有六位公司代码的句子中、将每个元组进行百度百科和百度搜索进行综合评分,最后将N元组集合中得分高于设定阈值α的N元组作为公司名。
公司名简称词典建立方法包括:
从国内三大证券交易所获得公司代码和公司简称创建简称词典且两者在词典里互为映射,如在简称词典中‘000027’和‘深圳能源’均代表深圳能源集团股份有限公司,建立公司名简称词典,从而能够识别标题或新闻文本中出现的上市公司的公司代码和公司简称,从而排除了人工过程中主观因素干扰,取得相对较好的效果。
公司名称识别的过程包括:
首先初始化N元组集合得分,分别将N元组集合中N元组与以上所创建的基础公司名词典进行相似度匹配,得出候选公司名集合。一个N元组X和一个公司名Y相似度计算方法如式(1):
式中α,β为权重,经过学习,其值分别设为0.4和1时取得最优结果。
将候选公司名集合进行进百度搜索和百度百科查询更新集合得分,如果百度搜索结果中出现“股票代码”,“公司”,“集团”,“企业”则被认为是一条有效的查询。如果单条百度百科查询结果中标题不为空,或者概要和基本信息中出现“股票代码”、“公司”、“集团”、“企业”,则该条查询被认为是有效查询,表1和表2分别是通过百度百科和百度搜索对关键词“百度”的查询结果。
表(1)百科查询结果
表(2)百度搜索结果:
根据上述两表可知,如果仅仅以表(2)百度搜索返回的结果来看,10条搜索数据仅有2条搜索结果证实“百度”是一家公司,结合表(1)百度百科查询则证明“百度”非常有可能是一家公司,结合百度百科查询和百度搜索更新候选公司名得分,互联网查询更新得分如下如(2)式:
internet_search(X)=η*count(X∈search_list)+γ*baike_query(x) (2)
式中,internet_search为互联网查询更新函数,η为百度搜索权重,count为百度搜索中有效的查询条数,γ为百科查询权重,baike_query为百度百科返回值。权重参数η和γ分别设为0.2和1.3取得最优解。
公司名识别总的计算方法如式(3):
name=λ*Sim+μ*internet_search (3)
式中,name为N元组的最终得分,λ和μ为权重,Sim为计算N元组与公司名词典相似度,internet_search为互联网搜索N元组更新结果。经过学习,λ和μ分别设为1和1.12取得最佳效果。
公司名识别的过程如下:
(1)将待处理新闻文本分解为N元组集合;
(2)在含有六位公司代码的句子中且在公司代码之前的N元组得分加1;
(3)将每个N元组依次和简称词典进行相似度匹配更新得分;
(4)最后将候选公司名进行百度搜索和百度百科查询更新得分,得分高于设定阈值α的N元组设为公司名。
抽取关键句群:
根据对大量金融新闻文本分析发现,新闻标题承载着文本较重要信息。新闻的关键句多出现在文本的开始或者文本的结尾处,因此将文本开始和结束位置的句子设为有较高的权重。Doc2vec是基于word2vec深度学习模型,它可以用实数值表示句子,用于句子之间相似度计算。本发明提出基于深度学习框架doc2vec文本相似度匹配综合特征属性关键句群抽取方法:首先将新闻标题加入关键句群,使用doc2vec模型计算文本中句子与新闻标题相似度,同时综合句子在新闻文本中的位置、句子中是否含有公司名或者六位公司代码、是否含有领域动词信息再次更新句子集得分,得分高于阈值Ф的句子集作为新闻关键句群,如果没有句子得分高于阈值,则将得分最高的句子加入关键句群。句子位置的打分公式如下式(4)
式中position为句子打分函数,Si为文本中第i个句子,abs为求绝对值,n是文本中句子总数,通过该机制,文本开始和文本结束位置的句子可以获得较高的得分,符合新闻文本中重点放在文本开始或者文本结束处的规律。句子总得分机制如下式(5)
式中Score(Si)为句子Si的最终得分,Si为一篇新闻文本中第i个句子,j是句子打分特征集合,包含句子位置(position)、是否含有公司名(name)、是否含有领域词(field)以及句子和新闻标题的相似度(similarity),Wj为特征j得分权重,Scorej(Si)代表句子Si在特征j方面的打分。
关键句群抽取过程如下:
(1)将新闻标题加入关键句群;
(2)使用训练好的doc2vec模型进行每个句子与新闻标题的相似度计算,更新句子得分;
(3)用式(4)对候选句子位置信息打分,判断句子中是否有领域词信息如果含有则记为1否则为0、句子中是否含有公司名含有记为1否则为0,再次更新每个句子得分;
(4)根据句子的得分进行倒序排列,得分大于阈值Ф的句子作为新闻文本关键句群,如果候选关键句群中没有句子得分大于Ф,得分最高的句子加入关键句群。
基于LSTM对关键句群进行倾向性分析的流程如下:
(1)用LSTM模型训练已标注好的语料,直至满足各项参数要求;
(2)对获得的关键句群进行分词,去除停用词;
(3)用Word2vec和TFIDF对句子进行训练,获得句子向量;
(4)使用训练好的LSTM模型对句子向量进行倾向性分类;
(5)使用倾向性判断机制分析一篇新闻文本中关键句群中的正、负向数,得出一篇新闻文本的倾向性。
LSTM是解决序列化的有效方法,不但可以充分利用上下文信息,而且还有效地解决RNN存在的梯度爆炸和消失问题。LSTM网络模型可以学习长依赖信息,模型隐藏层之间有闭环,隐藏层之间的权重控制LSTM网络的记忆,负责记忆的调度,模型将隐藏层当前的记忆状态作为下一时刻计算的部分输入。模型将传统的RNN的输入层和隐藏层植入到记忆单元中,通过门结构管理细胞的状态,如图1是LSTM门结构。
Xt为t时刻LSTM单元的输入数据,ht是输出,C是记忆单元的值。遗忘门决定信息的通过量,该门将xt和上一时刻输出ht-1作为输入,输出值在0和1之间,值用来描述每个部分通过量的多少,0代表完全舍弃,1代表全部通过。ft值的计算如下式(6):
ft=σ(wf[ht-1,xt]+bf) (6)
式中σ为sigmoid函数或称为“输入门层“,该结构决定应该更新那个值,wf是遗忘门权重,bf为遗忘门偏执。
it为更新后的值,控制当前的输入数据对记忆单元状态的影响,tanh层产生新的候选值向量并加入到状态中。下式(7)和式(8)分别是it和的更新公式。
it=σ(wi[ht-1,xt]+bi) (7)
式中σ为sigmoid函数,wi为更新门权重,bi是更新门偏执,tanh为双曲正切函数,wc为更新后候选值,bc为更新候选值偏执,是候选值。
接下来更新原来单元的状态,由状态Ct-1至Ct状态,将原来状态Ct-1和ft相乘,丢弃要屏蔽的信息,再加上的值。Ct更新公式如下式(9)。
sigmoid层决定当前状态的输出部分,状态通过tanh得到区间在-1和1的值,该值乘以sigmoid门的输出Ot,输出本时刻的输出值。Ot和ht的更新公式如下式(10)和式(11):
Ot=σ(wo[ht-1,xt]+bo) (10)
ht=Ot*tanh(Ct) (11)
式中wo为更新输出值的权重,b。是更新输出值偏执,ht为最终输出值。
基于Word2vec和TFIDF的文本表示:
Word2vec采用分布式方法表示文本,该模型表示文本既可以解决传统向量空间模型的高纬度稀疏问题,同时还补充了传统模型所不具备的语义表示,对短文本的分类有明显的优势。TFIDF是一种词频统计方法,用于统计词或字在一类文本中的重要程度,该方法的引入解决了Word2vec无法区分词汇在文本中的重要程度问题。Word2vec和TFIDF的结合使文本向量的表示更加准确。
TFIDF是一种统计方法,其思想主要是:如果某个词或字在一类文本中出现的次数较高,同时很少出现在其他文本中,则认为该词或字具有很好的类区别效果。TFIDF即TF×IDF,TF代表词t在文档d中的概率,IDF为词t的区别类效果,即越少的文档中有词t,则IDF值越大,TF和IDF的计算公式分别如下式(12)和式(13)。
式中f(t,d)代表词t在文档d中出现的次数,dft为含有词t的文档数,N为所有文档数。词t的在一篇文档中的权重计算公式入下式(14)
tfidft=tf(t,d)*idft (14)
Word2vec是一种深度神经网络概率模型,用来计算词向量,与传统方法相比,该模型可以充分利用上下文的语义信息。Word2vec有两种训练模型,分别为CBOW和skip-gram。本实验中采用CBOW训练模型,CBOW的表示如下式(15)
P(wt|τ(wt-k,wt-k+1,...,wt+k|wt) (15)
式中Wt是词典中的某个词,τ表示为将词t窗口内左右相邻词的向量做相加运算的运算符。结合Word2vec和TFIDF,词t在一片文档中的词向量表示为下式(16)
v(t)=word2vec(t)*tfidf(t) (16)
式中v(t)表示经两种模型加权后词向量表示,word2vec(t)为经word2vec模型训练出t的词向量,tfidf(t)是经TFIDF模型训练出t在文档中的词向量权重。句子向量的表示为使用式(16)的方法将句子中词的词向量相加。
基于LSTM对关键句群进行倾向性分析:
一篇新闻文本倾向性分析可以转化为判断其关键句群的整体倾向性,倾向性判断机制如下:用训练好的LSTM模型分别对每个关键句进行倾向性判断,如果正向的关键句数大于负向的关键句数,则该新闻文本被认为是正向的;如果负向的关键句数大于正向的关键句数,则认为新闻文本是负向的;如果正向和负向关键句数相同,则新闻文本的倾向取决于新闻标题倾向性,在对关键句进行倾向性分析时,使用jieba对句子进行分词并去除停用词,能提高分类效果同时提高效率。
实验结果与分析:
本部分主要从公司名识别、关键句群抽取和新闻文本倾向性三方面实验结果做分析。公司名识别和关键句群的评价指标主要分析其精确率、召回率,新闻文本倾向性主要从准确率分析其效果。
公司名识别结果分析:
新闻标题里公司名比较多,因此本实验从实验数据中随机选择500条新闻标题,其中200条用于学习参数α的值,通过对实验数据学习,在α值设为2.3时可以取得最优效果,300条数据被等分三组进行公司名识别的验证。下表(3)为测试结果。
表(3)公司名识别效果
综上表(3)中三组测试数据,本发明提出的公司名识别的准确率和召回率平均值可以达到83.83%和70.85%,百度百科查询加入方法中对新公司名称识别也有提高,词典中加入公司名与公司代码映射,在处理N元组时更有侧重。实验结果表明,本发明所采用的公司名识别方法效果更优且扩展性更好。
关键句群抽取结果分析:
参数学习:实验中我们使用网格搜索方法学习各个特征属性权重Wposition、Wname、Wfield、Wsimilarity的值,设置步长为0.01,我们对人工标注好的500篇新闻文本进行训练,300篇用于测试,Wj均初始化为0.25,在满足0<Wj<1且∑Wj=1条件下进行学习,在Wposition、Wname、Wfield、Wsimilarity值分别设为0.38、0.11、0.2、0.31时,取得最优效果,在进行句子和新闻标题相似度计算时使用深度学习的方法,提高准确度,因而该特征权重仅次于位置特征。在抽取过程中Ф值的设定对抽取结果有较大的影响,图2为准确率和召回率随着参数Ф值变化的变化曲线图。
如图2所示,acc为准确率,recall代表召回率,随着Ф值的变化,准确率和召回率有着相反的变化,在Ф值取0.58时可以取得较好的效果,实验中我们把Ф值设为0.58。
将900篇标注好的文本进行关键句群抽取测试,数据被等分为三组,下表(4)为测试结果。
表(4)关键句群抽取结果
根据对上表(4)的各项指标分析,关键句群抽取效果比较好,平均准确率和召回率分别可以达到74.38%和71.75%。表中第一组数据中准确率和召回率均为最高值,其他两组实验结果相差不大,分析原因,由于新闻文本长度不同,所包含句子的条数不同,抽取结果也会有差异,实验结果表明,本发明提出的关键句群抽取方法有效。
新闻倾向性结果分析
对新闻文本和其关键句群进行倾向性标注,4000篇语料中,3100篇用于训练,900篇新闻文本等分为三组作为测试数据。在相同实验数据情况下,本发明方法分别针对SVM、CNN以及现有技术中的SAFT-SR方法进行实验效果比对,分类结果如下表(5)所示。
表(5)不同分类方法的测试结果
上表5中,SVM采用对文本全文分类方法,分析得出,相比对照的方法,本发明提出的新闻文本倾向性分析取得最高的准确率,本实验方法和CNN均为深度学习模型,其效果明显高于传统机器学习模型SVM,SAFT-SR方法基于复杂的语义规则,扩展性较差,该方法的准确率仅比SVM模型稍微高点,远低于深度学习模型。在对短文本分类时,LSTM性能优于CNN模型,在三组测试数据中本发明实验方法准确率比CNN模型平均高3个百分点,比传统机器学习SVM分类方法高出8.79个百分点,同时比SAFT-SR方法高出8.7个百分点。本实验方法准确率高于所有对比方法,证明了本实验方法的有效性。
针对金融新闻的倾向性判定,本发明提出了基于LSTM模型的判定方法。在公司名识别方法中加入百度百科查询作为识别的一个因素,解决了因产品过多而误判为非公司名的问题,本发明所采用的公司名识别方法效果更优且扩展性更好,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,为了充分利用文本上下文的信息和词在文本的重要程度,本发明使用Word2vec训练文本,同时引入TFIDF方法。实验结果表明本发明提出的方法可以取得很好的效果。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于LSTM的金融新闻倾向性分析方法,其特征在于,包括:识别公司名、抽取关键句群、基于LSTM对关键句群进行倾向性分析。
2.根据权利要求1所述的基于LSTM的金融新闻倾向分析方法,其特征在于,所述分析方法包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。
3.根据权利要求1所述的基于LSTM的金融新闻倾向分析方法,其特征在于,识别公司名包括:
(1)将待处理新闻文本分解为N元组集合;
(2)在含有六位公司代码的句子中且在公司代码之前的N元组得分加1;
(3)将每个N元组依次和简称词典进行相似度匹配更新得分;
(4)最后将候选公司名进行百度搜索和百度百科查询更新得分,得分高于设定阈值的N元组设为公司名。
4.根据权利要求1-3所述的基于LSTM的金融新闻倾向分析方法,其特征在于,所述简称词典的建立方法包括:从国内三大证券交易所获得公司代码和公司简称创建简称词典且两者在词典里互为映射,建立公司名简称词典。
5.根据权利要求1所述的基于LSTM的金融新闻倾向分析方法,其特征在于,识别公司名包括:
首先初始化N元组集合得分,分别将N元组集合中N元组与以上所创建的基础公司名词典进行相似度匹配,得出候选公司名集合;
一个N元组X和一个公司名Y的相似度计算公式为:
式中α,β为权重;
互联网查询更新得分公式为:
internet_search(X)=η*count(X∈search_list)+γ*baike_query(x);
式中,internet_search为互联网查询更新函数,η为百度搜索权重,count为百度搜索中有效的查询条数,γ为百科查询权重,baike_query为百度百科返回值;
公司名识别的计算公式为:
name=λ*Sim+μ*internet_search;
式中,name为N元组的最终得分,λ和μ为权重,Sim为计算N元组与公司名词典相似度,internet_search为互联网搜索N元组更新结果。
6.根据权利要求1所述的分析方法,其特征在于,抽取关键句群包括:首先将新闻标题加入关键句群,使用doc2vec模型计算文本中句子与新闻标题相似度,同时综合句子在新闻文本中的位置、句子中是否含有公司名或者六位公司代码、是否含有领域动词信息再次更新句子集得分,得分高于阈值Φ的句子集作为新闻关键句群,如果没有句子得分高于阈值,则将得分最高的句子加入关键句群。
7.根据权利要求1所述的分析方法,其特征在于,抽取关键句群包括:
(1)将新闻标题加入关键句群;
(2)使用训练好的doc2vec模型进行每个句子与新闻标题的相似度计算,更新句子得分;
(3)对候选句子位置信息打分,
句子位置的打分公式为
式中position为句子打分函数,Si为文本中第i个句子,abs为求绝对值,n是文本中句子总数;
判断句子中是否有领域词信息如果含有则记为1否则为0、句子中是否含有公司名含有记为1否则为0,再次更新每个句子得分;
(4)根据句子的得分进行倒序排列,得分大于阈值Φ的句子作为新闻文本关键句群,如果候选关键句群中没有句子得分大于Φ,得分最高的句子加入关键句群。
句子总得分机制公式为
式中Score(Si)为句子Si的最终得分,Si为一篇新闻文本中第i个句子,j是句子打分特征集合,包含句子位置、是否含有公司名、是否含有领域词以及句子和新闻标题的相似度,wj为特征j得分权重,Scorej(Si)代表句子Si在特征j方面的打分。
8.根据权利要求1所述的分析方法,其特征在于,基于LSTM对关键句群进行倾向性分析包括:
(1)用LSTM模型训练已标注好的语料,直至满足各项参数要求;
(2)对获得的关键句群进行分词,去除停用词;
(3)用Word2vec和TFIDF对句子进行训练,获得句子向量;
(4)使用训练好的LSTM模型对句子向量进行倾向性分类;
(5)使用倾向性判断机制分析一篇新闻文本中关键句群中的正、负向数,得出一篇新闻文本的倾向性。
9.根据权利要求1-8所述的分析方法,其特征在于,所述倾向性判断机制为:用训练好的LSTM模型分别对每个关键句进行倾向性判断,如果正向的关键句数大于负向的关键句数,则该新闻文本被认为是正向的;如果负向的关键句数大于正向的关键句数,则认为新闻文本是负向的;如果正向和负向关键句数相同,则新闻文本的倾向取决于新闻标题倾向性。
10.根据权利要求1-9所述的分析方法,其特征在于,LSTM的结构包括:Xt为t时刻LSTM单元的输入数据,ht是输出,C是记忆单元的值;遗忘门决定信息的通过量,该门将xt和上一时刻输出ht-1作为输入,输出值在0和1之间,值用来描述每个部分通过量的多少,0代表完全舍弃,1代表全部通过;ft值的计算式为:
ft=σ(wf[ht-1,xt]+bf);
式中σ为sigmoid函数或称为“输入门层“,该结构决定应该更新那个值,wf是遗忘门权重,bf为遗忘门偏执;
it为更新后的值,控制当前的输入数据对记忆单元状态的影响,tanh层产生新的候选值向量并加入到状态中;it和的更新公式分别为
it=σ(wi[ht-1,xt]+bi);
式中σ为sigmoid函数,wi为更新门权重,bi是更新门偏执,tanh为双曲正切函数,wc为更新后候选值,bc为更新候选值偏执,是候选值;
接下来更新原来单元的状态,由状态Ct-1至Ct状态,将原来状态Ct-1和ft相乘,丢弃要屏蔽的信息,再加上的值;Ct更新公式为
sigmoid层决定当前状态的输出部分,状态通过tanh得到区间在-1和1的值,该值乘以sigmoid门的输出Ot,输出本时刻的输出值;Ot和ht的更新公式分别为
Ot=σ(wo[ht-1,xt]+bo);
ht=Ot*tanh(Ct);
式中wo为更新输出值的权重,bo是更新输出值偏执,ht为最终输出值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566674.2A CN109614490A (zh) | 2018-12-21 | 2018-12-21 | 基于lstm的金融新闻倾向性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566674.2A CN109614490A (zh) | 2018-12-21 | 2018-12-21 | 基于lstm的金融新闻倾向性分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109614490A true CN109614490A (zh) | 2019-04-12 |
Family
ID=66011028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811566674.2A Pending CN109614490A (zh) | 2018-12-21 | 2018-12-21 | 基于lstm的金融新闻倾向性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614490A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852064A (zh) * | 2019-10-31 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 关键句提取方法及装置 |
CN113064964A (zh) * | 2021-03-22 | 2021-07-02 | 广东博智林机器人有限公司 | 文本分类方法、模型训练方法、装置、设备以及存储介质 |
CN114417821A (zh) * | 2022-03-29 | 2022-04-29 | 南昌华梦达航空科技发展有限公司 | 基于云平台的金融文本核查分析系统 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794241A (zh) * | 2015-05-11 | 2015-07-22 | 苏州大学 | 一种基于情绪倾向性的新闻分类方法及系统 |
CN106933800A (zh) * | 2016-11-29 | 2017-07-07 | 首都师范大学 | 一种金融领域的事件句抽取方法 |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
-
2018
- 2018-12-21 CN CN201811566674.2A patent/CN109614490A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794241A (zh) * | 2015-05-11 | 2015-07-22 | 苏州大学 | 一种基于情绪倾向性的新闻分类方法及系统 |
CN106933800A (zh) * | 2016-11-29 | 2017-07-07 | 首都师范大学 | 一种金融领域的事件句抽取方法 |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
Non-Patent Citations (1)
Title |
---|
郑国伟等: "基于LSTM的金融新闻倾向性", 《计算机工程与设计》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852064A (zh) * | 2019-10-31 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 关键句提取方法及装置 |
CN110852064B (zh) * | 2019-10-31 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 关键句提取方法及装置 |
CN113064964A (zh) * | 2021-03-22 | 2021-07-02 | 广东博智林机器人有限公司 | 文本分类方法、模型训练方法、装置、设备以及存储介质 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114637845B (zh) * | 2022-03-11 | 2023-04-14 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114417821A (zh) * | 2022-03-29 | 2022-04-29 | 南昌华梦达航空科技发展有限公司 | 基于云平台的金融文本核查分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100344B (zh) | 一种基于知识图谱的金融领域知识问答方法 | |
CN109858028B (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN109614490A (zh) | 基于lstm的金融新闻倾向性分析方法 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN108399230A (zh) | 一种基于卷积神经网络的中文财经新闻文本分类方法 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN109886020A (zh) | 基于深度神经网络的软件漏洞自动分类方法 | |
Tang et al. | Multi-label patent categorization with non-local attention-based graph convolutional network | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
CN108932229A (zh) | 一种金融新闻倾向性分析方法 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN111652704A (zh) | 一种基于知识图谱和图深度学习的金融信用风险评估方法 | |
CN108596637B (zh) | 一种电商服务问题自动发现系统 | |
Reyes-Galaviz et al. | A supervised gradient-based learning algorithm for optimized entity resolution | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111859961A (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
KR20230163983A (ko) | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111400495A (zh) | 一种基于模板特征的视频弹幕消费意图识别方法 | |
CN110348497A (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190412 |