CN105069141A - 一种股票标准新闻库的构建方法及构建系统 - Google Patents

一种股票标准新闻库的构建方法及构建系统 Download PDF

Info

Publication number
CN105069141A
CN105069141A CN201510511588.1A CN201510511588A CN105069141A CN 105069141 A CN105069141 A CN 105069141A CN 201510511588 A CN201510511588 A CN 201510511588A CN 105069141 A CN105069141 A CN 105069141A
Authority
CN
China
Prior art keywords
news
stock
word
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510511588.1A
Other languages
English (en)
Inventor
金学波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201510511588.1A priority Critical patent/CN105069141A/zh
Publication of CN105069141A publication Critical patent/CN105069141A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及股票标准新闻库的构建方法及构建系统,包括获取股票新闻信息;构建股票标准库Z0;对股票标准库中的文本进行预编译;对文本特征进行标识,选取特征词;计算特征词的信息增益,得到特征词的特征值;利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;利用分类模型更新股票标准库;更新调整股票标准库中的新闻组成;通过对抓取的新闻信息进行判断是积极新闻还是消极新闻,构建分类模型,并通过向量机算法不断更新数据库中的新闻信息,实现新闻库的构建,该数据库构建方法简单,实现方便,且新闻数据处理效率高,及时更新数据信息,数据信息准确。

Description

一种股票标准新闻库的构建方法及构建系统
技术领域
本发明涉及文字信息处理技术领域,尤其是一种股票标准新闻库的构建方法。
背景技术
股市新闻作为市场信息的重要部分,被投资者广泛地分析和运用。随着互联网的高速发展,新闻传播和信息变更的速度非常大。拥有如此大量的信息,越来越多的金融机构依靠计算机来分析数据,与此相关的分析预测系统可以帮助投资者过滤干扰信息并做出合理的选择。
股票价格的统计分析和预测方法很多,一些传统技术分析方法包括股价图形分析(点线图、直线图、K线图等)、趋势分析(趋势线、通道线、黄金分割线等)、指标分析(随机指标、威廉指标、乖离率、相对强弱指数等)等。这些技术主要集中在运用近期历史价格数据的数值型方法分析,不能分析文字新闻数据。
目前,随着互联网的发展,基于文本分析的股票分析及预测方法也取得了实际的应用效果。基于文本分类-预测模型可以利用最新的股市新闻,对股价给出一个比较明确的预测(上升,持平或者下降)。基于文本分析的股票分析及预测方法通过公开新闻信息,利用改进的评价组对股票情感词进行特征选择,并用归一化后的绝对词频权重对文本中的情感词进行特征加权选择并对股票新闻进行倾向性分析。但是该方法较为复杂,效率较低,输出结果的准确性不高。
发明内容
本发明所要解决的技术问题是提供一种构建简单,输出准确的股票标准新闻库构建方法及构建系统。
本发明解决上述技术问题的技术方案如下:
一种股票标准新闻库的构建方法,其特征在于,包括如下步骤,
步骤S1:获取股票新闻信息;
步骤S2:根据股票新闻信息构建股票标准库Z0
步骤S3:对股票标准库中的文本进行预编译;
步骤S4:对已编译文本的特征进行标识,选取特征词;
步骤S5:计算特征词的信息增益,得到特征词的特征值;
步骤S6:利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;
步骤S7:利用分类模型更新股票标准库;
步骤S8:重复步骤S3至步骤S6,调整股票标准库中的新闻组成,直至分类结果正确比率大于阈值。
本发明的有益效果:通过对抓取的新闻信息进行判断是积极新闻还是消极新闻,构建分类模型,并通过向量机算法不断更新数据库中的新闻信息,实现新闻库的构建,该数据库构建方法简单,实现方便,且新闻数据处理效率高,及时更新数据信息,数据信息准确。
进一步,获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中抓取股票新闻信息。
采用进一步技术方案的有益效果:从互联网中实时抓取新闻信息,新闻时效性高,能够实现动态更新新闻库。
进一步,所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息,逐条判断新闻信息对股票是看涨或看跌,如果看涨,则该条新闻信息归类为积极新闻,如果看跌则该条新闻归类为消极新闻,积极新闻和消极新闻共同构成股票标准库Z0
采用进一步技术方案的有益效果:新闻信息归类为积极新闻和消极新闻,归类简单直接,积极新闻和消极新闻共同构成股票标准库Z0,便于后续文本处理。
进一步,所述步骤S3中对股票标准库中的文本进行预编译,预编译包括对新闻信息进行分词和去除停用词;
分词,采用Jieba分词系统,基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;
去除停用词,定义停用词,利用Jieba分词工具去除停用词。
采用进一步技术方案的有益效果:工业界和学术界常用的有TheStanfordNLP(中科院NLP组),其为基于Python语言的Jieba开源分词软件的中文分词组件。采用Jieba分词系统,它基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图。采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。另外利用Jieba分词工具本身自带的停用词库(包含语气助词、副词、介词、连接词等)就可以很好的达到去除停用词的目标。
进一步,所述步骤S4对文本特征进行标识,采用TF-IDF加权法;
TF-IDF的计算方法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d中出现的频率,IDF的含义是:如果包含词语t的文件越少,也就是n越小,IDF越大,则说明词语t具有很好的类别区分能力;
对于在某一特定语料中的词语ti来说,TF的计算方法为:
TF i , j = n i , j Σ 1 k n k , j
上式中ni,j是该词语在文档dj中的显现次数,而分母则是在文档dj中所有词语的显现次数之总和;
IDF由总文档数目除以包含该词语的文档的数目,再将所得到的商取对数得到:
IDF i = l o g | D | 1 + | { j : t i ∈ d j } |
其中|D|:股票标准库的文档总数;
|{j:ti∈dj}|:包含词语ti的文档数目(即ni,j≠0的文档数目),如果该词语在语料库中不存在,就会导致分母为零,因此使用1+|{j:ti∈dj}|作为特征选择方法;
TF-IDF加权法的计算方法如下:
TFIDFi,j=TFi,j*IDFi
采用进一步技术方案的有益效果:采用TF-IDF加权法,TF-IDF(termfrequencyinversedocumentfrequency)是一种用于资讯检索的常用加权技术。用以评估某个词语对于一个文档集合(或股票标准库)中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级,所以TF-IDF加权法倾向于去掉常见的无意义的词语,保留重要的词语,对于经过分词和去掉停用词处理后新闻文本中的词语。
实际中如果特征词选择太多,在训练SVM时耗时长,还不收敛,但特征词太少,标准新闻库构建效果不好。所以经过实验,选取20个特征词为最优方案。
进一步,所述步骤S5中信息增益为某一特征在文档中出现的前后信息熵之差,其计算公式为:
I G ( T ) = H ( C ) - H ( C | T ) = - Σ i = 1 n P ( C i ) log 2 P ( C i | t ) + P ( t ) Σ i = 1 n P ( C i | t ) log 2 P ( C i | t ) + P ( t ‾ ) Σ i = 1 n P ( C i | t ‾ ) log 2 P ( C i | t ‾ )
式中:P(Ci)表示类别Ci出现的概率,用类别Ci的文档数除以总的文档数;P(t)是特征t出现的概率,用出现过T的文档数除以总文档数;P(Ci|t)表示出现T的时候,类别Ci出现的概率;
对每个词语进行编号,每个编号的词语计算得到的信息增益与之一一对应,并作为输入数据对支持SVM进行有监督训练,训练的输出数据为1或-1表示特征词的特征值,其中1表示积极新闻,-1表示消极新闻。
采用进一步技术方案的有益效果:计算特征词的特征值,采用1表示积极新闻,-1表示消极新闻,方法简单,归类迅速。
进一步,步骤S6,利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型。
采用进一步技术方案的有益效果:SVM(向量机)算法是机器学习中成熟的算法,其是利用已知的输入输出数据进行训练,得到描述输入输出数据分类的支持向量,算法训练完毕。接下来,如果没有输出标签的数据输入到该系统中,利用已经训练得到的支持向量就可以将新输入的数据进行分类。该算法还有很多改进方法,本专利的本步骤可以使用任何SVM算法。
进一步,所述步骤S7中利用分类模型更新股票标准库的具体步骤如下:
步骤71:将将特征词的信息增益作为输入加入到已训练的支持SVM上,选择对股票新闻积极或消极分类正确的新闻,组成新闻集合Z1
步骤72:使用爬虫工具在网页上继续获取股票评价新闻,新闻的特征数据作为输入加入到已训练的支持SVM上,对股票新闻进行分类,得到其为积极或消极分类的结果;
步骤73:将得到的新闻及其分类结果构成新闻集合Z2,利用Z1修改Z0,构建新的股票新闻标准库,并将Z2加到标准库中,形成新的标准库Z3,其中新的标准库中包含的新闻库为Z1+Z2
采用上述进一步方案的有益效果是:使用该方式可以不断扩大和充实新闻库的内容。
进一步,设Z0=Z3,重复主步骤3-6,并不断调整Z3中的新闻组成,直到利用训练后的模型、训练的输入数据的分类结果正确比率大于90%,所得的Z3即为新构建的标准库。
采用上述进一步方案的有益效果是:重复步骤3至步骤6,使得分类结果正确比率大于90%,便于准确构建标准库。
一种股票标准新闻库构建系统,其特征在于,包括新闻获取模块、标准新闻库模块、预编译模块、标识模块、信息增益模块、分类模块和调整控制模块;
所述新闻获取模块,用于获取股票新闻信息;
所述标准新闻库模块,用于根据股票新闻信息构建股票标准库Z0
所述预编译模块,用于对股票标准库中的文本进行预编译;
所述标识模块,用于对已编译文本的特征进行标识,选取特征词;
所述信息增益模块,用于计算特征词的信息增益,得到特征词的特征值;
所述分类模块,用于利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型,并利用分类模型更新股票标准库;
所述调整控制模块,用于重复调用预编译模块、标识模块、信息增益模块和分类模块,调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
附图说明
图1为股票标准新闻库的构建方法流程图;
图2为股票标准新闻库的构建系统原理框图。
具体实施方式
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种股票标准新闻库的构建方法,其特征在于,包括如下步骤,
步骤S1:使用互联网工具网络爬虫从互联网中抓取股票新闻信息;
步骤S2:构建股票标准库Z0
步骤S3:对股票标准库中的文本进行预编译;
步骤S4:对文本特征进行标识,选取特征词;
步骤S5:计算特征词的信息增益,得到特征词的特征值;
步骤S6:利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;
步骤S7:利用分类模型更新股票标准库;
步骤S8:重复步骤3至步骤6,调整股票标准库中的新闻组成。
所述步骤2构建股票标准库的方法为根据获取的股票新闻信息,逐条判断新闻信息对股票是看涨或看跌,如果看涨,则该条新闻信息归类为积极新闻,如果看跌则该条新闻归类为消极新闻,积极新闻和消极新闻共同构成股票标准库Z0
步骤S3中对股票标准库中的文本进行预编译,预编译包括对新闻信息进行分词和去除停用词;工业界和学术界常用的有TheStanfordNLP,中科院NLP组,基于Python语言的Jieba开源分词软件的中文分词组件。建议采用Jieba分词系统,它基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图。采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。
去除停用词,定义停用词,利用Jieba分词工具去除停用词。比如“房地产板块股(尤其是)保利地产后期(有望)继续走强”,“尤其是”和“有望”这两个词就是停用词,没有什么实际意义,再根据股票新闻的特点人工增加类似上交所,深交所等毫无分类意义的词汇,以便达到更高的效率。利用Jieba分词工具本身自带的停用词库(包含语气助词、副词、介词、连接词等)就可以。
步骤S4对文本特征进行标识,采用TF-IDF加权法;
TF-IDF加权法(termfrequencyinversedocumentfrequency,用于信息检索与数据挖掘的常用加权技术)在文本处理领域中应用广泛,该方法的基本原理是:如果某个词语在一篇文件中出现的频率高,但是在其他文件中出现频率低,则认为该词语具有很好的类别区分能力,能够用于分类操作。
TF-IDF的计算方法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d中出现的频率,IDF的含义是:如果包含词语t的文件越少,也就是n越小,IDF越大,则说明词语t具有很好的类别区分能力;
对于在某一特定语料中的词语ti来说,TF的计算方法为:
TF i , j = n i , j Σ 1 k n k , j
上式中ni,j是该词语在文档dj中的显现次数,而分母则是在文档dj中所有词语的显现次数之总和;
IDF由总文档数目除以包含该词语的文档的数目,再将所得到的商取对数得到:
IDF i = l o g | D | 1 + | { j : t i ∈ d j } |
其中|D|:股票标准库的文档总数;
|{j:ti∈dj}|:包含词语ti的文档数目(即ni,j≠0的文档数目),如果该词语在语料库中不存在,就会导致分母为零,因此使用1+|{j:ti∈dj}|作为特征选择方法;
TF-IDF加权法的计算方法如下:
TFIDFi,j=TFi,j*IDFi
采用TF-IDF加权法,当某一特定文档语料中的高频率词语,以及该词语在全部文本集合中的低文档频率,能够体现出较高权重的值。所以,TF-IDF方法倾向于去掉常见的单词,保留重要的单词。对经过分词和去除停用词处理后新闻文本中的词语,计算TF-IDF值之后,选择其中权重最大的20个特征词。
步骤S5中信息增益为某一特征在文档中出现的前后信息熵之差,其计算公式为:
I G ( T ) = H ( C ) - H ( C | T ) = - Σ i = 1 n P ( C i ) log 2 P ( C i | t ) + P ( t ) Σ i = 1 n P ( C i | t ) log 2 P ( C i | t ) + P ( t ‾ ) Σ i = 1 n P ( C i | t ‾ ) log 2 P ( C i | t ‾ )
式中:P(Ci)表示类别Ci出现的概率,用类别Ci的文档数除以总的文档数;P(t)是特征t出现的概率,用出现过T的文档数除以总文档数;P(Ci|t)表示出现T的时候,类别Ci出现的概率;
对每个词语进行编号,每个编号的词语计算得到的信息增益与之一一对应,并作为输入数据对支持SVM进行有监督训练,训练的输出数据为1或-1表示特征词的特征值,其中1表示积极新闻,-1表示消极新闻。
利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型。SVM算法(向量机算法)是机器学习中很成熟的算法,其功能是利用已知的输入输出数据进行训练,得到描述输入输出数据分类的支持向量,算法训练完毕。接下来,如果没有数据输入到该系统中,利用已经训练得到的支持向量就可以将新输入的数据进行分类。该算法还有很多改进方法,本专利的本步骤可以使用任何SVM方法,基本原理和步骤可以参考如下:
步骤S5中将每个特征词进行编号,例如标号为1,2,3......(连续整数)。对于每个标号的词语计算得到与之相对应的信息增益作为输入数据;根据股票未来实际涨跌,判断每只股票新闻是积极新闻还是消极新闻,得到新闻类别1(表示积极新闻)或-1(表示消极新闻)作为输出数据,利用已知新闻类别的样本对支持向量机进行有监督训练。通过支持向量机构建分类器模型将输入数据分为两类,需要找到数据集的最佳分隔超平面,可以通过最优化目标函数得到:
arg m a x w , b { m i n n ( l a b e l · ( w T x + b ) ) · 1 | | w | | }
直接求解上述问题相当困难,经过一系列推导将其转化为另一种容易求解得形式:
m a x &alpha; &lsqb; &Sigma; i = 1 m &alpha; - 1 2 &Sigma; i , j = 1 m label ( i ) &CenterDot; label ( j ) &CenterDot; a i &CenterDot; a i < x ( i ) , x ( j ) > &rsqb;
其约束条件为:
C≥α≥0,和 &Sigma; i = 1 m &alpha; i &CenterDot; label ( i ) = 0
其中<x(i),x(j)>表示两个向量内积,常数C用于控制“最大化间隔”和“保证大部分点的函数间隔在0到1.0”。在优化算法的实现代码中,常数C是一个参数,可以通过调节该参数的到不同的结果。SVM的主要工作就是求解这些αi,一旦求出了所有的αi,那么分隔超平面就可以通过这些αi来表达。
具体步骤为:
步骤61选择径向基函数作为核函数,将训练样本映射到高维特征空间;
Kc(x,y)=exp(-γ||x-y||2)
在使用RBF核函数的情况下,需要优化的参数有:C和γ。C是惩罚系数,C太小,容易发生过拟合,C太大,拟合的结果和实际结果相差太大;γ是RBF的系数,γ的取值直接影响到能否找到一个能将多类数据分开的最优超平面。一般取值方法为C=211,γ=2-11
步骤62利用SVM在样本特征空间中找出各类别样本的最优分类超平面,得到代表各样本特征的支持向量。
步骤63求出最小化||w||,w是垂直于超平面的向量;
步骤64只存储非零的αi和相应的支持向量Xi
步骤65分类;对于待分类样本X,用支持向量Xi和相应的权重αi计算判别函数式得到输出类别。
步骤S7中利用分类模型更新股票标准库的具体步骤如下:
步骤71:将特征词的信息增益作为输入加入到已训练的支持SVM上,选择对股票新闻积极或消极分类正确的新闻,组成新闻集合Z1
步骤72:使用爬虫工具在网页上继续获取股票评价新闻,新闻的特征数据作为输入加入到已训练的支持SVM上,对股票新闻进行分类,得到其为积极或消极分类的结果;
步骤73:将得到的新闻及其分类结果构成新闻集合Z2,利用Z1修改Z0,构建新的股票新闻标准库,并将Z2加到标准库中,形成新的标准库Z3,其中新的标准库中包含的新闻库为Z1+Z2
设Z0=Z3,重复步骤3至步骤6,并不断调整Z3中的新闻组成,直到利用训练后的模型、训练的输入数据的分类结果正确比率大于90%,所得的Z3即为新构建的标准库。
如图2所示,一种股票标准新闻库构建系统,其特征在于,包括新闻获取模块1、标准新闻库模块2、预编译模块3、标识模块4、信息增益模块5、分类模块6和调整控制模块7;
所述新闻获取模块1,用于获取股票新闻信息;
所述标准新闻库模块2,用于根据股票新闻信息构建股票标准库Z0
所述预编译模块3,用于对股票标准库中的文本进行预编译;
所述标识模块4,用于对已编译文本的特征进行标识,选取特征词;
所述信息增益模块5,用于计算特征词的信息增益,得到特征词的特征值;
所述分类模块6,用于利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型,并利用分类模型更新股票标准库;
所述调整控制模块7,用于重复调用预编译模块3、标识模块4、信息增益模块5和分类模块6,调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种股票标准新闻库的构建方法,其特征在于,包括如下步骤,
步骤S1:获取股票新闻信息;
步骤S2:根据股票新闻信息构建股票标准库Z0
步骤S3:对股票标准库中的文本进行预编译;
步骤S4:对已编译文本的特征进行标识,选取特征词;
步骤S5:计算特征词的信息增益,得到特征词的特征值;
步骤S6:利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;
步骤S7:利用分类模型更新股票标准库;
步骤S8:重复步骤S3至步骤S6,调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
2.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中获取股票新闻信息。
3.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息,逐条判断新闻信息对股票是看涨或看跌,如果看涨,则该条新闻信息归类为积极新闻,如果看跌则该条新闻归类为消极新闻,积极新闻和消极新闻共同构成股票标准库Z0
4.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S3中对股票标准库中的文本进行预编译,预编译包括对新闻信息进行分词和去除停用词;
分词,采用Jieba分词系统,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合;
去除停用词,定义停用词,利用Jieba分词工具去除停用词。
5.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,采用TF-IDF加权法对所述步骤S4中文本特征进行标识;
TF-IDF加权法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d中出现的频率,IDF是判断词语在其他文档中出现次数的一种度量,用于判断词语的类别区分能力;
对于在某一特定语料中的词语ti来说,TF的计算方法为:
TF i , j = n i , j &Sigma; 1 k n k , j
上式中ni,j是该词语在文档dj中的显现次数,而分母则是在文档dj中所有词语的显现次数之总和;
IDF由总文档数目除以包含该词语的文档的数目,再将所得到的商取对数得到:
IDF i = l o g | D | 1 + | { j : t i &Element; d j } |
其中|D|:股票标准库的文档总数;
|{j:ti∈dj}|:包含词语ti的文档数目(即ni,j≠0的文档数目),如果该词语在语料库中不存在,就会导致分母为零,因此使用1+|{j:ti∈dj}|作为特征选择方法;
TF-IDF加权法的计算方法如下:
TFIDFi,j=TFi,j*IDFi
6.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S5中的信息增益为某一特征在文档中出现的前后信息熵之差;
I G ( T ) = H ( C ) - H ( C | T ) = - &Sigma; i = 1 n P ( C i ) log 2 P ( C i | t ) + P ( t ) &Sigma; i = 1 n P ( C i | t ) log 2 P ( C i | t ) + P ( t &OverBar; ) &Sigma; i = 1 n P ( C i | t &OverBar; ) log 2 P ( C i | t &OverBar; )
式中:Ci描述新闻的类别,即是积极新闻或消极新闻;P(Ci)表示类别Ci出现的概率,用类别Ci的文档数除以总的文档数;P(t)是特征词t出现的概率,用出现过T的文档数除以总文档数;P(Ci|t)表示出现T的时候,类别Ci出现的概率;
对每个词语进行编号,每个编号的词语计算得到的信息增益与之一一对应,并作为输入数据对支持SVM进行有监督训练,训练的输出数据为1或-1表示特征词的特征值,其中1表示积极新闻,-1表示消极新闻。
7.根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S7中利用分类模型更新股票标准库的具体步骤如下:
步骤71:将特征词的信息增益作为输入加入到已训练的支持SVM上,选择对股票新闻积极或消极分类正确的新闻,组成新闻集合Z1
步骤72:使用爬虫工具在网页上继续获取股票评价新闻,新闻的特征数据作为输入加入到已训练的支持SVM上,对股票新闻进行分类,得到其为积极或消极分类的结果;
步骤73:将得到的新闻及其分类结果构成新闻集合Z2,利用Z1修改Z0,构建新的股票新闻标准库,并将Z2加到股票标准新闻库中,形成新的股票标准新闻库Z3,其中新的标准库中包含的新闻库为Z1+Z2
8.根据权利要求7所述的股票标准新闻库的构建方法,其特征在于,设Z0=Z3,重复主步骤S3-S6,并不断调整Z3中的新闻组成,直到利用训练后的模型、训练的输入数据的分类结果正确比率大于阈值,阈值为90%,所得的Z3即为新构建的标准库。
9.一种股票标准新闻库构建系统,其特征在于,包括新闻获取模块(1)、标准新闻库模块(2)、预编译模块(3)、标识模块(4)、信息增益模块(5)、分类模块(6)和调整控制模块(7);
所述新闻获取模块(1),用于获取股票新闻信息;
所述标准新闻库模块(2),用于根据股票新闻信息构建股票标准库Z0
所述预编译模块(3),用于对股票标准库中的文本进行预编译;
所述标识模块(4),用于对已编译文本的特征进行标识,选取特征词;
所述信息增益模块(5),用于计算特征词的信息增益,得到特征词的特征值;
所述分类模块(6),用于利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型,并利用分类模型更新股票标准库;
所述调整控制模块(7),用于重复调用预编译模块(3)、标识模块(4)、信息增益模块(5)和分类模块(6),调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
CN201510511588.1A 2015-08-19 2015-08-19 一种股票标准新闻库的构建方法及构建系统 Pending CN105069141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510511588.1A CN105069141A (zh) 2015-08-19 2015-08-19 一种股票标准新闻库的构建方法及构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510511588.1A CN105069141A (zh) 2015-08-19 2015-08-19 一种股票标准新闻库的构建方法及构建系统

Publications (1)

Publication Number Publication Date
CN105069141A true CN105069141A (zh) 2015-11-18

Family

ID=54498510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510511588.1A Pending CN105069141A (zh) 2015-08-19 2015-08-19 一种股票标准新闻库的构建方法及构建系统

Country Status (1)

Country Link
CN (1) CN105069141A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126605A (zh) * 2016-06-21 2016-11-16 国家计算机网络与信息安全管理中心 一种基于用户画像的短文本分类方法
CN106933847A (zh) * 2015-12-30 2017-07-07 北京神州泰岳软件股份有限公司 一种建立数据分类模型的方法和装置
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN107577797A (zh) * 2017-09-19 2018-01-12 上海朝阳永续信息技术股份有限公司 一种基金要素信息归类方法及装置
CN108595464A (zh) * 2018-01-31 2018-09-28 深圳市富途网络科技有限公司 一种实现多源相似新闻去重的方法及系统
CN108959630A (zh) * 2018-07-24 2018-12-07 电子科技大学 一种面向英文无结构文本的人物属性抽取方法
CN108985943A (zh) * 2018-07-19 2018-12-11 深圳云财经大数据技术有限公司 一种股票信息处理方法、系统及可穿戴设备
CN109241246A (zh) * 2018-11-01 2019-01-18 北京京航计算通讯研究所 基于质量文本相似性的数据查询系统
CN109255021A (zh) * 2018-11-01 2019-01-22 北京京航计算通讯研究所 基于质量文本相似性的数据查询方法
CN109493228A (zh) * 2018-12-12 2019-03-19 安徽省泰岳祥升软件有限公司 一种生成股票简讯模型的方法及装置
CN110245995A (zh) * 2019-06-25 2019-09-17 北京向上一心科技有限公司 分析方法、装置、电子设备和计算机可读存储介质
CN111930936A (zh) * 2020-06-28 2020-11-13 山东师范大学 一种平台留言文本挖掘方法及系统
CN112561500A (zh) * 2021-02-25 2021-03-26 深圳平安智汇企业信息管理有限公司 基于用户数据的薪酬数据生成方法、装置、设备及介质
CN112910674A (zh) * 2019-12-04 2021-06-04 中国移动通信集团设计院有限公司 物理站点筛选方法、装置、电子设备及存储介质
TWI758676B (zh) * 2020-01-03 2022-03-21 華南商業銀行股份有限公司 金融交易量警示系統
CN114818891A (zh) * 2022-04-14 2022-07-29 人民网股份有限公司 小样本多标签文本分类模型训练方法及文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN103985055A (zh) * 2014-05-30 2014-08-13 西安交通大学 一种基于网络分析和多模型融合的股市投资决策方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN103985055A (zh) * 2014-05-30 2014-08-13 西安交通大学 一种基于网络分析和多模型融合的股市投资决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋敏晶: "基于情感分析的股票预测模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933847A (zh) * 2015-12-30 2017-07-07 北京神州泰岳软件股份有限公司 一种建立数据分类模型的方法和装置
CN106933847B (zh) * 2015-12-30 2019-12-27 北京神州泰岳软件股份有限公司 一种建立数据分类模型的方法和装置
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN106126605A (zh) * 2016-06-21 2016-11-16 国家计算机网络与信息安全管理中心 一种基于用户画像的短文本分类方法
CN107577797A (zh) * 2017-09-19 2018-01-12 上海朝阳永续信息技术股份有限公司 一种基金要素信息归类方法及装置
CN108595464A (zh) * 2018-01-31 2018-09-28 深圳市富途网络科技有限公司 一种实现多源相似新闻去重的方法及系统
CN108985943A (zh) * 2018-07-19 2018-12-11 深圳云财经大数据技术有限公司 一种股票信息处理方法、系统及可穿戴设备
CN108959630A (zh) * 2018-07-24 2018-12-07 电子科技大学 一种面向英文无结构文本的人物属性抽取方法
CN109255021A (zh) * 2018-11-01 2019-01-22 北京京航计算通讯研究所 基于质量文本相似性的数据查询方法
CN109241246A (zh) * 2018-11-01 2019-01-18 北京京航计算通讯研究所 基于质量文本相似性的数据查询系统
CN109493228A (zh) * 2018-12-12 2019-03-19 安徽省泰岳祥升软件有限公司 一种生成股票简讯模型的方法及装置
CN110245995A (zh) * 2019-06-25 2019-09-17 北京向上一心科技有限公司 分析方法、装置、电子设备和计算机可读存储介质
CN112910674A (zh) * 2019-12-04 2021-06-04 中国移动通信集团设计院有限公司 物理站点筛选方法、装置、电子设备及存储介质
CN112910674B (zh) * 2019-12-04 2023-04-18 中国移动通信集团设计院有限公司 物理站点筛选方法、装置、电子设备及存储介质
TWI758676B (zh) * 2020-01-03 2022-03-21 華南商業銀行股份有限公司 金融交易量警示系統
CN111930936A (zh) * 2020-06-28 2020-11-13 山东师范大学 一种平台留言文本挖掘方法及系统
CN112561500A (zh) * 2021-02-25 2021-03-26 深圳平安智汇企业信息管理有限公司 基于用户数据的薪酬数据生成方法、装置、设备及介质
CN114818891A (zh) * 2022-04-14 2022-07-29 人民网股份有限公司 小样本多标签文本分类模型训练方法及文本分类方法
CN114818891B (zh) * 2022-04-14 2022-11-18 人民网股份有限公司 小样本多标签文本分类模型训练方法及文本分类方法

Similar Documents

Publication Publication Date Title
CN105069141A (zh) 一种股票标准新闻库的构建方法及构建系统
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN102541838B (zh) 用于优化情感分类器的方法和设备
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
BaygIn Classification of text documents based on Naive Bayes using N-Gram features
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN110532563A (zh) 文本中关键段落的检测方法及装置
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN105912648A (zh) 一种基于侧面信息的代码片段编程语言识别方法
Yadu et al. A Hybrid Model Integrating Adaboost Approach for Sentimental Analysis of Airline Tweets.
Cao et al. Combining contents and citations for scientific document classification
Fernández et al. Approaches to the Profiling Fake News Spreaders on Twitter Task in English and Spanish.
CN103514168A (zh) 数据处理方法和设备
CN103886097A (zh) 基于自适应提升算法的中文微博观点句识别特征的提取方法
Sraboni et al. FakeDetect: Bangla fake news detection model based on different machine learning classifiers
Vadivukarassi et al. A comparison of supervised machine learning approaches for categorized tweets
CN108268458A (zh) 一种基于knn算法的半结构化数据分类方法及装置
CN101727463A (zh) 一种文本训练方法和分类方法
Intani et al. Automating Public Complaint Classification Through JakLapor Channel: A Case Study of Jakarta, Indonesia
CN103207893A (zh) 基于向量组映射的两类文本的分类方法
Chrystal et al. Text mining and classification of product reviews using structured support vector machine
CN107844553B (zh) 一种文本分类方法及装置
Selot Comparative Performance of Random Forest and Support Vector Machine on Sentiment Analysis of Reviews of Indian Tourism
Suri et al. A Review on Sentiment Analysis in Different Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151118