CN101556580A

CN101556580A - 一种基于篇章结构分析的股评观点分类系统及方法

Info

Publication number: CN101556580A
Application number: CNA2009100841203A
Authority: CN
Inventors: 莫倩; 胡航丽
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2009-05-20
Filing date: 2009-05-20
Publication date: 2009-10-14

Abstract

本发明涉及一种基于篇章结构分析的股评观点分类系统及方法，其特征在于：它包括文本选择模块、基于篇章结构分析的分类器和股评输出模块，文本选择模块将股评文本集中文本分为标题和正文中的预测性语句；基于篇章结构分析的分类器包括标题分类器和预测性语句分类器，前者输出标题可信度，后者输出预测性语句可信度；股评输出模块融合标题可信度和预测性语句可信度，并输出最终结果；文本选择模块对标题进行判断，如标题为疑问句，则其可信度置0；否则输入标题分类器；文本选择模块在正文中循环提取预测特征词所在的预测性语句；如没有对应于预测特征词的预测性语句，则提取正文的最后一个句子作为预测性语句；将预测性语句输入预测性语句分类器。

Description

一种基于篇章结构分析的股评观点分类系统及方法

技术领域

本发明涉及一种数据挖掘系统及方法，特别是关于一种基于篇章结构分析的股评观点分类系统及方法。

背景技术

文本倾向性分析是指文本所包含的某一主题所持的观点、态度和立场，对该文本进行倾向性分类。通常将文本分为正面的、中立的、负面的三种倾向。文本倾向性分类在信息过滤、信息内容安全管理、舆情分析等方面有着重要应用。国外对文本倾向性研究在20世纪90年代中期开始得到普遍关注，并出现许多较为通用的方法，如传统的文本分类方法、基于语义模式分类方法和基于观点基准词组分类方法等。其中，传统的文本分类方法是将文本倾向性分析作为一个基于主题的文本分类问题来对待，那么就可以使用任意一种文本分类算法，如Naive Bayesian、SVM、KNN等方法。基于语义模式分类方法是使用语义模式作为文本的基本特征，把语义信息体现到语义模式之中。基于观点基准词组分类方法是通过计算词汇与具有强烈倾向意义的基准词的关联程度，来确定文本中词汇的倾向性度量，从而确定文本的倾向性，这种方法的代表就是Turney的SO-PMI算法。

以上三种常用方法各有缺陷，传统的文本分类方法需要花费很大的精力建立训练集，如训练样本不足，则会导致泛化性不足从而使得准确率得不到保证；基于语义模式分类方法的工作量大，而且当主题或领域发生变化时，需要重新构建寻找新的语义模式；基于观点基准词组分类方法只考虑到了词汇的倾向性，没有从整体上对文本的倾向性进行把握，因此准确率较差。国内对于文本倾向性的研究起步较晚，目前的研究方向主要集中在产品评论、影评和词汇的倾向性研究等几个方面。到目前为止，不管是国内还是国外，尚未将观点分类技术应用到股评观点分类领域。通过实验发现，如果直接将上述的三种方法移植到股评观点分类领域中，则查准率和查全率均较差。

发明内容

针对上述问题，本发明的目的是提供一种可以输出精简、明确的股评观点分类信息的基于篇章结构分析的股评观点分类系统及方法。

为实现上述目的，本发明采取以下技术方案：一种基于篇章结构分析的股评观点分类方法，其特征在于：它包括文本选择模块、基于篇章结构分析的分类器模块和股评输出模块；所述基于篇章结构分析的分类器模块包括标题分类器和预测性语句分类器；所述文本选择模块从股评数据库中提取股评文本后，对所述股评文本的标题和正文进行分离；判断所述标题是否为疑问句，如果是疑问句，则标题可信度Sim(r_i，T_C)＝0；否则利用标题分类器对标题进行观点分类，输出标题可信度Sim(r_i，T_C)；

同时，所述文本选择模块在所述正文中循环检测预测特征词表中的每一个预测性特征词，如果存在所述预测特征词，则提取出所述预测特征词所在的句子，放入预测性语句集S中；循环结束后，如果所述预测性语句集S为空，则提取所述正文的最后一个句子，放入所述预测性语句集S中；将所述预测性语句集S输入所述预测性语句分类器，输出相应的预测性语句可信度Sim(r_i，B_C)；

设置可信度阈值ω＞0，当所述Sim(r_i，T_C)≥ω且Sim(r_i，B_C)＜ω时，则将所述Sim(r_i，T_C)作为所述股评输出模块的输出结果Orientation(r_i)；当所述Sim(r_i，B_C)≥ω且Sim(r_i，T_C)＜ω时，则将所述Sim(r_i，B_C)作为所述股评输出模块的输出结果Orientation(r_i)；否则，利用方程1)和方程2)计算得到所述股评输出模块的输出结果：

\{\begin{matrix} Sim (r_{i}, 1) = λ_{1} Sim (r_{i}, T_{1}) + λ_{2} Sim (r_{i}, B_{1}) \\ \cdot \cdot \cdot \cdot \cdot \cdot \\ Sim (r_{i}, n) = λ_{1} Sim (r_{i}, T_{n}) + λ_{2} Sim (r_{i}, B_{n}) \end{matrix} - - - 1)

Orientation(r_i)＝Max[Sim(r_i，1)，…，Sim(r_i，n)] 2)

其中，λ₁和λ₂是位置权重，所述Sim(r_i，T_C)的权重为λ₁，所述Sim(r_i，B_C)的权重为λ₂，且λ₁+λ₂＝1；T₁，…，T_n分别为所述标题的倾向性类别，B₁，…，B_n分别为所述预测性语句集S的倾向性类别。

所述预测特征词表和股评数据库由用户定义。

所述预测特征词为表示预测的动词、表示预测的名词、指示词和人称代词。

所述可信度阈值ω为0.8。

本发明由于采取以上技术方案，其具有以下优点：1、本发明由于只对股评文本的标题和预测性语句集分别进行训练，从而减少了文本分类算法中训练集的文本长度，无需对股评文本进行全篇幅的特征匹配，进而提高了算法的执行速度。2、本发明通过利用篇章结构的分析结果很好的过滤了客观性表述，识别并抽取表示预测观点的语句，该方法对其他领域的观点分类也具有指导意义。3、本发明与观点分类领域的三种主流方法对比，在股评观点分类领域，本发明取得了较好的分类结果，查准率和查全率有了很大的提高。

附图说明

图1是本发明的股评观点分类系统的模块示意图

图2是本发明的股评观点分类方法的流程示意图

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

在股票投资活动中，散户投资者既不知道内幕信息，也没有足够的时间来研判股市，因此他们在投资时常常会依赖电视、网络、报刊杂志上专业股评家的选股建议。然而大部分的股民都没有时间或精力来阅读这些股评，他们关心的只是股票在未来是涨还是跌，所以需要为他们提供更为精简、明确的分类的股评信息。股评观点分类方法是指给定一个股评文本集R，通过构造观点分类器将股评文本集R中的每一个股评文本r_i∈R分成三个类别：看多、看平和看空。其中，看多是指股评文本r_i预测大盘短期未来走势是看多；看平指股评文本r_i预测大盘短期未来走势是看平；看空则是指股评文本r_i预测大盘短期未来走势是看空。其中，看多表示这篇评论认为某只股票后市良好，投资者应该考虑买进；看平表示这篇股评认为某只股票将是横盘震荡，投资者应该持有或观望；看空表示这篇评论认为某只股票后市惨淡，投资者应该考虑卖出。

通常，文本的篇章结构特征主要有：标题、句子位置、文本的开头和结尾、过渡句和过渡段、段落相似度和句子相关度等。由于股评文本的特性，本发明的方法重点关注股评文本的标题、预测性语句的位置、开头和结尾。其中预测性语句是指明确的预测大盘短期未来走势的语句，也即股评撰写者所表达的倾向性观点。因此本发明的原理是通过对文本篇章结构进行分析，分别提取股评文本中的标题和预测性语句，利用文本分类算法构造标题分类器和预测性语句分类器，然后选择合适的阈值和权值对两个分类器输出的结果进行有效融合，自动的将股评文本分为多个倾向性类别，如看多、看平和看空。

如图1所示，基于以上思想，本发明的系统包括文本选择模块1、基于篇章结构分析的分类器模块2和股评输出模块3。其中，用户首先在股评数据库中设置一股评数据库R，根据股评文本r_i∈R的篇章结构，文本选择模块1分别提取股评数据库R中每个股评文本r_i的标题T和正文B，然后分析标题T并查找正文B的预测特征词，预测特征词由用户指定的预测特征词表提供，i为股评数据库R中的股评文本标号。提取预测特征词所在的预测性语句作为预测性语句集S，与标题T一同作为基于篇章结构分析的分类器模块2的训练样本集、校正样本集和测试样本集。基于篇章结构分析的分类器模块2包括利用文本分类算法构建的标题分类器4和预测性语句分类器5，分别对文本选择模块1中的标题T和预测性语句集S进行标题可信度Sim(r_i，T_C)和预测性语句可信度Sim(r_i，B_C)的输出，其中C表示股评文本集R中的倾向性类别，C＝{1，…，n}，n为倾向性类别标号。Sim(r_i，T_C)∈[0，]、Sim(r_i，B_C)∈[0，1]，如Sim(r_i，T_C)＝0，则股评文本r_i完全不属于倾向性类别C；如Sim(r_i，T_C)＝1等于1，则股评文本r_i完全属于倾向性类别C；Sim(r_i，B_C)同理。在股评输出模块3中对标题分类器4和预测性语句分类器5输出的标题可信度Sim(r_i，T_C)和预测性语句可信度Sim(r_i，B_C)进行有效融合，输出最终结果Orientation(r_i)。

在本发明的系统在使用时，首先由用户提供一股评数据库和一预测特征词表，作为先验知识输入到文本选择模块1中。股评数据库由股评文本组成，预测特征词表中包含多个预测特征词，预测特征词的词性以具有预测含义的动词、具有预测含义的名词、指示词、人称代词为主。

如图2所示，本发明的基于篇章结构分析的股评观点分类方法为，文本选择模块1从股评数据库中提取股评文本r_i后，对股评文本r_i的标题T和正文B进行分离。判断股评文本r_i的标题T是否为疑问句，即判断标题T中是否包含字符“？”，如果是疑问句，则标题可信度Sim(r_i，T_C)＝0。否则利用标题分类器4，对标题T进行观点分类，输出相应的标题可信度Sim(r_i，T_C)。

同时，文本选择模块1在股评文本r_i的正文B中循环检测预测特征词表中的每一个词，如果存在该预测特征词，则提取出该预测特征词所在的句子，放入预测性语句集S中；循环结束后，如果预测特征词对应的预测性语句集S为空，则提取该正文的最后一个句子，放入预测性语句集S中。将预测性语句集S输入预测性语句分类器5，输出相应的预测性语句可信度Sim(r_i，B_C)。

股评输出模块3中，由于标题分类器4和预测性语句分类器5分别对同一股评文本r_i的归属倾向性类别的可信度进行输出，因此需要对两个分类器的输出结果进行融合。设置可信度阈值ω＞0，当标题分类器4输出的Sim(r_i，T_C)≥ω且Sim(r_i，B_C)＜ω时，则认为标题分类器4的结果可信并作为股评输出模块3的输出结果Orientation(r_i)；当预测性语句分类器5输出的Sim(r_i，B_C)≥ω且Sim(r_i，T_C)＜ω时，则认为预测性语句分类器5的结果可信并作为股评输出模块3的输出结果Orientation(r_i)。否则，利用方程(1)和方程(2)计算得到股评输出模块3的输出结果：

\{\begin{matrix} Sim (r_{i}, 1) = λ_{1} Sim (r_{i}, T_{1}) + λ_{2} Sim (r_{i}, B_{1}) \\ \cdot \cdot \cdot \cdot \cdot \cdot \\ Sim (r_{i}, n) = λ_{1} Sim (r_{i}, T_{n}) + λ_{2} Sim (r_{i}, B_{n}) \end{matrix} - - - (1)

Orientation(r_i)＝Max[Sim(r_i，1)，…，Sim(r_i，n)] (2)

其中，λ₁和λ₂是位置权重，标题T的可信度Sim(r_i，T_C)的权重为λ₁，正文B中预测性语句集S的可信度Sim(r_i，B_C)的权重为λ₂，且λ₁+λ₂＝1。T₁，…，T_n分别指代标题分类器4中的标题T的倾向性类别，B₁，…，B_n分别指代预测性语句分类器5中的预测性语句集S的倾向性类别。

下面通过一个实施例，对本发明的系统及方法进一步说明。

通常股评文本的倾向性类别包括三种，即看多、看平和看空。本实施例首先利用SVM(Support Vector Machine，支持向量机)算法，构造标题分类器4和预测性语句分类器5。其中标题分类器4的特点是训练样本、校正样本和测试样本均只采用股评文本的标题；预测性语句分类器5的特点是训练样本、校正样本和测试样本均只采用股评文本中的预测性语句。

首先利用文本选择模块1从股评数据库中，提取标题T和预测性语句集S，其中所用到的预测特征词表由用户自定义，如表1所示：

表1：预测特征词表

觉得	近日
觉得	近日	认为	近期
后市	我们	认为	近期
后市	我们	短线	点津物语
预计	有望	短线	点津物语
预计	有望	预测	下周
短期	趋势	预测	下周
短期	趋势	综合来看	综合分析
一目了然	观点	综合来看	综合分析
一目了然	观点	走势	我
研判	展望	走势	我
研判	展望	明天	笔者
明日		明天	笔者

然后将标题T和预测性语句集S输入到基于篇章结构分析的分类器模块2中，执行相应操作，输出可信度Sim(r_i，T_C)和Sim(r_i，B_C)。最后在股评输出模块3中进行两个可信度的融合，从而得到股评文章的观点分类结果。

在意见挖掘中，查全率(Recall)和查准率(Precision)是衡量分类结果的两个重要指标，因此在本发明的系统及方法中，同样采用这两个指标衡量股评观点分类结果的好坏。在本实施例中由160篇股评文本组成的测试样本集，其中看多的股评共95个，看平的股评共32个，看空的股评共33个，设置参数ω＝0.8，λ₁＝0.5，λ₂＝0.5。分类结果如表2所示：

表2：分类结果

	看多	看平	看空	查准率
	看多	看平	看空	查准率	看多	83	3	1	95.4％
看平	5	28	3	77.8％	看多	83	3	1	95.4％
看平	5	28	3	77.8％	看空	7	0	28	80.0％
查全率	87.4％	87.5％	84.8％		看空	7	0	28	80.0％

本发明提供了一种基于篇章结构分析的股评观点分类系统及方法，它通过分析股评篇章结构，分别提取股评的标题和预测性语句，利用分类器算法构造标题分类器和预测性语句分类器，然后选择合适的阈值和位置权重融合两大分类器的分类结果，自动的对股评文本进行观点分类。

Claims

1、一种基于篇章结构分析的股评观点分类系统，其特征在于：它包括文本选择模块、基于篇章结构分析的分类器模块和股评输出模块，所述文本选择模块将股评数据库中股评文本分为标题和正文中的预测性语句；所述基于篇章结构分析的分类器模块包括标题分类器和预测性语句分类器，标题分类器输出标题可信度，预测性语句分类器输出预测性语句可信度；所述股评输出模块对所述标题可信度和预测性语句可信度进行融合，并输出最终结果。

2、一种基于篇章结构分析的股评观点分类方法，其特征在于：它包括文本选择模块、基于篇章结构分析的分类器模块和股评输出模块；所述基于篇章结构分析的分类器模块包括标题分类器和预测性语句分类器；

所述文本选择模块从股评数据库中提取股评文本后，对所述股评文本的标题和正文进行分离；判断所述标题是否为疑问句，如果是疑问句，则标题可信度Sim(r_i，T_C)＝0；否则利用标题分类器对标题进行观点分类，输出标题可信度Sim(r_i，T_C)；

\{\begin{matrix} Sim (r_{i}, 1) = λ_{1} Sim (r_{i}, T_{1}) + λ_{2} Sim (r_{i}, B_{1}) \\ . . . . . . \\ Sim (r_{i}, n) = λ_{1} Sim (r_{i}, T_{n}) + λ_{2} Sim (r_{i}, B_{n}) \end{matrix} - - - 1)

Orientation(r_i)＝Max[Sim(r_i，1)，…，Sim(r_i，n)] 2)

3、如权利要求2所述的一种基于篇章结构分析的股评观点分类方法，其特征在于：所述预测特征词表和股评数据库由用户定义。

4、如权利要求2所述的一种基于篇章结构分析的股评观点分类方法，其特征在于：所述预测特征词为表示预测的动词、表示预测的名词、指示词和人称代词。

5、如权利要求3所述的一种基于篇章结构分析的股评观点分类方法，其特征在于：所述预测特征词为表示预测的动词、表示预测的名词、指示词和人称代词。

6、如权利要求2或3或4或5所述的一种基于篇章结构分析的股评观点分类方法，其特征在于：所述可信度阈值ω为0.8。