CN108614813A

CN108614813A - 一种股市题材舆情热度计算方法及系统装置

Info

Publication number: CN108614813A
Application number: CN201810275349.4A
Authority: CN
Inventors: 龚承启
Original assignee: Wuhan Ding Ting Information Technology Co Ltd
Current assignee: Wuhan Ding Ting Information Technology Co Ltd
Priority date: 2017-12-19
Filing date: 2018-03-30
Publication date: 2018-10-02

Abstract

本发明公开了一种股市题材舆情热度计算方法及系统装置，其特征在于，所述方法包括：检索模块获取主题词，检索出包含主题词的所有文档；分解模块对所述所有文档进行词句分解，创建主题集合；计算模块根据所述主题集合计算主题集合中各主题句中心值。本发明从句子的层面来统计题材舆情热度，并非简单地统计题材主题句子的数量来计算题材热度，而是首先将题材的所有主题句子组成一个集合，再以句子与该集合的整体相似度来计算句子的中心值，中心值大的句子为题材贡献更多的热度，这样计算的热度值更加平滑稳定，抗噪声能力更强。

Description

一种股市题材舆情热度计算方法及系统装置

技术领域

本发明涉及舆情热度的计算方法，尤其涉及一种基于文档进行的关键句热度值计算方法及系统装置。

背景技术

传统的题材热度计算方法通常将每篇文档分类到一个题材下，就股票市场而言，题材如“军工”、“雄安”、“高送转”等。分类完成后，需要统计单个题材下所属的文档的数量，通过文档的数量进行计算，获取单个题材的热度值，最终根据所述热度值的高低向用户提供高热度值的题材资讯。这种做法的缺陷是，一篇文档可能包含多个题材的内容，而且各题材内容在该文档中所占比重又有不同，仅仅依据文档的数量来获取热度值并不客观真实。因此，不论如何从文档的层面统计热度，总会有无法协调的矛盾。这是因为本质上文档这一单位不是基本的舆情单位所造成的。

发明内容

为解决上述背景技术中存在的技术问题，本发明提供了一种基于文档内语句的中心值计算方法，从而精准获取题材舆情热度值。具体技术方案如下：

第一方面：一种股市题材舆情热度计算方法，所述方法包括：

检索模块获取主题词，检索出包含主题词的所有文档；

分解模块对所述所有文档进行词句分解，创建主题集合

计算模块根据所述主题集合计算主题集合中各主题句中心值。

结合第一方面，在第一方面可能的实现方式中的第一种情况为，所述方法还包括计算模块根据所述所述主题句中心值计算热度值。

结合第一方面及第一方面的第一种情况，在第一方面可能的实现方式中的第二种情况为，用主题句与主题句集合的整体相似度计算出主题句中心值。

结合第一方面的第二种情况，在第一方面可能的实现方式中的第三种情况为，所述创建主题集合包括：主题词集合T、文档集合D、文档所有词集合W；所述主题词为与主题相关的词，所述文档为包含主题词的文档，所述文档所有词为文档内所有的词语，所述文档所有词包含所述主题词。

结合第一方面的第三种情况，在第一方面可能的实现方式中的第四种情况为，所述用主题句与主题句集合的整体相似度的计算方法为：

将所述文档集合D中所有文档分割成语句，得到语句集合S；

S_w表示所有包含词w的语句的集合，所述w∈W；

计算语句中每个词的词频率-逆文档频率值tf_idf，语句s中的词w的tf_idf值为

其中f_s，w表示词w在语句s中出现的次数，len〔s〕表示语句s中包含的词的数量，len〔S〕表示语句集合S的数量，len〔S_w〕表示包含词w的语句数量；

S_t表示所有包含主题词t的主题句集合，所述t∈T，计算其中所有主题句两两之间的相似度，获得一个len〔S_t〕×len〔S_t〕的相似矩阵SIM

其中表示S_t中的第i个主题句S_t，j和第j个主题句S_t，j的相似度

获取主题句同所述主题句集合的整体相似度。

结合第一方面的第四种情况，在第一方面可能的实现方式中的第五种情况为，所述主题句中心值的计算方法为：

主题句S_t，i的中心值(centroid)用S_t中所有主题句与S_t，i的相似度的平均值来表示

结合第一方面的第五种情况，在第一方面可能的实现方式中的第六种情况为，所述主题词t (t∈T)的热度值计算方法为：

其中doc(s_t，k)表示s_t，k所在的文档，len〔doc〕表示文档中所有语句数量。

第二方面，一种股市题材舆情热度系统，所述系统包括：

检索模块，用于根据主题词检索出包含主题词的所有文档；

分解模块，用于对所述所有文档进行主题词、文档、所有词、语句的分解，创建主题集合；计算模块，用于计算主题句与主题句集合的整体相似度，计算主题句中心值，计算主题句热度值。

第三方面，一种股市题材舆情热度系统装置，所述装置包括：

检索装置，用于根据主题词检索出包含主题词的所有文档；

分解装置，用于对所述所有文档进行主题词、文档、所有词、语句的分解，创建主题集合；计算装置，用于计算主题句与主题句集合的整体相似度，计算主题句中心值，计算主题句热度值；

其中，还包括存储装置、处理器、总线，所述存储装置同所述处理器通过总线连接，所述存储装置存储有多条操作指令，所述处理器加载所述操作指令并执行，实现权利要求1-6所述的方法。

有益效果：本发明从句子的层面来统计题材舆情热度。在舆情中，整篇文档包含的信息通常比较复杂，并非单一的类型，而句子可以被视作最基本的语义单元，因此在舆情热度的计算中也更适合作为统计的基本单位。

本发明并非简单地统计题材主题句子的数量来计算题材热度，而是首先将题材的所有主题句子组成一个集合，再以句子与该集合的整体相似度来计算句子的中心值，中心值大的句子为题材贡献更多的热度，这样计算的热度值更加平滑稳定，抗噪声能力更强。

附图说明

图1为本发明实施例一的方法流程示意图；

图2为本发明实施例三的系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1所示，一种股市题材舆情热度计算方法，所述方法包括：

步骤101，检索模块获取主题词；

步骤102，检索出包含主题词的所有文档；

步骤103，分解模块对所述所有文档进行词句分解，创建主题集合，所述主题集合包括主题词集合T、文档集合D、文档所有词集合W、语句集合S；所述主题词为与主题相关的词，所述文档为包含主题词的文档，所述文档所有词为文档内所有的词语，所述语句为所述文档分割的语句，所述文档所有词包含所述主题词。

步骤104，相似度计算模块根据所述主题集合中的主题句与主题句集合的整体相似度所述整体相似度的大小表示所述主题句集合中各主题词对应的主题句在整个主题句集合中的比重。

步骤105，相似度计算模块根据所述主题句与主题句集合的整体相似度的平均值计算出主题句中心值，所述中心值的大小表示主题句在主题句集合中的重要性，表示与题材主题更相近的句子能为题材贡献的热度值大小。

步骤106，热度值计算模块根据所述所述主题句中心值除以所在文档的长度，所得数值开方后求和计算出主题句的热度值。考虑到长文档通常比短文档包含更多信息，且同一文档中的句子所包含的信息会出现一定程度的重复，因而根据所述中心值计算出热度值，得到题材的最终热度值。

本发明摒弃了传统的用题材文档数量统计热度值的方法，而是更进一步从句子的层面来作更精细的统计：首先查找所有包含题材主题词的句子，构成题材主题集合；再用句子与题材主题句集合的整体相似度来给句子设定中心值(权重)，使得与题材主题更相近的句子能为题材贡献更大的热度值；最后考虑到长文档通常比短文档包含更多信息，且同一文档中的句子所包含的信息会出现一定程度的重复，因此将所有含有题材主题词的句子中心值除以所在文档长度的开方后相加，得到题材的最终热度值。

本发明在计算热度过程中避免了文档题材分类这一过程(通常一篇文档可能属于多个题材，或不属于任何题材，分类难免有很大误差)，且只需要很少的人工信息(只需要题材主题词)即可完成计算。

实施例二：

实施例一中所述用主题句与主题句集合的整体相似度的计算方法为：

将所述文档集合D中所有文档以句号、感叹号、问号、换行符等符号分割成语句，得到语句集合S；

S_w表示所有包含词w的语句的集合，所述w∈W；

经过上述计算，获取各主题句同所述主题句集合的整体相似度。

实施例一中所述主题句中心值的计算方法为：

主题句s_t，j的中心值(centroid)用S_t中所有主题句与S_t，i的相似度的平均值来表示，表示句子在 S_t中的重要性：

实施例一中所述主题词t(t∈T)的热度值计算方法为：

实施例三：

如图2所示，本发明还提供了用于实现一种股市题材舆情热度计算方法的系统，所述系统包括：

检索模块，用于根据主题词检索出包含主题词的所有文档；

分解模块，用于对所述所有文档进行主题词、文档、所有词、语句的分解，创建主题集合；计算模块，用于计算主题句与主题句集合的整体相似度，计算主题句中心值，用于计算主题句热度值。

进一步地，基于上述系统，本发明还提供了一种股市题材舆情热度系统装置，所述装置包括：

检索装置，用于根据主题词检索出包含主题词的所有文档；

其中，还包括存储装置、处理器、总线，所述存储装置同所述处理器通过总线连接，所述存储装置存储有多条操作指令，所述处理器加载所述操作指令并执行，实现说明书中所述的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所描述的装置实施例仅仅是示意性的，可以是设计成一体设备，也可以是组合成一套设备，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件和必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种股市题材舆情热度计算方法，其特征在于，所述方法包括：

检索模块获取主题词，检索出包含主题词的所有文档；

分解模块对所述所有文档进行词句分解，创建主题集合

2.根据权利要求1所述的一种股市题材舆情热度计算方法，其特征在于，所述方法还包括：计算模块根据所述所述主题句中心值计算热度值。

3.根据权利要求1或2所述的一种股市题材舆情热度计算方法，其特征在于，所述计算主题集合中各主题句中心值的方法为：用主题句与主题句集合的整体相似度计算出主题句中心值。

4.根据权利要求3所述的一种股市题材舆情热度计算方法，其特征在于，所述创建主题集合包括：主题词集合T、文档集合D、文档所有词集合W；所述主题词为与主题相关的词，所述文档为包含主题词的文档，所述文档所有词为文档内所有的词语，所述文档所有词包含所述主题词。

5.根据权利要求4所述的一种股市题材舆情热度计算方法，其特征在于，所述用主题句与主题句集合的整体相似度的计算方法为：

将所述文档集合D中所有文档分割成语句，得到语句集合S；

表示所有包含词的语句的集合，所述；

计算语句中每个词的词频率-逆文档频率值，语句s中的词w的值为

其中表示词w在语句s中出现的次数，表示语句s中包含的词的数量，表示语句集合的数量，表示包含词w的语句数量；

表示所有包含主题词的主题句集合，所述，计算其中所有主题句两两之间的相似度，获得一个的相似矩阵

其中表示中的第个主题句和第个主题句的相似度

；

获取主题句同所述主题句集合的整体相似度。

6.根据权利要求5所述的一种股市题材舆情热度计算方法，其特征在于，所述主题句中心值的计算方法为：

主题句的中心值（centroid）用中所有主题句与的相似度的平均值来表示

。

7.根据权利要求6所述的一种股市题材舆情热度计算方法，其特征在于，所述主题词（）的热度值计算方法为：

其中表示所在的文档，表示文档中所有语句数量。

8.一种股市题材舆情热度系统，所述系统包括：

检索模块，用于根据主题词检索出包含主题词的所有文档；

分解模块，用于对所述所有文档进行主题词、文档、所有词、语句的分解，创建主题集合；

计算模块，用于计算主题句与主题句集合的整体相似度，计算主题句中心值，计算主题句热度值。

9.一种股市题材舆情热度系统装置，所述装置包括：

检索装置，用于根据主题词检索出包含主题词的所有文档；

分解装置，用于对所述所有文档进行主题词、文档、所有词、语句的分解，创建主题集合；

计算装置，用于计算主题句与主题句集合的整体相似度，计算主题句中心值，计算主题句热度值；