CN108614813A - 一种股市题材舆情热度计算方法及系统装置 - Google Patents
一种股市题材舆情热度计算方法及系统装置 Download PDFInfo
- Publication number
- CN108614813A CN108614813A CN201810275349.4A CN201810275349A CN108614813A CN 108614813 A CN108614813 A CN 108614813A CN 201810275349 A CN201810275349 A CN 201810275349A CN 108614813 A CN108614813 A CN 108614813A
- Authority
- CN
- China
- Prior art keywords
- theme
- sentence
- subject matter
- document
- descriptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种股市题材舆情热度计算方法及系统装置,其特征在于,所述方法包括:检索模块获取主题词,检索出包含主题词的所有文档;分解模块对所述所有文档进行词句分解,创建主题集合;计算模块根据所述主题集合计算主题集合中各主题句中心值。本发明从句子的层面来统计题材舆情热度,并非简单地统计题材主题句子的数量来计算题材热度,而是首先将题材的所有主题句子组成一个集合,再以句子与该集合的整体相似度来计算句子的中心值,中心值大的句子为题材贡献更多的热度,这样计算的热度值更加平滑稳定,抗噪声能力更强。
Description
技术领域
本发明涉及舆情热度的计算方法,尤其涉及一种基于文档进行的关键句热度值计算方法及系统装置。
背景技术
传统的题材热度计算方法通常将每篇文档分类到一个题材下,就股票市场而言,题材如“军工”、“雄安”、“高送转”等。分类完成后,需要统计单个题材下所属的文档的数量,通过文档的数量进行计算,获取单个题材的热度值,最终根据所述热度值的高低向用户提供高热度值的题材资讯。这种做法的缺陷是,一篇文档可能包含多个题材的内容,而且各题材内容在该文档中所占比重又有不同,仅仅依据文档的数量来获取热度值并不客观真实。因此,不论如何从文档的层面统计热度,总会有无法协调的矛盾。这是因为本质上文档这一单位不是基本的舆情单位所造成的。
发明内容
为解决上述背景技术中存在的技术问题,本发明提供了一种基于文档内语句的中心值计算方法,从而精准获取题材舆情热度值。具体技术方案如下:
第一方面:一种股市题材舆情热度计算方法,所述方法包括:
检索模块获取主题词,检索出包含主题词的所有文档;
分解模块对所述所有文档进行词句分解,创建主题集合
计算模块根据所述主题集合计算主题集合中各主题句中心值。
结合第一方面,在第一方面可能的实现方式中的第一种情况为,所述方法还包括计算模块根据所述所述主题句中心值计算热度值。
结合第一方面及第一方面的第一种情况,在第一方面可能的实现方式中的第二种情况为,用主题句与主题句集合的整体相似度计算出主题句中心值。
结合第一方面的第二种情况,在第一方面可能的实现方式中的第三种情况为,所述创建主题集合包括:主题词集合T、文档集合D、文档所有词集合W;所述主题词为与主题相关的词,所述文档为包含主题词的文档,所述文档所有词为文档内所有的词语,所述文档所有词包含所述主题词。
结合第一方面的第三种情况,在第一方面可能的实现方式中的第四种情况为,所述用主题句与主题句集合的整体相似度的计算方法为:
将所述文档集合D中所有文档分割成语句,得到语句集合S;
Sw表示所有包含词w的语句的集合,所述w∈W;
计算语句中每个词的词频率-逆文档频率值tf_idf,语句s中的词w的tf_idf值为
其中fs,w表示词w在语句s中出现的次数,len〔s〕表示语句s中包含的词的数量,len〔S〕表示语句集合S的数量,len〔Sw〕表示包含词w的语句数量;
St表示所有包含主题词t的主题句集合,所述t∈T,计算其中所有主题句两两之间的相似度,获得一个len〔St〕×len〔St〕的相似矩阵SIM
其中表示St中的第i个主题句St,j和第j个主题句St,j的相似度
获取主题句同所述主题句集合的整体相似度。
结合第一方面的第四种情况,在第一方面可能的实现方式中的第五种情况为,所述主题句中心值的计算方法为:
主题句St,i的中心值(centroid)用St中所有主题句与St,i的相似度的平均值来表示
结合第一方面的第五种情况,在第一方面可能的实现方式中的第六种情况为,所述主题词t (t∈T)的热度值计算方法为:
其中doc(st,k)表示st,k所在的文档,len〔doc〕表示文档中所有语句数量。
第二方面,一种股市题材舆情热度系统,所述系统包括:
检索模块,用于根据主题词检索出包含主题词的所有文档;
分解模块,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;计算模块,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,计算主题句热度值。
第三方面,一种股市题材舆情热度系统装置,所述装置包括:
检索装置,用于根据主题词检索出包含主题词的所有文档;
分解装置,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;计算装置,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,计算主题句热度值;
其中,还包括存储装置、处理器、总线,所述存储装置同所述处理器通过总线连接,所述存储装置存储有多条操作指令,所述处理器加载所述操作指令并执行,实现权利要求1-6所述的方法。
有益效果:本发明从句子的层面来统计题材舆情热度。在舆情中,整篇文档包含的信息通常比较复杂,并非单一的类型,而句子可以被视作最基本的语义单元,因此在舆情热度的计算中也更适合作为统计的基本单位。
本发明并非简单地统计题材主题句子的数量来计算题材热度,而是首先将题材的所有主题句子组成一个集合,再以句子与该集合的整体相似度来计算句子的中心值,中心值大的句子为题材贡献更多的热度,这样计算的热度值更加平滑稳定,抗噪声能力更强。
附图说明
图1为本发明实施例一的方法流程示意图;
图2为本发明实施例三的系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,一种股市题材舆情热度计算方法,所述方法包括:
步骤101,检索模块获取主题词;
步骤102,检索出包含主题词的所有文档;
步骤103,分解模块对所述所有文档进行词句分解,创建主题集合,所述主题集合包括主题词集合T、文档集合D、文档所有词集合W、语句集合S;所述主题词为与主题相关的词,所述文档为包含主题词的文档,所述文档所有词为文档内所有的词语,所述语句为所述文档分割的语句,所述文档所有词包含所述主题词。
步骤104,相似度计算模块根据所述主题集合中的主题句与主题句集合的整体相似度所述整体相似度的大小表示所述主题句集合中各主题词对应的主题句在整个主题句集合中的比重。
步骤105,相似度计算模块根据所述主题句与主题句集合的整体相似度的平均值计算出主题句中心值,所述中心值的大小表示主题句在主题句集合中的重要性,表示与题材主题更相近的句子能为题材贡献的热度值大小。
步骤106,热度值计算模块根据所述所述主题句中心值除以所在文档的长度,所得数值开方后求和计算出主题句的热度值。考虑到长文档通常比短文档包含更多信息,且同一文档中的句子所包含的信息会出现一定程度的重复,因而根据所述中心值计算出热度值,得到题材的最终热度值。
本发明摒弃了传统的用题材文档数量统计热度值的方法,而是更进一步从句子的层面来作更精细的统计:首先查找所有包含题材主题词的句子,构成题材主题集合;再用句子与题材主题句集合的整体相似度来给句子设定中心值(权重),使得与题材主题更相近的句子能为题材贡献更大的热度值;最后考虑到长文档通常比短文档包含更多信息,且同一文档中的句子所包含的信息会出现一定程度的重复,因此将所有含有题材主题词的句子中心值除以所在文档长度的开方后相加,得到题材的最终热度值。
本发明在计算热度过程中避免了文档题材分类这一过程(通常一篇文档可能属于多个题材,或不属于任何题材,分类难免有很大误差),且只需要很少的人工信息(只需要题材主题词)即可完成计算。
实施例二:
实施例一中所述用主题句与主题句集合的整体相似度的计算方法为:
将所述文档集合D中所有文档以句号、感叹号、问号、换行符等符号分割成语句,得到语句集合S;
Sw表示所有包含词w的语句的集合,所述w∈W;
计算语句中每个词的词频率-逆文档频率值tf_idf,语句s中的词w的tf_idf值为
其中fs,w表示词w在语句s中出现的次数,len〔S〕表示语句s中包含的词的数量,len〔S〕表示语句集合S的数量,len〔Sw〕表示包含词w的语句数量;
St表示所有包含主题词t的主题句集合,所述t∈T,计算其中所有主题句两两之间的相似度,获得一个len〔St〕×len〔St〕的相似矩阵SIM
其中表示St中的第i个主题句st,j和第j个主题句st,j的相似度
经过上述计算,获取各主题句同所述主题句集合的整体相似度。
实施例一中所述主题句中心值的计算方法为:
主题句st,j的中心值(centroid)用St中所有主题句与St,i的相似度的平均值来表示,表示句子在 St中的重要性:
实施例一中所述主题词t(t∈T)的热度值计算方法为:
其中doc(st,k)表示St,k所在的文档,len〔doc〕表示文档中所有语句数量。
实施例三:
如图2所示,本发明还提供了用于实现一种股市题材舆情热度计算方法的系统,所述系统包括:
检索模块,用于根据主题词检索出包含主题词的所有文档;
分解模块,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;计算模块,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,用于计算主题句热度值。
进一步地,基于上述系统,本发明还提供了一种股市题材舆情热度系统装置,所述装置包括:
检索装置,用于根据主题词检索出包含主题词的所有文档;
分解装置,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;计算装置,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,计算主题句热度值;
其中,还包括存储装置、处理器、总线,所述存储装置同所述处理器通过总线连接,所述存储装置存储有多条操作指令,所述处理器加载所述操作指令并执行,实现说明书中所述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所描述的装置实施例仅仅是示意性的,可以是设计成一体设备,也可以是组合成一套设备,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件和必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种股市题材舆情热度计算方法,其特征在于,所述方法包括:
检索模块获取主题词,检索出包含主题词的所有文档;
分解模块对所述所有文档进行词句分解,创建主题集合
计算模块根据所述主题集合计算主题集合中各主题句中心值。
2.根据权利要求1所述的一种股市题材舆情热度计算方法,其特征在于,所述方法还包括:计算模块根据所述所述主题句中心值计算热度值。
3.根据权利要求1或2所述的一种股市题材舆情热度计算方法,其特征在于,所述计算主题集合中各主题句中心值的方法为:用主题句与主题句集合的整体相似度计算出主题句中心值。
4.根据权利要求3所述的一种股市题材舆情热度计算方法,其特征在于,所述创建主题集合包括:主题词集合T、文档集合D、文档所有词集合W;所述主题词为与主题相关的词,所述文档为包含主题词的文档,所述文档所有词为文档内所有的词语,所述文档所有词包含所述主题词。
5.根据权利要求4所述的一种股市题材舆情热度计算方法,其特征在于,所述用主题句与主题句集合的整体相似度的计算方法为:
将所述文档集合D中所有文档分割成语句,得到语句集合S;
表示所有包含词的语句的集合,所述;
计算语句中每个词的词频率-逆文档频率值,语句s中的词w的值为
其中表示词w在语句s中出现的次数,表示语句s中包含的词的数量,表示语句集合的数量,表示包含词w的语句数量;
表示所有包含主题词的主题句集合,所述,计算其中所有主题句两两之间的相似度,获得一个的相似矩阵
其中表示中的第个主题句和第个主题句的相似度
;
获取主题句同所述主题句集合的整体相似度。
6.根据权利要求5所述的一种股市题材舆情热度计算方法,其特征在于,所述主题句中心值的计算方法为:
主题句的中心值(centroid)用中所有主题句与的相似度的平均值来表示
。
7.根据权利要求6所述的一种股市题材舆情热度计算方法,其特征在于,所述主题词()的热度值计算方法为:
其中表示所在的文档,表示文档中所有语句数量。
8.一种股市题材舆情热度系统,所述系统包括:
检索模块,用于根据主题词检索出包含主题词的所有文档;
分解模块,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;
计算模块,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,计算主题句热度值。
9.一种股市题材舆情热度系统装置,所述装置包括:
检索装置,用于根据主题词检索出包含主题词的所有文档;
分解装置,用于对所述所有文档进行主题词、文档、所有词、语句的分解,创建主题集合;
计算装置,用于计算主题句与主题句集合的整体相似度,计算主题句中心值,计算主题句热度值;
其中,还包括存储装置、处理器、总线,所述存储装置同所述处理器通过总线连接,所述存储装置存储有多条操作指令,所述处理器加载所述操作指令并执行,实现权利要求1-6所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017113704552 | 2017-12-19 | ||
CN201711370455 | 2017-12-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108614813A true CN108614813A (zh) | 2018-10-02 |
Family
ID=63659204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810275349.4A Pending CN108614813A (zh) | 2017-12-19 | 2018-03-30 | 一种股市题材舆情热度计算方法及系统装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108614813A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033333A1 (en) * | 2001-05-11 | 2003-02-13 | Fujitsu Limited | Hot topic extraction apparatus and method, storage medium therefor |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN102194001A (zh) * | 2011-05-17 | 2011-09-21 | 杭州电子科技大学 | 网络舆情危机预警方法 |
CN104615685A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向网络话题的热度评价方法 |
CN104834632A (zh) * | 2015-05-13 | 2015-08-12 | 北京工业大学 | 一种基于语义扩充的微博话题检测和热度评估方法 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及系统 |
US20170154077A1 (en) * | 2015-12-01 | 2017-06-01 | Le Holdings (Beijing) Co., Ltd. | Method for comment tag extraction and electronic device |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN107229735A (zh) * | 2017-06-13 | 2017-10-03 | 成都布林特信息技术有限公司 | 基于自然语言处理的舆情信息分析预警方法 |
CN107330009A (zh) * | 2017-06-14 | 2017-11-07 | 腾讯科技(深圳)有限公司 | 主题词分类模型创建方法、创建装置及存储介质 |
-
2018
- 2018-03-30 CN CN201810275349.4A patent/CN108614813A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033333A1 (en) * | 2001-05-11 | 2003-02-13 | Fujitsu Limited | Hot topic extraction apparatus and method, storage medium therefor |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN102194001A (zh) * | 2011-05-17 | 2011-09-21 | 杭州电子科技大学 | 网络舆情危机预警方法 |
CN104615685A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向网络话题的热度评价方法 |
CN104834632A (zh) * | 2015-05-13 | 2015-08-12 | 北京工业大学 | 一种基于语义扩充的微博话题检测和热度评估方法 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
US20170154077A1 (en) * | 2015-12-01 | 2017-06-01 | Le Holdings (Beijing) Co., Ltd. | Method for comment tag extraction and electronic device |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及系统 |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN107229735A (zh) * | 2017-06-13 | 2017-10-03 | 成都布林特信息技术有限公司 | 基于自然语言处理的舆情信息分析预警方法 |
CN107330009A (zh) * | 2017-06-14 | 2017-11-07 | 腾讯科技(深圳)有限公司 | 主题词分类模型创建方法、创建装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
张俊飞: "改进TF-IDF 结合余弦定理计算中文语句相似度", 《现代计算机》 * |
武永亮 等: "基于TF-IDF和余弦相似度的文本分类方法", 《中文信息学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alvarez-Melis et al. | Topic modeling in twitter: Aggregating tweets by conversations | |
CN108170692A (zh) | 一种热点事件信息处理方法和装置 | |
CN103902570B (zh) | 一种文本分类特征提取方法、分类方法及装置 | |
CN104239373B (zh) | 为文档添加标签的方法及装置 | |
CN107463605A (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
EP2045731A1 (en) | Automatic generation of ontologies using word affinities | |
Bates et al. | Counting clusters in twitter posts | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN106874292A (zh) | 话题处理方法及装置 | |
Wang et al. | How far we can go with extractive text summarization? Heuristic methods to obtain near upper bounds | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
Weisser et al. | Pseudo-document simulation for comparing LDA, GSDMM and GPM topic models on short and sparse text using Twitter data | |
JP2006350656A (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN110399483A (zh) | 一种主题分类方法、装置、电子设备及可读存储介质 | |
CN110347934A (zh) | 一种文本数据过滤方法、装置及介质 | |
KR101255841B1 (ko) | 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템 | |
Chunne et al. | Real time clustering of tweets using adaptive PSO technique and MapReduce | |
CN108614813A (zh) | 一种股市题材舆情热度计算方法及系统装置 | |
JP2010191962A (ja) | オントロジーの類似性行列の効率的な計算 | |
JP4359075B2 (ja) | 概念抽出システム、概念抽出方法、概念抽出プログラム及び記憶媒体 | |
Sun et al. | An isomorphism identification method of kinematic chain based on optimal arrangement and comparison of branch-chain matrix derived from dendrogram graph | |
Alghamdi et al. | The hybrid feature selection k-means method for Arabic webpage classification | |
Camastra et al. | Machine learning-based web documents categorization by semantic graphs | |
Prusa et al. | Training convolutional networks on truncated text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181002 |