CN113268603A - 一种新闻舆情知识图谱的构建方法及装置、介质、设备 - Google Patents
一种新闻舆情知识图谱的构建方法及装置、介质、设备 Download PDFInfo
- Publication number
- CN113268603A CN113268603A CN202110498556.8A CN202110498556A CN113268603A CN 113268603 A CN113268603 A CN 113268603A CN 202110498556 A CN202110498556 A CN 202110498556A CN 113268603 A CN113268603 A CN 113268603A
- Authority
- CN
- China
- Prior art keywords
- news
- data
- basic
- news data
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000008451 emotion Effects 0.000 claims abstract description 127
- 238000011161 development Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 25
- 238000007635 classification algorithm Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000002996 emotional effect Effects 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 52
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241001522296 Erithacus rubecula Species 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种新闻舆情知识图谱的构建方法及装置、介质、设备,其中,该方法包括:采集至少一个新闻事件对应的原始新闻数据;对原始新闻数据进行预处理,得到各新闻事件对应的基础新闻数据;对基础新闻数据进行情感分类,确定各基础新闻数据对应的情感极性;识别基础新闻数据包含的至少一新闻要素,根据各基础新闻数据对应的新闻要素和情感极性构建新闻舆情知识图谱。通过本发明,可以迅速掌握新闻发展路径、舆情发展态势实现快速高效的舆情分析及舆情预警,相较于传统的新闻舆情分析可以及时发现舆情幕后推手,促进新闻舆情的正向发展。
Description
技术领域
本发明涉及数据处理技术领域,特别是一种新闻舆情知识图谱的构建方法及装置、介质、设备。
背景技术
每当新闻热点爆发后,网络上会迅速出现大量与该热点相关的文章,由于新闻量大,难以人工梳理热点事件脉络,以及其中涉及的人物关系、背后的舆情推手。通常基于新闻的分析是单独的类别分类、关键词抽取等分析,局限性在于只能满足特定的简单的需求。但是对于需要全面了解舆情发展态势、背后舆情推手、重点组织机构的人员来说,单个的要素并不能提供支撑。由于舆情发酵迅速,而庞大的数据量依靠传统的数据库存储,无法快速了解新闻之间的相互关联,难以进行舆情分析及舆情预警。
发明内容
鉴于上述问题,本发明提出了一种新闻舆情知识图谱的构建方法及装置、介质、设备,通过对采集原始新闻数据,并对原始新闻数据进行预处理,得到基础新闻数据,对基础新闻数据进行情感分类、要素提取,得到基础新闻数据的情感极性及新闻要素,并通过新闻发布的事件顺序和情感极性对新闻要素及对应的关系进行挖掘,建立新闻舆情知识图谱,通过知识图谱可以对热点新闻进行迅速分析,快速获取当前舆情热点中的关键人物、重点组织及舆情发展态势。
依据本发明第一方面,提供了一种新闻舆情知识图谱的构建方法,包括:
采集至少一个新闻事件对应的原始新闻数据;
对所述原始新闻数据进行预处理,得到各所述新闻事件对应的基础新闻数据;
对所述基础新闻数据进行情感分类,确定各所述基础新闻数据对应的情感极性;
识别所述基础新闻数据包含的至少一新闻要素,根据各所述基础新闻数据对应的新闻要素和情感极性构建新闻舆情知识图谱。
可选地,所述对所述原始新闻数据进行预处理包括:
去除所述原始新闻数据中包含的无效信息和重复信息;和/或,
过滤所述原始新闻数据中携带的网络地址;和/或,
删除所述原始新闻数据对应的文本数据中的停用词、特殊符号。
可选地,所述对所述基础新闻数据进行情感分类,确定各所述基础新闻数据对应的情感极性,包括:
抽取至少部分基础新闻数据作为样本新闻数据,并提取所述样本新闻数据包含的情感词汇,标注各所述情感词汇对应的情感极性;
基于各情感词汇和对应的情感极性构建情感词典,依据所述情感词典划分出训练集、测试集和验证集;
分别利用所述训练集、测试集和验证集对情感分类算法模型进行对应的训练、测试及验证,得到训练优化的情感分类算法模型;
根据训练优化后的情感分类算法模型对所述基础新闻数据进行情感极性分类,确定各所述基础新闻数据对应的情感极性;
其中,所述情感极性包括正面、中性或负面。
可选地,所述识别所述基础新闻数据包含的至少一新闻要素,包括:
利用实体识别算法识别所述基础新闻数据中的新闻实体关键词;其中,所述新闻实体关键词包括人物、地址、组织机构中至少之一;和/或,
利用关键词提取技术提取所述基础新闻数据中突出新闻事件特征的新闻特征关键词,基于所述新闻特征关键词概括所述基础新闻数据对应的新闻主题;和/或,
识别所述基础新闻数据对应的新闻发布时间。
可选地,所述根据所述新闻要素和所述情感极性构建新闻舆情知识图谱,包括:
挖掘各所述新闻要素之间的关联关系;
结合所述新闻要素、所述新闻要素之间的关联关系和/或情感极性构建可视化的新闻舆情知识图谱;
其中,所述新闻要素包括所述新闻实体关键词、所述新闻特征关键词、所述新闻主题及所述新闻发布时间中至少之一。
可选地,所述结合所述新闻要素、所述新闻要素之间的关联关系和/或情感极性构建可视化的新闻舆情知识图谱,包括:
针对同一新闻事件或同系列新闻事件选取多个目标基础新闻数据,并查找与所述目标基础新闻数据的至少一关联新闻数据;
根据所述目标基础新闻数据和所述关联新闻数据的发布时间,以及所述新闻要素之间的关联关系梳理所述新闻事件的事件发展态势;
结合所述目标基础新闻数据和所述关联新闻数据的对应情感极性和所述事件发展态势构建描述所述新闻事件舆情发展的新闻舆情知识图谱,并进行可视化展示。
可选地,所述查找与所述目标基础新闻数据的至少一关联新闻数据,包括:
选取任一基础新闻数据作为目标基础新闻数据,基于文本相似度算法筛选与所述目标基础新闻数据的文本相似度大于预设值的至少一基础新闻数据,作为所述目标基础新闻数据的关联新闻数据。
依据本发明第二方面,提出了一种新闻舆情知识图谱的构建装置,包括:
数据采集模块,用于采集至少一个新闻事件对应的原始新闻数据;
预处理模块,用于对所述原始新闻数据进行预处理,得到各所述新闻事件对应的基础新闻数据;
情感分析模块,用于对所述基础新闻数据进行情感分类,确定各所述基础新闻数据对应的情感极性;
知识图谱构建模块,用于识别所述基础新闻数据包含的至少一新闻要素,根据各所述基础新闻数据对应的新闻要素和情感极性构建新闻舆情知识图谱。
依据本发明第三方面,提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一项所述的新闻舆情知识图谱的构建方法的步骤。
依据本发明第四方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面任一项所述的新闻舆情知识图谱的构建方法的步骤。
本发明提供的一种新闻舆情知识图谱的构建方法及装置、介质、设备,通过收集新闻热点相关的大量原始新闻数据并进行清洗,通过情感分析来判别新闻情感倾向,利用实体识别技术识别热点新闻数据中的新闻实体,利用关键词提取技术提取热点新闻数据中的特征关键词汇,概括新闻主题,再通过发表时间进行相似新闻溯源得到新闻发布时间排序,最后利用新闻发布时间排序和新闻情感极性对新闻实体、关键词汇、新闻主体等新闻要素之间的关系进行分析及可视化的展示构建新闻舆情知识图谱,可以实现对舆情热点新闻的快速高效梳理,以及对热点新闻的关键人物、重点组织、发展态势等要素的直观展示,供相关人员清楚的了解新闻传播路径,分析新闻舆情发展,进行及时的舆情预警。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一实施例提供的新闻舆情知识图谱的构建方法的流程示意图;
图2示出了本发明一实施例提供的新闻事件发展态势的简要示意图;
图3示出了本发明一实施例提供的新闻舆情知识图谱的简要示意图;
图4示出了本发明一实施例提供的新闻舆情知识图谱的构建装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种新闻舆情知识图谱的构建方法,如图1所示,该方法至少可以包括以下步骤S101~S104:
步骤S101,采集至少一个新闻事件对应的原始新闻数据。
其中,原始新闻数据可以为从互联网、报刊、书籍、传单等传播介质上收集的与某新闻事件相关的新闻数据,例如,可以是一份报刊上的新闻报道,也可以是论坛上的一篇新闻评论贴等。原始新闻数据一般包括有新闻标题、新闻作者、新闻机构、发表日期、新闻内容、新闻网络链接等新闻元素。
步骤S102,对原始新闻数据进行预处理,得到各新闻事件对应的基础新闻数据;
对原始新闻数据进行预处理,可以是去除原始新闻数据中包含的无效信息和重复信息,过滤原始新闻数据中携带的网络地址,删除原始新闻数据对应的文本数据中的停用词、特殊符号等。若原始新闻数据中的新闻内容出文本数据之外还包含有图像数据、视频数据等,对图像数据、视频数据进行文本识别处理后再进行预处理,得到纯净的基础新闻数据。当采集到多个原始新闻数据后,可以对每一条原始新闻数据进行预处理,得到除杂后的纯净的基础新闻数据。基础新闻数据同样可以包括新闻标题、新闻作者、新闻机构、发表日期、新闻内容等新闻元素。
步骤S103,对基础新闻数据进行情感分类,确定各基础新闻数据对应的情感极性。
具体来说,通过情感分类确定各基础新闻数据对应的情感极性可以包括步骤S1~S4:
S1,抽取至少部分基础新闻数据作为样本新闻数据,并提取样本新闻数据包含的情感词汇,标注各情感词汇对应的情感极性。
首先可以随机抽取部分基础新闻数据提取情感词汇,标注情感词汇的情感极性,每类情感极性都对应多个情感词汇。
S2,基于各情感词汇和对应的情感极性构建情感词典,依据情感词典划分出训练集、测试集和验证集。
将情感极性及对应的情感词汇汇总为情感词典,并在情感词典中划分出部分情感词汇为训练集、测试集和验证集,训练集、测试集和验证集作为参数对情感分类算法模型进行训练。
S3,分别利用训练集、测试集和验证集对情感分类算法模型进行对应的训练、测试及验证,得到训练优化的情感分类算法模型。
确定情感分类算法模型,利用训练集、测试集和验证集对情感分类算法模型进行对应的训练、测试及验证,实现泛化情感分类算法模型误差。
例如,可以使用基于LSTM(长短时记忆网络)的情感分析算法模型,LSTM是一种基于深度信息的情感分类算法,LSTM是RNN(循环神经网络)的一种变体,该系列模型主要用来处理序列数据,LSTM通过将短期记忆和长期记忆结合,相比于简单的循环神经网络,LSTM增加了记忆单元、输入门、遗忘门及输出门,这些门及记忆单元组合起来大大提升了循环神经网络处理长序列数据的能力,LSTM通过在简单的循环神经网络基础上增加记忆及控制门的方式,增强了其处理远距离依赖问题的能力,是一种快速高效的情感分类算法模型。
再比如,类似原理的情感分类算法模型还有GRU(门控循环单元),GRU相当于LSTM的一种变体的神经网络模型,它的宏观描述与简单的循环神经网络相同,即隐状态依据当前输入及前一时刻的隐状态来改变,不断地循环这一过程直至输入处理完毕,实现对文本情感极性的准确分析。
S4,根据训练优化后的情感分类算法模型对基础新闻数据进行情感极性分类,确定各基础新闻数据对应的情感极性。其中,情感极性是指基础新闻数据对新闻事件展现出的情感色彩,可以包括正面、中性或负面。
利用情感词典对上述情感分类算法模型进行更新,得到训练优化后的情感分类算法模型,可以根据训练优化后的情感分类算法模型对除训练集、测试集和验证集之外的其他的基础新闻数据进行情感极性分析,得到各基础新闻数据对应的情感极性。
通过对各基础新闻数据进行情感极性分析,直观展示出基础新闻数据对新闻事件所展现出的情感态度及引导方向,在一定程度上帮助了舆情发展态势的预测和判断。
步骤S104,识别基础新闻数据包含的至少一新闻要素,根据各基础新闻数据对应的新闻要素和情感极性构建新闻舆情知识图谱。
其中,新闻要素可以从基础新闻数据所包含的新闻元素中进行提取,新闻要素可以包括各基础新闻数据中的新闻实体关键词、新闻特征关键词、新闻主题及新闻发布时间等,新闻要素的识别可以通过以下三种方式:
第一种,识别基础新闻数据中包含的新闻要素可以包括利用实体识别算法识别基础新闻数据中的新闻实体关键词。
例如,可以使用基于CRF(条件随机场)的实体识别算法进行新闻实体关键词识别,条件随机场可以看作是一个无向图模型或马尔科夫随机场,是一种用来标记和切分序列化数据的统计模型,该模型是在给定需要标记的观察序列的条件下,输出对应标记序列或状态序列,可以识别人名、企业名、地名等。即新闻实体关键词可以包括人物、地址、组织机构等。
实际应用中,也可以根据不同的应用需求选取不同的实体识别算法进行新闻实体识别,本发明实施例对此不做限定。
通过对原始新闻数据进行预处理生成基础新闻数据,并基础新闻数据的进行情感分类和要素识别,得到新闻情感极性和新闻要素,根据新闻情感极性对新闻要素之间的关系进行分析,建立新闻舆情知识图谱,通过知识图谱可以对热点新闻进行迅速分析,快速获取当前舆情热点中的关键人物、重点组织及舆情发展态势。
第二种,识别基础新闻数据中包含的新闻要素还可以包括利用关键词提取技术提取基础新闻数据中突出新闻事件特征的新闻特征关键词,基于新闻特征关键词概括基础新闻数据对应的新闻主题。
例如,可以使用基于TextRank的关键词提取算法,TextRank算法可用于提取关键词、短语和自动生成文本摘要。先构建候选关键词图,然后采用共现关系构造任意两点之间的边,迭代传播各节点的权重,收敛后根据节点权重即可得到最重要的候选关键词。
实际应用中,也可以根据不同的应用需求选取不同的关键词提取算法进行关键词提取,本发明实施例对此不做限定。
通过关键词提取算法提取的新闻特征关键词可以作为用来描述基础新闻数据的重点内容。基于新闻特征关键词概括基础新闻数据对应的新闻主题,可以起到概况基础新闻数据的作用。
第三种,识别基础新闻数据中包含的新闻要素还可以包括识别基础新闻数据对应的新闻发布时间。
通过识别基础新闻数据的发布时间,可以根据新闻发布时间溯源相似的关联新闻发表的先后顺序,标记最先发表的新闻数据,协助分析新闻事件的发展态势及背后舆情推手。
进一步地,根据新闻要素和情感极性构建新闻舆情知识图谱。
其中,知识图谱是一种大型的语义网络,旨在描述客观世界的概念实体事件以及它们之间的关系。以实体概念为节点,以关系为边,提供一种从关系看世界的视角。新闻舆情知识图谱的构建装置,基于已有的实体、属性及关系的三元组,可以增加时间维度和情感维度,多维度抽取特征信息、挖掘深层次关系推导出新的关系,并以可视化的图形展示出来。
得到各基础新闻数据对应的新闻要素和情感极性后,可以将新闻要素和情感极性导入图数据库,通过挖掘各新闻要素之间的关联关系,结合新闻要素、新闻要素之间的关联关系和情感极性构建可视化的新闻舆情知识图谱。
也就是说,针对同一新闻事件或同系列新闻事件选取多个目标基础新闻数据,并查找与目标基础新闻数据的至少一关联新闻数据,根据目标基础新闻数据和关联新闻数据的发布时间,以及新闻要素之间的关联关系梳理新闻事件的事件发展态势,结合目标基础新闻数据和关联新闻数据的对应情感极性和事件发展态势构建描述新闻事件舆情发展的新闻舆情知识图谱,并进行可视化展示。
其中,查找与目标基础新闻数据的至少一关联新闻数据,可以通过选取任一基础新闻数据作为目标基础新闻数据,基于文本相似度算法筛选与目标基础新闻数据的文本相似度大于预设值的至少一基础新闻数据,作为目标基础新闻数据的关联新闻数据。
例如,可以使用基于余弦距离的文本相似度算法,该算法通过根据两个文本数据建立两个向量,计算这两个向量的余弦值,计算两个文本数据的相似度情况。可以设定任两个基础新闻数据中文本数据的文本相似度达到80%以上时,界定两条基础新闻数据相互关联,由于新闻舆情热点的有效期短则一周,长则一个月,所以可以设置为回溯一个月的时间范围。
在回溯时间范围内,若将所有与目标基础新闻数据相互关联的基础新闻数据作为目标基础新闻数据的关联新闻数据。在实际应用中,回溯时间范围及文本相似度预设值也可以根据不同的应用需求进行设置,本发明实施例对此不做限定。
在得到目标基础新闻数据的关联新闻数据之后,根据目标基础新闻数据和关联新闻数据的发布时间,可以得到关联新闻发布顺序。
进一步地,根据关联新闻发布顺序分析所有关联新闻数据的新闻要素之间的关联关系,梳理新闻事件的事件发展态势。
例如,新闻事件A中,组织机构B的成员分别在3月1日、3月3日、3月5日在报刊、传单、电台及各社交网站上发布了与事件A相关的多个关联新闻数据。通过多个关联新闻数据的关联新闻发布顺序对与事件A相关的关联新闻数据的新闻要素进行分析,可以得到如图2所示的新闻事件发展态势示意图,通过如图2所示的新闻舆情态势示意图,可以了解并预测新闻事件A的传播途径及舆情发展态势。
进一步地,结合目标基础新闻数据和关联新闻数据的对应情感极性和事件发展态势构建描述新闻事件舆情发展的新闻舆情知识图谱,并进行可视化展示。
例如,在某系列事件A中,组织机构B在群组中提出与事件A相关的负面议题,由论坛及群组手机素材,再通过群组返工制作图片、新闻、海报、传单、影片等,再由组织机构B的成员进行线上分发和线下招贴,最后借助新闻媒体进行再次传播,不断引导新闻事件的舆情发展。
通过提取上述新闻事件的基础新闻数据并查找对应的关联新闻数据,对关联新闻数据的新闻要素、发布时间及情感极性进行分析,得到事件A的事件发展态势及与事件A相关的基础新闻数据的对应情感极性,根据对应情感极性及事件发展态势进行分析,挖掘各基础新闻数据之间的关系及不同情感极性的原始新闻数据发布人员的所属组织,得到如图3所示的新闻舆情知识图谱,其中,事件a、事件b、事件c及事件d为与事件A相关的一系列新闻事件的新闻主题,图中对推动舆情发展的主要组织机构、人员、主要传播方式及舆情发展路径进行了可视化的展示。
相关人员可以对如图3所示的新闻舆情知识图谱进行分析,可以推断在此次舆情中组织机构B起到推波助澜的作用,发现在事件A中负面舆情的传播方式由组织机构B的新闻记者和文宣组成员负责采集素材,然后借由各种社交平台、新闻网站及各方新闻媒体进行传播,并加以大肆夸张,引导新闻舆情发展方向,导致舆论不断发酵。
本发明实施例提供的新闻舆情知识图谱的构建方法,通过构建新闻情感分类词典对新闻数据进行情感极性分类,识别新闻数据中的各新闻要素,根据新闻发表时间溯源相似新闻发表的先后顺序,基于新闻发表时间和情感极性分析各新闻要素之间的相互关系并构建知识图谱,进行可视化展示,相关人员可以通过知识图谱清楚的了解到新闻发展路径、舆情发展态势、背后舆情推手,实现快速高效的舆情分析和舆情预警,促进新闻舆论的正向引导。
进一步地,作为图1的具体实现,本发明实施例提供了一种新闻舆情知识图谱的构建装置,如图4所示,该装置可以包括:数据采集模块410、预处理模块420、情感分析模块430和知识图谱构建模块440。
数据采集模块410,可以用于采集至少一个新闻事件对应的原始新闻数据。
预处理模块420,可以用于对原始新闻数据进行预处理,得到各新闻事件对应的基础新闻数据。
情感分析模块430,可以用于对基础新闻数据进行情感分类,确定各基础新闻数据对应的情感极性。
知识图谱构建模块440,可以用于识别基础新闻数据包含的至少一新闻要素,根据各基础新闻数据对应的新闻要素和情感极性构建新闻舆情知识图谱。
可选地,预处理模块420,还可以用于去除原始新闻数据中包含的无效信息和重复信息;和/或,
过滤原始新闻数据中携带的网络地址;和/或,
删除原始新闻数据对应的文本数据中的停用词、特殊符号。
可选地,情感分析模块430,还可以用于抽取至少部分基础新闻数据作为样本新闻数据,并提取样本新闻数据包含的情感词汇,标注各情感词汇对应的情感极性;
基于各情感词汇和对应的情感极性构建情感词典,依据情感词典划分出训练集、测试集和验证集;
分别利用训练集、测试集和验证集对情感分类算法模型进行对应的训练、测试及验证,得到训练优化的情感分类算法模型;
根据训练优化后的情感分类算法模型对基础新闻数据进行情感极性分类,确定各基础新闻数据对应的情感极性;
其中,情感极性包括正面、中性或负面。
可选地,知识图谱构建模块440,还可以用于利用实体识别算法识别基础新闻数据中的新闻实体关键词;其中,新闻实体关键词包括人物、地址、组织机构中至少之一;和/或,
利用关键词提取技术提取基础新闻数据中突出新闻事件特征的新闻特征关键词,基于新闻特征关键词概括基础新闻数据对应的新闻主题;和/或,
识别基础新闻数据对应的新闻发布时间。
可选地,知识图谱构建模块440,还可以用于挖掘各新闻要素之间的关联关系;
结合新闻要素、新闻要素之间的关联关系和/或情感极性构建可视化的新闻舆情知识图谱;
其中,新闻要素包括新闻实体关键词、新闻特征关键词、新闻主题及新闻发布时间中至少之一。
可选地,知识图谱构建模块440,还可以用于针对同一新闻事件或同系列新闻事件选取多个目标基础新闻数据,并查找与目标基础新闻数据的至少一关联新闻数据;
根据目标基础新闻数据和关联新闻数据的发布时间,以及新闻要素之间的关联关系梳理新闻事件的事件发展态势;
结合目标基础新闻数据和关联新闻数据的对应情感极性和事件发展态势构建描述新闻事件舆情发展的新闻舆情知识图谱,并进行可视化展示。
可选地,知识图谱构建模块440,还可以用于选取任一基础新闻数据作为目标基础新闻数据,基于文本相似度算法筛选与目标基础新闻数据的文本相似度大于预设值的至少一基础新闻数据,作为目标基础新闻数据的关联新闻数据。
需要说明的是,本发明实施例提供的一种新闻舆情知识图谱的构建装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述的新闻舆情知识图谱的构建方法的步骤。
基于上述如图1所示方法和如图4所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备可以包括通信总线、处理器、存储器和通信接口,还可以包括、输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例所述的新闻舆情知识图谱的构建方法的步骤。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。
Claims (10)
1.一种新闻舆情知识图谱的构建方法,其特征在于,包括:
采集至少一个新闻事件对应的原始新闻数据;
对所述原始新闻数据进行预处理,得到各所述新闻事件对应的基础新闻数据;
对所述基础新闻数据进行情感分类,确定各所述基础新闻数据对应的情感极性;
识别所述基础新闻数据包含的至少一新闻要素,根据各所述基础新闻数据对应的新闻要素和情感极性构建新闻舆情知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始新闻数据进行预处理包括:
去除所述原始新闻数据中包含的无效信息和重复信息;和/或,
过滤所述原始新闻数据中携带的网络地址;和/或,
删除所述原始新闻数据对应的文本数据中的停用词、特殊符号。
3.根据权利要求1所述的方法,其特征在于,所述对所述基础新闻数据进行情感分类,确定各所述基础新闻数据对应的情感极性,包括:
抽取至少部分基础新闻数据作为样本新闻数据,并提取所述样本新闻数据包含的情感词汇,标注各所述情感词汇对应的情感极性;
基于各情感词汇和对应的情感极性构建情感词典,依据所述情感词典划分出训练集、测试集和验证集;
分别利用所述训练集、测试集和验证集对情感分类算法模型进行对应的训练、测试及验证,得到训练优化的情感分类算法模型;
根据训练优化后的情感分类算法模型对所述基础新闻数据进行情感极性分类,确定各所述基础新闻数据对应的情感极性;
其中,所述情感极性包括正面、中性或负面。
4.根据权利要求1所述的方法,其特征在于,所述识别所述基础新闻数据包含的至少一新闻要素,包括:
利用实体识别算法识别所述基础新闻数据中的新闻实体关键词;其中,所述新闻实体关键词包括人物、地址、组织机构中至少之一;和/或,
利用关键词提取技术提取所述基础新闻数据中突出新闻事件特征的新闻特征关键词,基于所述新闻特征关键词概括所述基础新闻数据对应的新闻主题;和/或,
识别所述基础新闻数据对应的新闻发布时间。
5.根据权利要求1所述的方法,其特征在于,所述根据所述新闻要素和所述情感极性构建新闻舆情知识图谱,包括:
挖掘各所述新闻要素之间的关联关系;
结合所述新闻要素、所述新闻要素之间的关联关系和/或情感极性构建可视化的新闻舆情知识图谱;
其中,所述新闻要素包括所述新闻实体关键词、所述新闻特征关键词、所述新闻主题及所述新闻发布时间中至少之一。
6.根据权利要求5所述的方法,其特征在于,所述结合所述新闻要素、所述新闻要素之间的关联关系和/或情感极性构建可视化的新闻舆情知识图谱,包括:
针对同一新闻事件或同系列新闻事件选取多个目标基础新闻数据,并查找与所述目标基础新闻数据的至少一关联新闻数据;
根据所述目标基础新闻数据和所述关联新闻数据的发布时间,以及所述新闻要素之间的关联关系梳理所述新闻事件的事件发展态势;
结合所述目标基础新闻数据和所述关联新闻数据的对应情感极性和所述事件发展态势构建描述所述新闻事件舆情发展的新闻舆情知识图谱,并进行可视化展示。
7.根据权利要求6所述的方法,其特征在于,所述查找与所述目标基础新闻数据的至少一关联新闻数据,包括:
选取任一基础新闻数据作为目标基础新闻数据,基于文本相似度算法筛选与所述目标基础新闻数据的文本相似度大于预设值的至少一基础新闻数据,作为所述目标基础新闻数据的关联新闻数据。
8.一种新闻舆情知识图谱的构建装置,其特征在于,包括:
数据采集模块,用于采集至少一个新闻事件对应的原始新闻数据;
预处理模块,用于对所述原始新闻数据进行预处理,得到各所述新闻事件对应的基础新闻数据;
情感分析模块,用于对所述基础新闻数据进行情感分类,确定各所述基础新闻数据对应的情感极性;
知识图谱构建模块,用于识别所述基础新闻数据包含的至少一新闻要素,根据各所述基础新闻数据对应的新闻要素和情感极性构建新闻舆情知识图谱。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的新闻舆情知识图谱的构建方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的新闻舆情知识图谱的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498556.8A CN113268603A (zh) | 2021-05-08 | 2021-05-08 | 一种新闻舆情知识图谱的构建方法及装置、介质、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498556.8A CN113268603A (zh) | 2021-05-08 | 2021-05-08 | 一种新闻舆情知识图谱的构建方法及装置、介质、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113268603A true CN113268603A (zh) | 2021-08-17 |
Family
ID=77230167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110498556.8A Pending CN113268603A (zh) | 2021-05-08 | 2021-05-08 | 一种新闻舆情知识图谱的构建方法及装置、介质、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268603A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779272A (zh) * | 2021-09-15 | 2021-12-10 | 上海泓笛数据科技有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
CN114328765A (zh) * | 2022-03-04 | 2022-04-12 | 四川大学 | 新闻传播预测方法及装置 |
CN115905518A (zh) * | 2022-10-17 | 2023-04-04 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633044A (zh) * | 2017-09-14 | 2018-01-26 | 国家计算机网络与信息安全管理中心 | 一种基于热点事件的舆情知识图谱构建方法 |
CN110297870A (zh) * | 2019-05-30 | 2019-10-01 | 南京邮电大学 | 一种金融领域中文新闻标题情感分类方法 |
CN111538835A (zh) * | 2020-03-30 | 2020-08-14 | 东南大学 | 一种基于知识图谱的社交媒体情感分类方法与装置 |
CN111881302A (zh) * | 2020-07-23 | 2020-11-03 | 民生科技有限责任公司 | 基于知识图谱的银行舆情分析方法和系统 |
-
2021
- 2021-05-08 CN CN202110498556.8A patent/CN113268603A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633044A (zh) * | 2017-09-14 | 2018-01-26 | 国家计算机网络与信息安全管理中心 | 一种基于热点事件的舆情知识图谱构建方法 |
CN110297870A (zh) * | 2019-05-30 | 2019-10-01 | 南京邮电大学 | 一种金融领域中文新闻标题情感分类方法 |
CN111538835A (zh) * | 2020-03-30 | 2020-08-14 | 东南大学 | 一种基于知识图谱的社交媒体情感分类方法与装置 |
CN111881302A (zh) * | 2020-07-23 | 2020-11-03 | 民生科技有限责任公司 | 基于知识图谱的银行舆情分析方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779272A (zh) * | 2021-09-15 | 2021-12-10 | 上海泓笛数据科技有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
CN113779272B (zh) * | 2021-09-15 | 2024-01-26 | 上海泓笛数据科技有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
CN114328765A (zh) * | 2022-03-04 | 2022-04-12 | 四川大学 | 新闻传播预测方法及装置 |
CN115905518A (zh) * | 2022-10-17 | 2023-04-04 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
CN115905518B (zh) * | 2022-10-17 | 2023-10-20 | 华南师范大学 | 基于知识图谱的情感分类方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
Roberts et al. | Investigating the emotional responses of individuals to urban green space using twitter data: A critical comparison of three different methods of sentiment analysis | |
Stamatatos et al. | Overview of the PAN/CLEF 2015 evaluation lab | |
Smeureanu et al. | Applying supervised opinion mining techniques on online user reviews | |
CN113268603A (zh) | 一种新闻舆情知识图谱的构建方法及装置、介质、设备 | |
CN105095288B (zh) | 数据分析方法及数据分析装置 | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
CN113591487A (zh) | 基于深度学习的旅游景点评论情感分析方法 | |
Jagadeesan et al. | Twitter Sentiment Analysis with Machine Learning | |
Hariguna et al. | Community opinion sentiment analysis on social media using Naive Bayes algorithm methods | |
Alamsyah et al. | Analyzing employee voice using real-time feedback | |
Felciah et al. | A study on sentiment analysis of social media reviews | |
Kurniawan et al. | Exploring Tourist Feedback on Riau Attractions Through Indonesian Language YouTube Opinion Using Naïve Bayes Algorithm | |
Nahili et al. | Digital marketing with social media: What Twitter says! | |
Raj et al. | Emotion classification on Twitter data using word embedding and lexicon based approach | |
Alam et al. | Electronic opinion analysis system for library (E-OASL) | |
Hejazi et al. | Opinion mining for Arabic dialect in social media data fusion platforms: A systematic review | |
Lima et al. | Investigating the polarity of user postings in a social system | |
Muhammad et al. | Comparison of Machine Learning Text Classification for Intent Sentiment Analysis | |
Amira et al. | Opinion Analysis of Traveler Based on Tourism Site Review Using Sentiment Analysis | |
Wadhwani et al. | Analysis and implementation of sentiment analysis of user YouTube comments | |
Ohbe et al. | Developing a sentiment polarity visualization system for local event information analysis | |
Kolajo et al. | Sentiment analysis on twitter health news | |
Kotevska et al. | Automatic Categorization of Social Sensor Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210817 |