CN111274357A - 新闻舆情识别方法、设备及存储介质 - Google Patents
新闻舆情识别方法、设备及存储介质 Download PDFInfo
- Publication number
- CN111274357A CN111274357A CN202010061112.3A CN202010061112A CN111274357A CN 111274357 A CN111274357 A CN 111274357A CN 202010061112 A CN202010061112 A CN 202010061112A CN 111274357 A CN111274357 A CN 111274357A
- Authority
- CN
- China
- Prior art keywords
- news
- public opinion
- semantic
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 230000032683 aging Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 133
- 238000012545 processing Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 230000002441 reversible effect Effects 0.000 claims description 12
- 238000010438 heat treatment Methods 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 230000008034 disappearance Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004880 explosion Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及互联网舆情识别领域,公开了一种新闻舆情识别方法、设备及存储介质,其中,一种新闻舆情识别方法包括:获取新闻报道;从新闻报道中提取多维度特征,多维度特征包括非结构化数据特征和结构化数据特征;建立新闻舆情文本语义理解模型;根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果;对结构化数据特征进行时效检测,获取时效检测结果;对结构化数据特征进行影响力检测,获取影响力检测结果;根据语义识别结果、时效检测结果,及影响力检测结果,获取新闻舆情识别结果。本发明能够准确地区分舆情与非舆情新闻,并提升了新闻舆情识别的效果和效率。
Description
技术领域
本发明涉及互联网舆情识别领域,尤其是涉及一种新闻舆情识别方法、设备及存储介质。
背景技术
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
现有的新闻舆情识别技术,是将新闻信息标题和文本拼接成一个文本,然后用关键词匹配的方式将这条新闻特征化,输入到深度学习基本模型中,结合文本的标签进行分类学习,学习出分类器参数,然后用来预测新文本的类别,判断是否属于舆情事件。
现有的新闻舆情识别技术无法准确地区分舆情与非舆情新闻,且舆情识别的速度较慢,无法满足新闻舆情的时效性要求。
发明内容
本发明的目的是至少在一定程度上解决现有技术中存在的技术问题之一。为此,本发明提出一种新闻舆情识别方法,能够准确地区分舆情与非舆情新闻,并提升了新闻舆情识别的效果和效率。
本发明还提出一种新闻舆情识别设备。
本发明还提出一种计算机可读存储介质。
第一方面,本发明的一个实施例提供了一种新闻舆情识别方法,包括:
获取新闻报道;
从新闻报道中提取多维度特征,多维度特征包括非结构化数据特征和结构化数据特征;
建立新闻舆情文本语义理解模型;
根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果;
对结构化数据特征进行时效检测,获取时效检测结果;
对结构化数据特征进行影响力检测,获取影响力检测结果;
根据语义识别结果、时效检测结果,及影响力检测结果,获取新闻舆情识别结果。
本发明实施例的一种新闻舆情识别方法至少具有如下有益效果:
1.将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能地分析新闻报道的时效性与影响力,从而提升了新闻舆情识别的效果;
2.建立新闻舆情文本语义理解模型,从语义理解出发,能避免关键词匹配方法的机械性缺陷,还能提升新闻舆情识别的效率;
3.将新闻报道的多维度特征与文本语义理解模型相结合,能够准确地区分舆情与非舆情新闻,提高了新闻舆情识别的可靠性。
根据本发明的另一些实施例的一种新闻舆情识别方法,非结构化数据特征包括新闻报道的标题和正文,结构化数据特征包括新闻报道的时间特征和来源网站。
本发明实施例的一种新闻舆情识别方法,综合考虑了非结构化的文本数据和结构化的时间信息及来源信息,不仅能从语义上理解新闻报道,还能从时效性及来源的可靠性和影响力方面去做舆情识别,从而提升了新闻舆情识别的效果。
根据本发明的另一些实施例的一种新闻舆情识别方法,根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果,包括:
采用双向长短期记忆神经网络(Bi-LSTM)算法对标题进行处理,获取标题语义向量;
采用卷积神经网络(CNN)算法对正文进行处理,获取正文语义向量;
对标题语义向量和正文语义向量进行权重学习,获取所述语义识别结果。
本发明实施例的一种新闻舆情识别方法至少具有如下有益效果:
1.采用双向长短期记忆神经网络算法处理信息量极大的标题,采用卷积神经网络算法处理信息量不大的长文本,同时兼顾了语义理解和语义特征捕捉,能够提升新闻舆情识别的效果和效率;
2.在文本语义理解模型中引入权重因子,使用注意力机制来模拟人的注意力,让模型主动学习新闻标题和新闻正文,确定两者的重要性优先级,从而提升了模型性能。
根据本发明的另一些实施例的一种新闻舆情识别方法,采用双向长短期记忆神经网络算法对标题进行处理,获取标题语义向量,包括:
将标题中的文字转换成词向量;
采用双向长短期记忆神经网络算法提取标题的正向语义和反向语义;
对正向语义、反向语义和词向量进行向量拼接,得到上下文语义向量;
对上下文语义向量进行压缩,得到标题语义向量。
本发明实施例的一种新闻舆情识别方法,采用双向长短期记忆神经网络算法分别学习上下文序列语义信息,并综合到一起去理解新闻标题,能够减小从单一方向提取语义信息带来的误差。
根据本发明的另一些实施例的一种新闻舆情识别方法,采用卷积神经网络算法对正文进行处理,获取正文语义向量,包括:
将正文中的文字转换成词向量;
采用卷积神经网络算法对词向量进行处理,得到正文语义向量。
本发明实施例的一种新闻舆情识别方法,采用卷积神经网络算法捕捉长文本中的语义特征,由于卷积神经网络结构是可并行的架构,因此能够提升正文语义特征捕捉的效率,还能解决超长文本在循环神经网络(RNN)中的梯度消失问题。
根据本发明的另一些实施例的一种新闻舆情识别方法,对标题语义向量和正文语义向量进行权重学习,获取语义识别结果,包括:
对标题语义向量进行处理,获取标题语义向量的第一关注度权重;
对正文语义向量进行处理,获取正文语义向量的第二关注度权重;
将标题语义向量与第一关注度权重相乘,得到第一语义向量;
将正文语义向量与第二关注度权重相乘,得到第二语义向量;
将第一语义向量和第二语义向量相加,得到语义识别结果。
本发明实施例的一种新闻舆情识别方法,在文本语义理解模型中引入权重因子,使用注意力机制来模拟人的注意力,让模型主动学习新闻标题和新闻正文,确定两者的重要性优先级,从而提升了模型性能。其中,注意力机制的作用在于自动调整文本语义理解模型对于标题和正文的关注度权重。
根据本发明的另一些实施例的一种新闻舆情识别方法,对结构化数据特征进行时效检测,获取时效检测结果,包括:
采用正则匹配方法对时间特征进行处理,得到时间节点;
获取时间节点的偏差值;
对偏差值进行独热处理,得到偏差值的各位特征值;
对各位特征值进行向量拼接,得到时效检测结果。
本发明实施例的一种新闻舆情识别方法,综合考虑新闻时间特征的复杂性和相对偏移,能够提升时效检测的可靠性。
根据本发明的另一些实施例的一种新闻舆情识别方法,对结构化数据特征进行影响力检测,获取影响力检测结果,包括:
获取高频重点舆论网站特征;
根据高频重点舆论网站特征,对来源网站进行影响力检测,得到影响力检测结果。
本发明实施例的一种新闻舆情识别方法,将来源网站的特征与高频重点舆论网站的特征进行匹配,自动识别和判断新闻的来源重要性,让重要网站的新闻,得到更高的评分,更接近人的正常理解判断。
第二方面,本发明的一个实施例提供了一种新闻舆情识别设备,包括:
至少一个处理器,以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明实施例中一些具体实施例的新闻舆情识别方法。
本发明实施例的一种新闻舆情识别设备至少具有如下有益效果:
1.将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能地分析新闻报道的时效性与影响力,从而提升了新闻舆情识别的效果;
2.建立新闻舆情文本语义理解模型,从语义理解出发,能避免关键词匹配方法的机械性缺陷,还能提升新闻舆情识别的效率;
3.将新闻报道的多维度特征与文本语义理解模型相结合,能够准确地区分舆情与非舆情新闻,提高了新闻舆情识别的可靠性。
第三方面,本发明的一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行本发明实施例中一些具体实施例的新闻舆情识别方法。
本发明实施例的一种计算机可读存储介质至少具有如下有益效果:
1.将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能地分析新闻报道的时效性与影响力,从而提升了新闻舆情识别的效果;
2.建立新闻舆情文本语义理解模型,从语义理解出发,能避免关键词匹配方法的机械性缺陷,还能提升新闻舆情识别的效率;
3.将新闻报道的多维度特征与文本语义理解模型相结合,能够准确地区分舆情与非舆情新闻,提高了新闻舆情识别的可靠性。
附图说明
图1是本发明实施例中一种新闻舆情识别方法的一具体实施例的流程示意图。
具体实施方式
以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。
在本发明实施例的描述中,如果涉及到“第一”、“第二”,应当理解为用于区分技术特征,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
实施例1
参照图1,示出了本发明实施例中一种新闻舆情识别方法的一具体实施例的流程示意图。如图1所示,本发明实施例的一种新闻舆情识别方法,具体步骤包括:
S1000.获取新闻报道。
获取新闻报道,可以从互联网上自动抓取新闻报道,首先获取新闻门户网站的网址链接,然后按照网址链接跳转到新闻界面,最后从新闻界面上随机读取一篇新闻报道。从互联网上自动抓取新闻报道可以使用网络爬虫。
S1100.从新闻报道中提取多维度特征,多维度特征包括非结构化数据特征和结构化数据特征。
针对舆情数据的具体特点,舆情面对的是复杂多变的网络场景,最核心的能力是语义理解能力,首先要理解发生了什么事,是否是舆论敏感,其次是发生的时效性,舆情具有极强的时效性;最后,舆情发生的来源,报导的网站,不同的发布源的可信度、影响力、破坏力有极大的区别。
根据舆情的场景特点进行分析,从新闻报道中提取多维度特征,多维度特征包括非结构化数据特征和结构化数据特征。其中,非结构化数据包括所有格式的办公文档、文本、图片、可扩展标记语言(XML)、超文本标记语言(HTML)、各类报表、图像和音频/视频信息等。结构化数据是存储在数据库中,可以用二维表结构来逻辑表达实现的数据。
在本发明实施例的另一些具体实施例中,非结构化数据特征包括新闻报道的标题和正文,结构化数据特征包括新闻报道的时间特征和来源网站。其中,时间特征包括新闻报道的事件发生时间、报导时间和采集时间。
S1200.建立新闻舆情文本语义理解模型。
对文本语义的理解,包括强语义理解和弱语义理解,强语义理解对文本语义理解的精度要求较高,关键在于上下文的理解。弱语义理解对文本语义理解的精度要求较低,关键在于语义特征的捕捉。
本发明实施例的新闻舆情文本语义理解模型,根据文本语义理解的特点,综合考虑强语义理解和弱语义理解。针对强语义理解,基于双向长短期记忆神经网络(Bi-LSTM)建立强语义理解模型。针对弱语义理解,基于卷积神经网络(CNN)建立弱语义理解模型。
其中,长短期记忆神经网络(LSTM)是一种特殊的循环神经网络(RNN),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。梯度爆炸和梯度消失问题的产生都是因为网络太深导致网络权值更新不稳定,本质上是因为梯度反向传播中的连乘效应。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。LSTM通过梯度截断,避免梯度爆炸,通过自循环和门控制机制,避免梯度消失。双向长短期记忆神经网络(Bi-LSTM)是将两个反向的LSTM对接到一起,前向的LSTM进行上文语义理解,后向的LSTM进行下文语义理解。
卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,具有表征学习的能力,能够按其阶层结构对输入信息进行平移不变分类。
S1300.根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果。
本发明实施例的非结构化数据特征包括新闻报道的标题和正文,新闻舆情文本语义理解模型从非结构化数据特征中分别提取出新闻报道的标题和正文,将标题输入到强语义理解模型中进行处理,得到标题语义向量;将正文输入到弱语义理解模型中进行处理,得到正文语义向量。考虑到新闻报道的标题和正文的重要性优先级,使用注意力机制调整标题语义向量和正文语义向量的关注度权重,进而得到语义识别结果。
在本发明实施例的另一些具体实施例中,根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果,具体步骤包括:
S1310.采用双向长短期记忆神经网络(Bi-LSTM)算法对标题进行处理,获取标题语义向量。
本发明实施例采用双向长短期记忆神经网络算法处理信息量极大的标题,能够减小从单一方向提取语义信息带来的误差。
在本发明实施例的另一些具体实施例中,采用双向长短期记忆神经网络(Bi-LSTM)算法对标题进行处理,获取标题语义向量,具体步骤包括:
S1311.将标题中的文字转换成词向量。
采用embedding词向量技术,能够将文本数据转换为数值型数据。将word视作文本的最小单元,可以将Word Embedding理解为一种映射,将文本空间中的某个word,通过一定的方法,映射或者嵌入(embedding)到另一个数值向量空间。本发明实施例使用keras.layers.Embedding层将标题中的文字转换成词向量。
S1312.采用双向长短期记忆神经网络算法提取标题的正向语义和反向语义。
在双向长短期记忆神经网络中,采用正向LSTM提取标题的正向语义,采用反向LSTM提取标题的反向语义。由于正向LSTM和反向LSTM同时对标题进行处理,因此正向语义中的各正向向量在反向语义中存在相对应的反向向量。本发明实施例使用keras.layers.Bidirectional层提取标题的正向语义和反向语义。
S1313.对正向语义、反向语义和词向量进行向量拼接,得到上下文语义向量。
本发明实施例的上下文语义综合了正向语义、反向语义和词向量,采用contact模式参数进行向量拼接,得到上下文语义向量。但此时的上下文语义向量存在冗余,即正向语义和反向语义包含了相对应的向量,需要对上下文语义向量进行压缩。
S1314.对上下文语义向量进行压缩,得到标题语义向量。
本发明实施例使用keras.layers.Lamda编写函数,使用max-pooling压缩上下文语义向量矩阵,采用纵向取最大值的方式剔除上下文语义向量的冗余,得到标题语义向量。
S1320.采用卷积神经网络(CNN)算法对正文进行处理,获取正文语义向量。
本发明实施例使用CNN结构,使用不同视野大小的CNN kernal_size去捕捉长文本中的语义特征,由于CNN是可并行的架构,因此具有较高的计算效率。采用CNN对正文长文本进行语义特征捕捉,能够提升正文语义特征捕捉的效率,同时解决了超长文本在RNN中的梯度消失问题。
在本发明实施例的另一些具体实施例中,采用卷积神经网络(CNN)算法对正文进行处理,获取正文语义向量,具体步骤包括:
S1321.将正文中的文字转换成词向量。
采用embedding词向量技术,使用keras.layers.Embedding层将正文中的文字转换成词向量。
S1322.采用卷积神经网络算法对词向量进行处理,得到正文语义向量。
采用CNN对词向量进行处理,通过drop out层提高模型的泛化能力。使用1Dconvolution进行卷积计算,一路1D convolution包含一种卷积核。
在本发明实施例的另一些具体实施例中,使用至少一路1D convolution进行卷积计算,对于多路1D convolution,可设置多种不同的卷积核。
使用batch normalization提高模型的收敛能力,使用relu激活函数提高模型的非线性拟合能力,最后通过max-pooling得到正文语义向量。
S1330.对标题语义向量和正文语义向量进行权重学习,获取语义识别结果。
本发明实施例在文本语义理解模型中引入权重因子,使用注意力机制来模拟人的注意力,让模型主动学习新闻标题和新闻正文,确定两者的重要性优先级,从而能够提升模型的性能。其中,注意力机制的作用在于自动调整文本语义理解模型对于标题和正文的关注度权重。
在本发明实施例的另一些具体实施例中,对标题语义向量和正文语义向量进行权重学习,获取语义识别结果,具体步骤包括:
S1331.对标题语义向量进行处理,获取标题语义向量的第一关注度权重。
对标题语义向量进行线性变换,使用tanh激活函数增加模型的非线性,使用flattten调整向量矩阵的形状,使用repeat和permute调整向量,使用softmax函数进行归一化处理,得到标题语义向量的第一关注度权重。
S1332.对正文语义向量进行处理,获取正文语义向量的第二关注度权重。
对正文语义向量进行线性变换,使用tanh激活函数增加模型的非线性,使用flattten调整向量矩阵的形状,使用repeat和permute调整向量,使用softmax函数进行归一化处理,得到正文语义向量的第二关注度权重。
其中,第一关注度权重与第二关注度权重的和为1。
在本发明实施例的另一些具体实施例中,对标题语义向量和正文语义向量进行处理,可以将标题语义向量和正文语义向量聚合成一个向量矩阵,对一个向量矩阵进行处理,得到关注度权重矩阵。
S1333.将标题语义向量与第一关注度权重相乘,得到第一语义向量。
综合标题语义向量与第一关注度权重,即在标题语义向量中引入权重因子,得到第一语义向量。
S1334.将正文语义向量与第二关注度权重相乘,得到第二语义向量。
综合正文语义向量与第二关注度权重,即在正文语义向量中引入权重因子,得到第二语义向量。
S1335.将第一语义向量和第二语义向量相加,得到语义识别结果。
将引入权重因子的第一语义向量和第二语义向量相加,得到经过注意力调整权重的综合语义向量,即得到语义识别结果。
S1400.对结构化数据特征进行时效检测,获取时效检测结果。
新闻报道中的时间具有一定的复杂性,一篇新闻报道中,可能会存在或提到多个时间,因此时间不唯一,而且新闻报道中的时间可能存在口语化表达,因此形式不唯一。此外,新闻报道的事件发生时间、报导时间、采集时间存在相对偏移,因此新闻报道的时间具有相对性。
本发明实施例对结构化数据特征进行时效检测,综合考虑新闻时间特征的复杂性和相对偏移,能够提升时效检测的可靠性。
在本发明实施例的另一些具体实施例中,对结构化数据特征进行时效检测,获取时效检测结果,具体步骤包括:
S1410.采用正则匹配方法对时间特征进行处理,得到时间节点。
采用正则匹配方法进行时间抽取,包括抽取时间排序和抽取时间截取,抽取时间排序的优先级逻辑如下:年月日时分全齐备的优先级最高,其次是年月日齐备,最后是口语化表述,相同的情况下,与当前时间更接近的排在前面。抽取时间截取的方式为仅截取前三个时间节点,不足的补零。
S1420.获取时间节点的偏差值。
对时间节点进行处理,计算时间节点与当前时间的偏差值。
S1430.对偏差值进行独热处理,得到偏差值的各位特征值。
独热处理,即独热编码,也称作One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,并且在任意时候,其中只有一位有效。
本发明实施例对偏差值进行独热处理,得到偏差值的各位特征值,具体包括:
第一位:0<t<=60(min)
第二位:1<t<=10(hour)
第三位:10<t<=24(hour)
第四位:1<t<=2(day)
第五位:2<t<=10(day)
第六位:10<t(day)
S1440.对各位特征值进行向量拼接,得到时效检测结果。
采用contact模式参数对各位特征值进行向量拼接,得到一个30维的特征值。其中,每个时间节点通过独热处理后,得到一个6个状态位的向量,也称为6维的向量,分别对三个抽取的时间节点的事件发生时间,以及新闻报道的报导时间和采集时间这5个时间进行处理,完成向量拼接后,则得到一个6*5=30维的特征向量。
S1500.对结构化数据特征进行影响力检测,获取影响力检测结果。
本发明实施例将来源网站的特征与高频重点舆论网站的特征进行匹配,自动识别和判断新闻的来源重要性,让重要网站的新闻,得到更高的评分,更接近人的正常理解判断。
在本发明实施例的另一些具体实施例中,对结构化数据特征进行影响力检测,获取影响力检测结果,具体步骤包括:
S1510.获取高频重点舆论网站特征。
获取高频重点舆论网站特征,可以采用网络爬虫,根据用户访问量确定高频重点舆论网站,再提取高频重点舆论网站的多维度特征,多维度特征包括舆论阅读量和用户发表评论的数量。
S1520.根据高频重点舆论网站特征,对来源网站进行影响力检测,得到影响力检测结果。
将新闻报道的来源网站的特征与高频重点舆论网站的特征进行匹配,通过特征匹配及相似度分析,如相似度大于预定阈值,则判断来源网站属于高频重点舆论网站;如相似度不大于预定阈值,则判断来源网站不属于高频重点舆论网站。其中,高频重点舆论网站的重要性评分高于非高频重点舆论网站的重要性评分。
根据特征匹配及相似度分析,对来源网站进行影响力检测,这里将影响力量化为具体的评分,高频重点舆论网站能得到更高的评分,评分越高,则影响力越大。
S1600.根据语义识别结果、时效检测结果,及影响力检测结果,获取新闻舆情识别结果。
本发明实施例综合语义识别结果、时效检测结果,及影响力检测结果,将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能地分析新闻报道的时效性与影响力,从而能够提升新闻舆情识别的效果。
实施例2
本发明实施例的一种新闻舆情识别设备,包括至少一个处理器,以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行实施例1中任一具体实施例的新闻舆情识别方法。
本发明实施例的一种新闻舆情识别设备,一方面将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能地分析新闻报道的时效性与影响力,从而提升了新闻舆情识别的效果。另一方面建立新闻舆情文本语义理解模型,从语义理解出发,能避免关键词匹配方法的机械性缺陷,还能提升新闻舆情识别的效率。此外,将新闻报道的多维度特征与文本语义理解模型相结合,能够准确地区分舆情与非舆情新闻,提高了新闻舆情识别的可靠性。
本发明实施例的一种新闻舆情识别设备,处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是一种新闻舆情识别方法的可运行装置的控制中心,利用各种接口和线路连接整个一种新闻舆情识别方法的可运行装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种新闻舆情识别方法的可运行装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例3
本发明实施例的一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行实施例1中任一具体实施例的新闻舆情识别方法。
本发明实施例的一种计算机可读存储介质,一方面将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能地分析新闻报道的时效性与影响力,从而提升了新闻舆情识别的效果。另一方面建立新闻舆情文本语义理解模型,从语义理解出发,能避免关键词匹配方法的机械性缺陷,还能提升新闻舆情识别的效率。此外,将新闻报道的多维度特征与文本语义理解模型相结合,能够准确地区分舆情与非舆情新闻,提高了新闻舆情识别的可靠性。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
Claims (10)
1.一种新闻舆情识别方法,其特征在于,包括:
获取新闻报道;
从所述新闻报道中提取多维度特征,所述多维度特征包括非结构化数据特征和结构化数据特征;
建立新闻舆情文本语义理解模型;
根据所述非结构化数据特征和所述新闻舆情文本语义理解模型,获取语义识别结果;
对所述结构化数据特征进行时效检测,获取时效检测结果;
对所述结构化数据特征进行影响力检测,获取影响力检测结果;
根据所述语义识别结果、所述时效检测结果,及所述影响力检测结果,获取新闻舆情识别结果。
2.根据权利要求1所述的一种新闻舆情识别方法,其特征在于,所述非结构化数据特征包括所述新闻报道的标题和正文,所述结构化数据特征包括所述新闻报道的时间特征和来源网站。
3.根据权利要求2所述的一种新闻舆情识别方法,其特征在于,所述根据所述非结构化数据特征和所述新闻舆情文本语义理解模型,获取语义识别结果,包括:
采用双向长短期记忆神经网络算法对所述标题进行处理,获取标题语义向量;
采用卷积神经网络算法对所述正文进行处理,获取正文语义向量;
对所述标题语义向量和所述正文语义向量进行权重学习,获取所述语义识别结果。
4.根据权利要求3所述的一种新闻舆情识别方法,其特征在于,所述采用双向长短期记忆神经网络算法对所述标题进行处理,获取标题语义向量,包括:
将所述标题中的文字转换成词向量;
采用双向长短期记忆神经网络算法提取所述标题的正向语义和反向语义;
对所述正向语义、所述反向语义和所述词向量进行向量拼接,得到上下文语义向量;
对所述上下文语义向量进行压缩,得到所述标题语义向量。
5.根据权利要求3或4所述的一种新闻舆情识别方法,其特征在于,所述采用卷积神经网络算法对所述正文进行处理,获取正文语义向量,包括:
将所述正文中的文字转换成词向量;
采用卷积神经网络算法对所述词向量进行处理,得到所述正文语义向量。
6.根据权利要求5所述的一种新闻舆情识别方法,其特征在于,所述对所述标题语义向量和所述正文语义向量进行权重学习,获取所述语义识别结果,包括:
对所述标题语义向量进行处理,获取所述标题语义向量的第一关注度权重;
对所述正文语义向量进行处理,获取所述正文语义向量的第二关注度权重;
将所述标题语义向量与所述第一关注度权重相乘,得到第一语义向量;
将所述正文语义向量与所述第二关注度权重相乘,得到第二语义向量;
将所述第一语义向量和所述第二语义向量相加,得到所述语义识别结果。
7.根据权利要求2或3所述的一种新闻舆情识别方法,其特征在于,所述对所述结构化数据特征进行时效检测,获取时效检测结果,包括:
采用正则匹配方法对所述时间特征进行处理,得到时间节点;
获取所述时间节点的偏差值;
对所述偏差值进行独热处理,得到所述偏差值的各位特征值;
对所述各位特征值进行向量拼接,得到所述时效检测结果。
8.根据权利要求7所述的一种新闻舆情识别方法,其特征在于,所述对所述结构化数据特征进行影响力检测,获取影响力检测结果,包括:
获取高频重点舆论网站特征;
根据所述高频重点舆论网站特征,对所述来源网站进行影响力检测,得到所述影响力检测结果。
9.一种新闻舆情识别设备,其特征在于,包括:
至少一个处理器,以及,
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被至少一个所述处理器执行的指令,所述指令被至少一个所述处理器执行,以使至少一个所述处理器能够执行如权利要求1至8任一项所述的新闻舆情识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的新闻舆情识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061112.3A CN111274357A (zh) | 2020-01-19 | 2020-01-19 | 新闻舆情识别方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061112.3A CN111274357A (zh) | 2020-01-19 | 2020-01-19 | 新闻舆情识别方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274357A true CN111274357A (zh) | 2020-06-12 |
Family
ID=71000739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010061112.3A Pending CN111274357A (zh) | 2020-01-19 | 2020-01-19 | 新闻舆情识别方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274357A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199565A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 数据时效识别方法及装置 |
CN112507680A (zh) * | 2020-11-13 | 2021-03-16 | 北京航空航天大学 | 一种交通运行信息提取与态势预警方法及装置 |
CN113609867A (zh) * | 2021-08-23 | 2021-11-05 | 南开大学 | 基于单层网络结构学习上下文信息的方法及系统 |
CN113918794A (zh) * | 2021-12-13 | 2022-01-11 | 宝略科技(浙江)有限公司 | 企业网络舆情效益分析方法、系统、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140101293A1 (en) * | 2012-10-10 | 2014-04-10 | Electronics And Telecommunications Research Institute | Apparatus and method for providing issue record, and generating issue record |
CN107633084A (zh) * | 2017-09-28 | 2018-01-26 | 武汉虹旭信息技术有限责任公司 | 基于自媒体的舆情管控系统及其方法 |
CN107784083A (zh) * | 2017-09-30 | 2018-03-09 | 北京合力智联科技有限公司 | 一种网络舆情信息有效性的自动识别处理方法 |
CN110442711A (zh) * | 2019-07-03 | 2019-11-12 | 平安科技(深圳)有限公司 | 文本智能化清洗方法、装置及计算机可读存储介质 |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
-
2020
- 2020-01-19 CN CN202010061112.3A patent/CN111274357A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140101293A1 (en) * | 2012-10-10 | 2014-04-10 | Electronics And Telecommunications Research Institute | Apparatus and method for providing issue record, and generating issue record |
CN107633084A (zh) * | 2017-09-28 | 2018-01-26 | 武汉虹旭信息技术有限责任公司 | 基于自媒体的舆情管控系统及其方法 |
CN107784083A (zh) * | 2017-09-30 | 2018-03-09 | 北京合力智联科技有限公司 | 一种网络舆情信息有效性的自动识别处理方法 |
CN110442711A (zh) * | 2019-07-03 | 2019-11-12 | 平安科技(深圳)有限公司 | 文本智能化清洗方法、装置及计算机可读存储介质 |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199565A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 数据时效识别方法及装置 |
CN112507680A (zh) * | 2020-11-13 | 2021-03-16 | 北京航空航天大学 | 一种交通运行信息提取与态势预警方法及装置 |
CN113609867A (zh) * | 2021-08-23 | 2021-11-05 | 南开大学 | 基于单层网络结构学习上下文信息的方法及系统 |
CN113609867B (zh) * | 2021-08-23 | 2024-02-02 | 南开大学 | 基于单层网络结构学习上下文信息的方法及系统 |
CN113918794A (zh) * | 2021-12-13 | 2022-01-11 | 宝略科技(浙江)有限公司 | 企业网络舆情效益分析方法、系统、电子设备及存储介质 |
CN113918794B (zh) * | 2021-12-13 | 2022-03-29 | 宝略科技(浙江)有限公司 | 企业网络舆情效益分析方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188194B (zh) | 一种基于多任务学习模型的假新闻检测方法及系统 | |
WO2021027533A1 (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
WO2023060795A1 (zh) | 关键词自动提取方法、装置、设备及存储介质 | |
CN111126069B (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN111274357A (zh) | 新闻舆情识别方法、设备及存储介质 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
US10803253B2 (en) | Method and device for extracting point of interest from natural language sentences | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN107436922A (zh) | 文本标签生成方法和装置 | |
CN112131350A (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN113254655B (zh) | 文本分类方法、电子设备及计算机存储介质 | |
WO2021260650A1 (en) | Generating personalized content for presentation on user devices | |
CN116150201A (zh) | 敏感数据识别方法、装置、设备及计算机存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN113392195A (zh) | 舆情监测方法及装置、电子设备及存储介质 | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200612 |
|
RJ01 | Rejection of invention patent application after publication |