CN114021550A

CN114021550A - 一种基于图卷积神经网络的新闻趋势预测系统及方法

Info

Publication number: CN114021550A
Application number: CN202111298567.8A
Authority: CN
Inventors: 崔喆; 韩啸; 边赟; 肖庆; 彭泰来; 陈睿; 侯博元; 谢欣冉; 曹冬平; 彭静; 陈科; 赵嘉昕; 李美娟
Original assignee: Chengdu Zhongke Information Technology Co ltd
Current assignee: Chengdu Zhongke Information Technology Co ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08

Abstract

本发明一种基于图卷积神经网络的新闻趋势预测系统及方法，涉及神经网络领域。本发明通过对已带有发展趋势标注的先验新闻文本进行特征提取，并建立新闻趋势数据库，仅需要将目标新闻文本的特征向量计算出来并在数据库中找出最相似的新闻文本，就能用最相似新闻文本来预测目标新闻文本的新闻发展趋势；通过建立具备完整标注的新闻趋势数据库，从而填补了以中文新闻现状和趋势数据库的空白，新闻趋势数据库能对接不同的应用场景，从而促进新闻趋势预测领域的发展；利用中文预训练语言模型获得命名实体的嵌入向量作为图卷积神经网络的节点初值，利用图卷积神经网络提取整张图特征，并通过图池化算法可以使得图嵌入向量更好的保留层次特征。

Description

一种基于图卷积神经网络的新闻趋势预测系统及方法

技术领域

本发明涉及神经网络领域，尤其涉及一种基于图卷积神经网络的新闻趋势预测系统及方法。

背景技术

众所周知，客观事物的发展是具备连续性的，事物发展的对象、环境等要素都会对最终结果产生影响，若能掌握事物的发展规律，便能对其未来趋势进行较为精准的预测。

俗话说“不听老人言,吃亏在眼前”，这句话字面上是告诉我们要听长辈的教导，不然很容易走弯路，而潜在含义就是告诉我们学习老人传授的经验能让我们有效的对未来的祸福进行预测，从而规避潜在的风险。因为老人经历的事情多，对事物的发展规律有自己的认知；从经验的角度也能理解为老人知道一些关键要素会引导事物发展为某种结果，进而发展成老人的经验，通过这些经验来演绎事物的发展趋势八九不离十，所以忠告我们要多听老人所言。

对未来趋势进行较为精准的预测，是指导我们工作、生活得更好的途径。从一定程度上来讲，我们阅读新闻，就是试图通过阅读大量的新闻来掌握一些事物的发展规律，进而一些事物趋势进行准确预测，从而指导我们工作、生活。

在过去，我们是通过学习老人的经验、历史书上的知识、跟踪阅读大量新闻等方式来实现对某些事物发展规律的掌握；现在，我们依旧通过这种经验累积的方式对未来进行预测，但摆脱了人脑对知识阅读和经验学习效率的限制，通过最新的神经网络系统阅读大量新闻数据，并对其进行预测，从而帮助人们更快、更准确地对事物进行预测，从而帮助人们更好地进行工作、生活。

为此，公开号为：CN111222051A的发明申请提出一种趋势预测模型的训练方法，包括：获取预设时间段内的新闻关键词对应的词向量信息和影响力特征信息、并且获取所述预设时间段对应的趋势标签；获取新闻特征信息；所述新闻特征信息基于所述词向量信息和所述影响力特征信息生成；基于所述新闻特征信息及其对应的趋势标签对深度神经网络训练，得到用于输出趋势信息的趋势预测模型；在训练过程中，所述趋势预测模型的输入为所述新闻特征信息；所述趋势预测模型的输出为所述新闻特征信息对应的趋势信息。上述方法，将新闻文本转换成词向量信息，基于词向量信息和影响力特征信息生成新闻特征信息，将新闻特征信息及其对应的趋势标签作为训练样本，训练得到用于输出趋势信息的趋势预测模型，从而可以对新闻数据的趋势进行预测，提高新闻数据的分析效率。

该申请可以理解为：利用爬虫爬到的新闻文本进行深度神经网络训练并利用训练好的模型进行新闻的发展趋势。

然而，在实际的研究过程中，我们发现利用中文文本在这方面鲜有研究者进行研究；此外，预训练语言模型在面对超长文本时的处理能力不足，且缺乏具有完整标注数据库；单纯深度神经网络所保留特征无法满足预测需求，这使得通过单纯深度神经网络很难对新闻趋势进行准确预测。

因此，有必要提供一种基于图卷积神经网络的新闻趋势预测系统及方法来解决上述技术问题。

发明内容

为解决上述技术问题，本发明一种基于图卷积神经网络的新闻趋势预测系统，包括新闻文本输入单元、新闻特征抽取单元、新闻趋势数据库、新闻趋势匹配单元；

所述新闻文本输入单元包括标注新闻文本输入端、预测新闻文本输入端；所述标注新闻文本输入端用于输入先验新闻文本，所述先验新闻文本已带有发展趋势标注；所述预测新闻文本输入端用于接收目标新闻文本，所述目标新闻文本待预测新闻趋势；其中，所述发展趋势标注通过人工和/或智能系统进行标注；

所述新闻特征抽取单元用于对新闻文本输入单元提供的新闻文本进行特征抽取，并得到对应的特征向量；

所述新闻趋势数据库用于保存先验新闻文本对应的特征向量，并将各特征向量进行合并，得到特征向量矩阵；

所述新闻趋势匹配单元用于计算先验新闻文本和目标新闻文本的文本相似度，并进行相似度匹配，其中，文本相似度通过比较两文本对应的特征向量相似度进行。

作为更进一步的解决方案，所述新闻特征抽取单元包括关键信息抽取端、关键信息标注端、知识抽取端、知识存储端和特征向量生成端；

所述关键信息抽取端用于对输入的新闻文本进行分词操作和和向量化，得到分词向量，并对分词向量进行关键信息抽取，得到关键信息词组，所述关键信息词组包括人物、时间、地点、组织机构、关键词和高频词；

所述关键信息标注端用于对关键信息词组中的命名实体进行实体识别和词性标注，得到关键信息标注词组；

所述知识抽取端用于对关键信息标注词组进行进实体抽取、关系抽取和属性抽取；

所述知识存储端用于根据知识抽取端提供的知识结构关系，转化为结构化数据，并进行保存；

所述特征向量生成端能根据知识存储端提供的结构化数据，生成对应的特征向量。

作为更进一步的解决方案，其特征在于，所述关键信息抽取端通过TF-IDF算法对关键词和高频词进行抽取；所述关键信息抽取端通过计算分词文本中各分词的TF词频，并进行TF排序，得到高频词；通过计算分词文本中各分词的IDF反文档频率，并进行IDF排序，得到关键词。

作为更进一步的解决方案，所述知识抽取端是基于知识图谱的抽取端，通过人工和/或智能系统对关键信息标注词组进行进实体抽取、关系抽取和属性抽取，并得到以实体为节点的图数据。

作为更进一步的解决方案，所述知识存储端面向图数据的存储端，通过RDF三元组将图数据中的实体、属性、关系以SPO三元组数据进行保存；将新闻文本对应的图数据均转化为SPO三元组数据，并命名实体为节点，得对应新闻文本输入的整张知识图谱。

作为更进一步的解决方案，所述特征向量生成端是基于图卷积的特征向量生成端，通过对知识图谱进行特征提取，得到对应的特征向量，即图嵌入向量；所述新闻趋势数据库将各特征向量进行合并，得到特征向量矩阵，即图嵌入向量矩阵。

作为更进一步的解决方案，所述特征向量生成端包括中文预训练语言模型和图卷积神经网络；

所述中文预训练语言模型用于对整张知识图谱中各命名实体进行处理，并获得命名实体的嵌入向量；

所述图卷积神经网络通过将命名实体作为图卷积神经网络的节点，并将命名实体对应的嵌入向量作为图卷积神经网络的节点初值进行设置；通过训练图卷积神经网络得到各嵌入向量的隐藏状态，组成隐藏状态向量，并作为整张知识图谱的图嵌入向量进行输出。

作为更进一步的解决方案，所述特征向量生成端还通过图池化模块和注意力模块对图嵌入向量进行特征处理，来对图嵌入向量的层次特征进行保留。

一种基于图卷积神经网络的新闻趋势预测方法，运用于上述的一种基于图卷积神经网络的新闻趋势预测系统中，所述新闻趋势数据库通过如下步骤获得特征向量矩阵：

S1通过标注新闻文本输入端采集已带有发展趋势标注的先验新闻文本，并输入到新闻特征抽取单元中，进行特征向量抽取；

S2新闻特征抽取单元通过关键信息抽取端抽取先验新闻文本的关键信息词组；

S3新闻特征抽取单元通过关键信息标注端对关键信息词组中的命名实体进行实体识别和词性标注，得到关键信息标注词组；

S4新闻特征抽取单元通过知识抽取端对关键信息标注词组进行进实体抽取、关系抽取和属性抽取；

S5新闻特征抽取单元通过特征向量生成端生成对应的特征向量；

S6通过对各先验新闻文本重复S1-S5步骤，得到若干特征向量，将各特征向量加入到新闻趋势数据库中，组成特征向量矩阵。

作为更进一步的解决方案，所述新闻趋势匹配单元通过如下步骤进行新闻趋势预测：

D1通过预测新闻文本输入端采集待预测新闻趋势的目标新闻文本，并输入到新闻特征抽取单元中，进行特征向量抽取；

D2新闻特征抽取单元通过关键信息抽取端抽取先验新闻文本的关键信息词组；

D3新闻特征抽取单元通过关键信息标注端对关键信息词组中的命名实体进行实体识别和词性标注，得到关键信息标注词组；

D4新闻特征抽取单元通过知识抽取端对关键信息标注词组进行进实体抽取、关系抽取和属性抽取；

D5新闻特征抽取单元通过特征向量生成端生成对应的特征向量；

D6读取新闻趋势数据库中的特征向量矩阵，通过新闻趋势匹配单元，计算目标新闻文本的特征向量和特征向量矩阵中各特征向量的相似度；

D7将相似度进行排序，把相似度最大的先验新闻文本作为预测类比对象，将预测类比对象的发展趋势标注作为目标新闻文本的新闻趋势预测标签，并进行预测输出。

与相关技术相比较，本发明提供的一种基于图卷积神经网络的新闻趋势预测系统及方法具有如下有益效果：

1、本发明通过对已带有发展趋势标注的先验新闻文本进行特征提取，并建立新闻趋势数据库，仅需要将目标新闻文本的特征向量计算出来并在数据库中找出最相似的新闻文本，就能用最相似新闻文本的发展趋势标注作为目标新闻文本的新闻趋势预测标注；

2、本发明通过建立具备完整标注的新闻趋势数据库，从而填补了以中文新闻现状和趋势数据库的空白，新闻趋势数据库能对接不同的应用场景，从而促进新闻趋势预测领域的发展；

3、本发明利用中文预训练语言模型获得命名实体的嵌入向量作为图卷积神经网络的节点初值，利用图卷积神经网络的提取整张图特征并设计图级任务，并通过图池化算法可以使得图嵌入向量更好的保留层次特征。

附图说明

图1为本发明提供的一种基于图卷积神经网络的新闻趋势预测系统较佳实施例系统示意图；

图2为本发明提供的新闻特征抽取单元较佳实施例系统示意图；

图3为本发明提供的一种基于图卷积神经网络的新闻趋势预测方法较佳实施例特征向量矩阵构建流程；

图4为本发明提供的一种基于图卷积神经网络的新闻趋势预测方法较佳实施例新闻趋势预测流程；

图5为本发明提供的较佳实施例预测流程图；

图6为本发明提供的图池化模块和注意力模块较佳实施例处理流程图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

虽然自然语言处理技术和深度学习技术在告诉发展，并涌现出了很多新星技术，但是在新闻趋势预测领域，自然语言处理技术和深度学习还没有大显身手，究其原因是因为：1.鲜有研究者在中文文本新闻领域进行趋势预测研究；2.缺乏具有完整标注的数据库；3.在面对超长文本处理时，即使是最新的预训练语言模型，处理起来也略显乏力。

本实施例针对上述几个问题进行研究，首先是针对中文文本新闻设计新闻趋势预测方案，其次是建立具备完整标注(新闻时间、新闻标题、新闻来源、新闻正文和新闻趋势)的新闻趋势数据库；最后是解决中文预训练语言模型在面对超长中文文本时，无法完整反应文本内部关系，层次关系，特征不完备的问题。

如图1至图6所示，一种基于图卷积神经网络的新闻趋势预测系统，包括新闻文本输入单元、新闻特征抽取单元、新闻趋势数据库、新闻趋势匹配单元；

需要说明的是：本实施例针对中文文本的新闻趋势预测主要思路是通过对已带有发展趋势标注的先验新闻文本进行特征提取，并建立新闻趋势数据库，仅需要将目标新闻文本的特征向量计算出来并在数据库中找出最相似的新闻文本，就能用最相似新闻文本的发展趋势标注作为目标新闻文本的新闻趋势预测标注。本实施例所提出的思路不仅能较为准确地预测新闻发展趋势，还能建立具备完整标注(新闻时间、新闻标题、新闻来源、新闻正文和新闻趋势)的新闻趋势数据库，通过新闻趋势数据库能对接不同的应用场景，从而填补了以中文新闻现状和趋势数据库的空白；促进新闻趋势预测领域的发展。

作为更进一步的解决方案，如图2所示，所述新闻特征抽取单元包括关键信息抽取端、关键信息标注端、知识抽取端、知识存储端和特征向量生成端；

需要说明的是：针对目前流行的预训练语言模型处理长文本能力不足的问题，本实施例通过构建能对新闻文本特征进行有效特征抽取的新闻特征抽取单元来解决上述问题。本实施例的思路是：先对原始的新闻文本进行分词操作和和向量化，进行关键信息抽取，得到关键信息词组，这样做的目的是减少非重要数据的存量，以提升特征抽取的效率和准确度；抽取得到的关键信息词组再进行行实体识别和词性标注，以便后续的处理(此处使用的实体识别和词性标注方法均采用现有技术，故不做赘述)。最后将关键信息标注词组转化为具备知识内在结构的结构化数据，结构化数据能完整的保留命名实体在新闻文本中的关系和属性；进而再通过特征向量生成端对具备知识内在结构的结构化数据进行特征向量生成，就能得到能完整地保留内在结构特征的特征向量。通过这种方法得带的特征向量能使特征更具代表性，进而促进预测准确度的提升。

需要说明的是：通过TF-IDF算法能高效地对高频词和关键词进行提取，通过关键信息词组进行处理得到特征向量能减少计算量，提高提取效率。

需要说明的是：最近几年，知识图谱技术在深度学习的加持之下显得越来越重要。传统的知识图谱概念由谷歌公司提出，主要是利用了命名实体识别、知识抽取和可视化的技术，将复杂的知识变为相对友好的一种新的数据结构，从而利用知识抽取出的三元组进行图谱的构建和图谱的特征提取与后续应用。近年来，研究者们将知识图谱应用到智能问答机器人、推荐系统、智能搜索引擎等领域。特别是深度学习中的卷积神经网络、循环神经网络、图神经网络和深度强化学习(DRL)在知识图谱中的应用使得研究者们可以更方便的提取知识图谱中的特征信息并加以利用。故本实施例通过知识图谱来对知识进行存储和结构化，能完整的反应各命名实体之间的内在联系。

需要说明的是：图神经网络的分支图卷积神经网络今年发展迅速。相对于传统的卷积神经网络，图卷积神经网络有着以下的优点：传统的卷积神经网络适合处理欧氏空间下的图片，利用卷积神经网络的平移不变性，人们可以任意的找到图片中的某一像素点，并按照相同的尺度进行卷积，并获得相同结构的局部特征。然而非欧式连通图中，每个节点的邻居数量是不固定的，传统的卷积神经网络已无法满足需求。

图卷积神经网络可以利用非欧式图中每个节点和边，聚合邻居节点的信息，从而完成研究者们希望的不同任务。例如图级任务自然界中对蛋白质分子的功能预测技术，节点级任务同一路段不同时间背景下的车流量拥堵预测技术，节点级任务三维结构的部件拼装技术等。在自然语言处理领域，图卷积神经网络也有很多有创意的应用。例如可以利用图卷积网络在社交网络中分析用户发言并构建用户画像，在购物网站可以利用图卷积网络对用户的喜好进行分析并预测用户想要购买的商品同时进行推荐。

需要说明的是：利用中文预训练语言模型获得命名实体的嵌入向量作为图卷积神经网络的节点初值，利用图卷积神经网络的提取整张图特征并设计图级任务，同时利用了图池化算法可以使得图嵌入向量更好的保留层次特征。

将数据库中的图集合定义为集合G＝(g₁，g₂，...，g_n)，对于其中每一张图g＝(V，E)，其中V是该图中点的集合，E是该图中边的集合。对于任意的点v∈V都有一条连向自己的边，即(v，v)∈E。对于每一张图，都有一个矩阵

表示这张图中每一个点的初始特征集合，其中i表示图中节点的数量，j表示每个节点特征的维度。对于每一个图，都有其对应的邻接矩阵A和度矩阵D。于是有矩阵

是该图的归一化对称邻接矩阵。根据图卷积神经网络的定义，对于该图的第一层图卷积公式为：

其中H⁽ⁱ⁾表示节点第在图卷积神经网络中第i层的隐藏状态，ReLU(·)表示激活函数，定义为ReLU(x)＝max(0，x)，

表示权重矩阵。迭代图卷积

神经网络的层数可以得到更深层的特征，利用图卷积神经网络隐藏状态更新公式，可以得到隐藏状态更新公式：

其中，t表示迭代的次数。特别的，H⁽⁰⁾＝X。

需要说明的是：结合注意力机制和图池化算法可以使得图嵌入向量更好的保留层次特征。利用上述方法得到的图嵌入向量，将数据库中新闻文本的图嵌入向量组成图嵌入特征向量矩阵。

仿照Graph U-Net的结构，我们采2层图下采样和图卷积组成图池化模块。定义gPool为：

y＝X^lp^l/||p^l||

index＝rank(y，k)

A^l+1＝A^l(index，，index)

其中，p为一个可训练的投影向量，给定一个节点t和它的特征向量x_i，则有x_i在p方向上的投影

当给定一张图g时就有X表示图中所有节点的特征向量，l表示gPool操作时图卷积的层数。与TOP-K算法类似，rank(y，k)是一种挑选节点的方法，K表示y中k个最大的值的个数，所以index就是y包含k这些索引所组成的新图。X^l(index，：)和A^l(index，，index)分别表示第l层图池化新图中的特征矩阵和邻接矩阵，括号内表示他们的行和列的数目。

表示将前k个值取出后使用sigmoid函数进行非线性激活。A^l+1和X^l+1分别表示传递到下一层的邻接矩阵和特征矩阵。

表示一个所有元素都为1，大小c为的特征向量。通过gPool操作，可以挑选出上一层中较为重要节点组成的子图，利用新的子图进行图卷积操作从而达到聚合降维的目的。

定义gUnpool操作为：

X^l+1＝distribute(0_N×C，X^l，indeX)

其中，index是包含对应的gPool操作中从N个节点变成k个节点的节点目录，X^l则是当前图的特征向量组成的矩阵。0_N×C是空的向量集合，它对应着没有被gPool挑选中的节点，并将0向量补充到对应位置。也就是说，distribute(·)函数实际是将未被对应gPool操作挑选的节点赋予0向量，并还原到新的图中。

除了应用Graph U-Net的设计之外，我们还在U-Net的首位两端分别取第一层gPool操作之前的两个图和最后一层gUnpool操作之后的两个图，将这四张图转化为图嵌入向量后作为自注意力机制的四个输入分别定义为X₁，X₂，X₃，X₄，有输入序列X＝(X1，X₂，X₃，X₄)，将他们输入到自注意力模块中，有：

通过参照自注意力机制的方法，我们可以利用Q，k，V这三个矩阵就可以计算隐藏状态：

进一步地，如图5所示，训练时，我们只需要利用交叉熵损失，将已有的标签和输出的隐藏状态作对比，实际预测时，我们找一组已经训练好的数据的隐藏状态，并用同样的参数去预测新的输入的隐藏状态，找出两个隐藏状态最接近的，并用其标签作为新数据的标签预测值。将训练好的网络输出的每条新闻文本的隐藏状态向量合并成为数据库的图嵌入向量矩阵。

如图3所示，一种基于图卷积神经网络的新闻趋势预测方法，运用于上述的一种基于图卷积神经网络的新闻趋势预测系统中，所述新闻趋势数据库通过如下步骤获得特征向量矩阵：

如图4所示，作为更进一步的解决方案，所述新闻趋势匹配单元通过如下步骤进行新闻趋势预测：

与现有技术相比，本发明的积极效果是：根据传统方法获得新闻文本的知识图谱，在高性能计算机上深度学习技术中的图卷积神经网络与自然语言处理技术中的中文预训练语言模型相结合获取知识图谱的特征向量，并构建新闻趋势数据库。在实际使用时仅需要将目标新闻文本的特征向量计算并在数据库中找出最相似的新闻文本，并用数据库中新闻的发展趋势去预测目标新闻的发展趋势。该方法构建了新闻文本发展趋势的数据库，填补了中文新闻趋势数据库的空白；利用图卷积神经网络和预训练语言模型相结合的方法，使用深度学习预测新闻发展趋势准确率更高、速度更快；最后还利用SVD降维技术降低数据库中新闻文本特征向量的维度，使得预测速度进一步提升。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，包括新闻文本输入单元、新闻特征抽取单元、新闻趋势数据库、新闻趋势匹配单元；

2.根据权利要求1所述的一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，所述新闻特征抽取单元包括关键信息抽取端、关键信息标注端、知识抽取端、知识存储端和特征向量生成端；

3.根据权利要求2所述的一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，所述关键信息抽取端通过TF-IDF算法对关键词和高频词进行抽取；所述关键信息抽取端通过计算分词文本中各分词的TF词频，并进行TF排序，得到高频词；通过计算分词文本中各分词的IDF反文档频率，并进行IDF排序，得到关键词。

4.根据权利要求2所述的一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，所述知识抽取端是基于知识图谱的抽取端，通过人工和/或智能系统对关键信息标注词组进行进实体抽取、关系抽取和属性抽取，并得到以实体为节点的图数据。

5.根据权利要求2所述的一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，所述知识存储端面向图数据的存储端，通过RDF三元组将图数据中的实体、属性、关系以SPO三元组数据进行保存；将新闻文本对应的图数据均转化为SPO三元组数据，并命名实体为节点，得对应新闻文本输入的整张知识图谱。

6.根据权利要求2所述的一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，所述特征向量生成端是基于图卷积的特征向量生成端，通过对知识图谱进行特征提取，得到对应的特征向量，即图嵌入向量；所述新闻趋势数据库将各特征向量进行合并，得到特征向量矩阵，即图嵌入向量矩阵。

7.根据权利要求6所述的一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，所述特征向量生成端包括中文预训练语言模型和图卷积神经网络；

8.根据权利要求7所述的一种基于图卷积神经网络的新闻趋势预测系统，其特征在于，所述特征向量生成端还通过图池化模块和注意力模块对图嵌入向量进行特征处理，来对图嵌入向量的层次特征进行保留。

9.一种基于图卷积神经网络的新闻趋势预测方法，运用于权利要求1至权利要求8任一所述的一种基于图卷积神经网络的新闻趋势预测系统中，其特征在于，所述新闻趋势数据库通过如下步骤获得特征向量矩阵：

10.根据权利要求9所述的一种基于图卷积神经网络的新闻趋势预测方法，其特征在于，所述新闻趋势匹配单元通过如下步骤进行新闻趋势预测：