CN106021442B

CN106021442B - 一种网络新闻概要提取方法

Info

Publication number: CN106021442B
Application number: CN201610323611.9A
Authority: CN
Inventors: 梁军; 张飞云; 陈龙; 马世典; 蔡英凤; 刘擎超; 陈小波; 周卫琪; 袁朝春; 景鹏
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2019-10-01
Anticipated expiration: 2036-05-16
Also published as: CN106021442A

Abstract

本发明提供了一种网络新闻概要提取方法，首先获取网络新闻，对网络新闻中的文字基于中文词汇链提取关键词，基于深度学习算法进行图片分类；建立新闻ID，新闻入库；新闻对比。本发明根据网络新闻中的文字信息提取关键摘要并对新闻图片进行分类，形成新闻ID，实现了一篇新闻对应一项新闻ID，极大降低了系统的存储要求，提高了存储效率。通过所提及的新闻库的不断实时更新以及提供的快速查询与添加等功能，提高了检索新闻的效率，极大降低了工作人员查看、评价新闻的工作量，起到了有效的新闻甄别辅助工作。

Description

一种网络新闻概要提取方法

技术领域

本发明涉及信息处理技术领域。尤其是一种网络新闻概要提取方法.

背景技术

网络新闻是突破传统的新闻传播概念，在视、听、感方面给受众全新的体验。它将无序化的新闻进行有序的整合，并且大大压缩了信息的厚度，让人们在最短的时间内获得最有效的新闻信息。不仅如此，未来的网络新闻将不再受传统新闻发布者的限制，受众可以发布自己的新闻，并在短时间内获得更快的传播，而且新闻将成为人们互动交流的平台。网络新闻将随着人们认识的提高向着更深的层次发展，这将完全颠覆网络新闻的传统概念

1994年4月，中国全面接入互联网，1995年1月，《神州学人》杂志成为中国第一家上网媒体。从那时以来，中国网络媒体经历了近十年的发展，这一阶段也可看作中国网络媒体的第一个历史时期。在这个历史时期，中国网络媒体事业取得了长足的发展，其中一个最直接也是最突出的表现，是网络媒体在新闻业务方面的进步。

网络新闻业务，其诞生之初，是传统新闻业务的一种延伸，但是，经过近十年的发展，它在不断吸取传统新闻业务养分的同时，也在逐渐形成自己的崭新面貌，有些甚至是革命性的，并有可能对整个媒体的新闻业务发展产生影响

本发明旨在精简网络新闻对网络新闻进行分类及过滤。利用所获取的网络新闻，进行文字识别以及图像进行分析与提取，并建立新闻ID，最终放入新闻库。该发明主要有文字识别以及图像分类识别两大部分组成，其中文字识别依靠基于词汇链的关键词提取，图片分类基于深度学习算法。

发明内容

本发明的目的是通过对网络新闻中文字及图片提取关键词，建立新闻ID及新闻库，以供快速查询、添加等处理，起到良好的网络新闻辅助提取作用，从而极大减轻人工处理的工作强度的目的。

本发明采用的技术方案是：

一种网络新闻概要提取方法，其特征在于，包括以下步骤：

(1)获取网络新闻；

(2)对网络新闻中的文字基于中文词汇链提取关键词；

(3)基于深度学习算法进行图片分类；

首先，采集图像，对获取的图像进行标注，构建卷积神经网络结构，将标注好的图像送至构建的卷积神经网络中，进行训练；输出新闻分类结果；

(4)建立新闻ID，新闻入库；

(5)新闻对比；

(5.1)用户输入需要搜索的相似新闻个数K以及输入待对比且未录入新闻库的一则新闻；

(5.2)经过步骤(2)、(3)、(4)，建立待对比且未录入新闻库的一则新闻的新闻ID，并入库；根据该新闻的图片，利用基于深度学习的图片分类中的soft-max函数输出K个由高到低的函数值，对应于该新闻相似程度由高到低的K个新闻，输出K个新闻的新闻ID；

(5.3)对输出K个新闻的新闻ID进行判断，若为同一类则输出所述的K个新闻作为相似新闻，若不是同一类，则重复步骤(5.2)。

进一步地，步骤(2)中提取关键词的方法包括以下步骤：

(2.1)设定抽取关键词个数k，词语相似度阈值δ，特征频率阈值ε；

(2.2)预处理文档集，包括分词、词性标注和词过滤，并对每个词的特征频率TF和文档频率DF进行统计；

(2.3)选择文本中预处理后的词w₁,w₂,..,w_n作为候选词汇集，并取w₁构建初始词汇链L₁；对于未被《同义词词林》收录的词汇，但特征频率TF大于特征频率阈值ε的词单独归为词汇链L₀；

(2.4)对候选词汇集的词w_i(i∈[2,n])依次进行提取，构建词汇链L_i，依次计算它与除词汇链L₀之外的词汇链L_i(i∈[2，n])的语义扩展度exp(w_i,L_j)，该词与某词汇链L_j中所有词的语义扩展度最大值作为该词汇链的扩展度S(w_i,L_j)；然后对每个S(w_i,L_j)进行比较，选取其中的最大值作为该词与所有词汇链的语义扩展度exp(w_i,L)，即

式中，n_j为词汇链L_j中包含词汇的个数；m为词汇链的条数；w_jk为词汇链L_j中第k个词汇。词汇间语义扩展度exp(w_i,L_j)，exp(w_i,L_j)表示词汇w_i与词汇链L_j的语义扩展度；

(2.5)将语义扩展度exp(w_i,L_j)的最大值和预设的词语相似度阈值δ作比较，如果exp(w_i,L_j)的最大值大于δ，就把词w_i加入到对应的词汇链L_j中；如果语义扩展度exp(w_i,L_j)最大值小于δ，就创建一个新词汇链，并把词w_i加入到该新建的词汇链中；

(2.6)对全部候选词汇依次进行计算，重复步骤(2.4)到步骤(2.6)，直到全部词汇计算完毕。

进一步地，步骤(3)中构建卷积网络结构是使用227x227像素的输入图片大小，共5层卷积层，每批次训练图片个数为256，测试图片个数为256；网络的每一层是一个大小为w×h×d的三维矩阵，其中h和w代表图像的高度和宽度，d是滤波器的个数或者信道维数，利用上述三维矩阵可得出网络每一层的神经单元个数。

进一步地，步骤(3)中卷积神经网络的训练按如下步骤实现：

(3.1)计算卷积神经网络特征，根据训练图片和标签分类器，选取soft-max函数作为损失函数，训练卷积神经网络进行分类任务；

(3.2)对(3.1)中得到的特征在后续新闻图片中进行测试，卷积神经网络最后一层输出该图片属于某一类别的概率值，并将概率最大的那一类做为最终类别，至此，图片分类结束。

进一步地，步骤(5)中用户输入需要搜索的相似新闻个数K为3-5个。

本发明针对网络新闻中文字部分基于中文词汇链的提取关键字，便于精简新闻概要；基于深度学习算法对图片进行分类；结合新闻图片和关键字建立新闻ID，最终放入新闻库便于检索引用查找等。

本发明的有益效果是：

1.本发明根据网络新闻中的文字信息提取关键摘要并对新闻图片进行分类，形成新闻ID，实现了一篇新闻对应一项新闻ID，极大降低了系统的存储要求，提高了存储效率。

2、本发明通过所提及的新闻库的不断实时更新以及提供的快速查询与添加等功能，提高了检索新闻的效率，极大降低了工作人员查看、评价新闻的工作量，起到了有效的新闻甄别辅助工作。

附图说明

图1是本发明所示网络新闻概要提取方法的流程图。

图2是所述图片分类网络结构图。

图3是所述新闻ID建立示意图。

图4是新闻提取示意图。

图5是新闻相似对比系统。

图6新闻对比系统输出结果图

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明利用网络新闻，对所获取的网络新闻进行文字识别以及图像进行分析并对该新闻进行新闻ID建立最终放入新闻库旨在精简网络新闻对网络新闻进行分类及过滤。其中文字识别依靠基于词汇链提取关键词，图片分类基于深度学习算法对图片进行分类。

依靠基于词汇链提取关键词的方法包括以下步骤：

(1)设定抽取关键词个数k，词语相似度阈值δ，特征频率阈值ε；

(2)预处理文档集，包括分词、词性标注和词过滤，并对每个词的特征频率TF和文档频率DF进行统计；

(3)选择文本中预处理后的词w₁,w₂,..,w_n作为候选词汇集，并取w₁构建初始词汇链L₁；对于未被《同义词词林》收录的词汇，但特征频率TF大于特征频率阈值ε的词单独归为词汇链L₀；

(4)对候选词汇集的词w_i(i∈[2,n])依次进行提取，构建词汇链L_i，依次计算它与除词汇链L₀之外的词汇链L_i(i∈[2，n])的语义扩展度exp(w_i,L_j)，该词与某词汇链L_j中所有词的语义扩展度最大值作为该词汇链的扩展度S(w_i,L_j)；然后对每个S(w_i,L_j)进行比较，选取其中的最大值作为该词与所有词汇链的扩展度exp(w_i,L)，即

(5)将语义扩展度exp(w_i,L_j)的最大值和预设的词语相似度阈值δ作比较，如果exp(w_i,L_j)的最大值大于δ，就把词w_i加入到对应的词汇链L_j中；如果语义扩展度exp(w_i,L_j)最大值小于δ，就创建一个新词汇链，并把词w_i加入到该新建的词汇链中；

(6)对全部候选词汇依次进行计算，重复步骤(4)到步骤(6)，直到全部词汇计算完毕。

在上述算法中，通过观察发现，词语相似度阈值δ选择得越大，构建的词汇链数目就越多。反之，词语相似度阈值δ选择得越小，构建的词汇链数目就越少。

如图2所示，基于深度学习算法进行图片分类，首先，采集图像，对获取的图像进行标注，构建卷积神经网络结构，将标注好的图像送至构建的卷积神经网络中，进行训练；输出新闻分类结果。具体步骤是：

步骤一：采集图像，所有图片均来源于网络新闻插图配图图片。

步骤二：数据标定：对获得图片进行人工标注分类。

步骤三：构建卷积网络结构：本发明采用卷积神经网络，使用227x227像素的输入图片大小，共5层卷积层，每批次训练图片个数为256，测试图片个数为256。网络的每一层是一个大小为w×h×d的三维矩阵，其中h和w代表图像的高度和宽度，d是滤波器的个数或者信道维数，利用上述三维矩阵可得出网络每一层的神经单元个数。

将标注好的图像送至构建的神经网络中，进行分类器训练；训练一个可以快速对输入图片进行分类的分类器。具体实现方法是：

计算神经网络特征，根据训练图片和标签分类器，选取sofmax函数作为损失函数，训练深度神经网络进行分类任务。

对得到的特征在后续新闻图片中进行测试，网络最后一层输出该图片属于某一类别的概率值，并将概率最大的那一类做为最终类别，至此，图片分类结束。

以上两大步是针对网络新闻的文字部分关键词提取以及新闻图片的分类，接着建立新闻ID。新闻ID示意图如图3所示。将建立好ID的新闻放入新闻库中，如图4所示。新闻库中既包含文字信息也包含图片信息，当需要按文字索取时检索关键字关联到相应的图片及对应的新闻ID。图5所示为新闻相似对比系统。基于深度学习的图像分类系统可将同一类相似新闻图片分类便于对比。对于某一则未入库新闻，先需入库或者寻找类似新闻，首先将待比较新闻输入，经过本系统中关键字以及图片提取系统，进而经过基于深度学习中的卷积神经网络进行分类，找出最相似的图片或者最相近的关键词，根据找出的新闻图片对应着已经入库相应的新闻ID，提取出该新闻的关键词，效果图则如图6所示。

具体的，首先，用户输入需要搜索的相似新闻个数K以及输入待对比且未录入新闻库的一则新闻；用户输入需要搜索的相似新闻个数K一般为3-5个。经过新闻中的文字基于中文词汇链提取关键词、基于深度学习算法进行图片分类，建立待对比且未录入新闻库的一则新闻的新闻ID，并入库；根据该新闻的图片，利用基于深度学习的图片分类中的soft-max函数输出K个由高到低的函数值，对应于该新闻相似程度由高到低的K个新闻，输出K个新闻的新闻ID。最后，对输出K个新闻的新闻ID进行判断，若为同一类则输出所述的K个新闻作为相似新闻，若不是同一类，则重复步骤(5.2)。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种网络新闻概要提取方法，其特征在于，包括以下步骤：

(1)获取网络新闻；

(2)对网络新闻中的文字基于中文词汇链提取关键词；

式中，n_j为词汇链L_j中包含词汇的个数；m为词汇链的条数；w_jk为词汇链L_j中第k个词汇；词汇间语义扩展度exp(w_i,L_j)，exp(w_i,L_j)表示词汇w_i与词汇链L_j的语义扩展度；

(2.6)对全部候选词汇依次进行计算，重复步骤(2.4)到步骤(2.6)，直到全部词汇计算完毕；

(3)基于深度学习算法进行图片分类；

(4)建立新闻ID，新闻入库；

(5)新闻对比；

2.根据权利要求1所述的网络新闻概要提取方法，其特征在于，步骤(3)中构建卷积网络结构是使用227x227像素的输入图片大小，共5层卷积层，每批次训练图片个数为256，测试图片个数为256；网络的每一层是一个大小为w×h×d的三维矩阵，其中h和w代表图像的高度和宽度，d是滤波器的个数或者信道维数，利用上述三维矩阵可得出网络每一层的神经单元个数。

3.根据权利要求1所述的网络新闻概要提取方法，其特征在于，步骤(3)中卷积神经网络的训练按如下步骤实现：

(3.1)计算卷积神经网络特征，根据训练图片和标签分类器，选取sofmax函数作为损失函数，训练卷积神经网络进行分类任务；

4.根据权利要求1所述的网络新闻概要提取方法，其特征在于，步骤(5)中用户输入需要搜索的相似新闻个数K为3-5个。