CN112100372B

CN112100372B - 头版新闻预测分类方法

Info

Publication number: CN112100372B
Application number: CN202010845229.0A
Authority: CN
Inventors: 曹开臣; 戴礼灿; 孙文; 陈明仁; 蔡世民
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-08-30
Anticipated expiration: 2040-08-20
Also published as: WO2022037446A1; US20230244757A1; CN112100372A

Abstract

本发明公开的一种头版新闻预测分类方法，旨在一种能够兼顾局部中心性和全局中心，并能表现出较好头版新闻预测结果的新闻预测分类方法。本发明通过下述技术方案实现：首先通过用户界面输入要查询的关键字，在互联网上搜集网页，将搜集到的网页新闻文本信息保存到本地数据库；文本表征模块利用Doc2Vec表征算法进行向量表征，将每一篇新闻文本各自转化为低维、高信息量的文本特征向量；相似性网络构建模块计算新闻间的相似度，根据计算所得的相似矩阵视为新闻相关网络的邻接矩阵，构建出新闻相似性网络，遍历完相似性网络，是则根据支持H‑指数贡献矩阵迭代计算向量HR值，利用HR值对新闻进行权重排序，预测top‑N条新闻作为头版新闻。

Description

头版新闻预测分类方法

技术领域

本发明涉及自然语言处理、人工智能预测分类领域，具体涉及一种报刊的头版新闻智能预测方法。

技术背景

新闻媒介具有传播信息、政治宣传、普及教育、舆论监督、社会服务、文化娱乐等多方面功能。这些功能的发挥都要通过具体的新闻报道来实现，因此报道效果目标也相应呈多元化的形态。如通过报道宣传某种政策、观念或主张；通过批评报道揭露社会弊端，促进问题的解决；通过追踪报道传播最新信息、监视社会环境；通过活动策划与新闻报道的结合，为社会公众提供服务、娱乐，或进行道德教育、解决社会问题，或塑造报纸形象，扩大社会影响等。权威报刊的头版新闻通常报道与国家政治、经济政策相关的重要信息，代表国家政治、外交、经济政策的发展方向，特别是其头版新闻在不同时期对国家政治、经济政策有着决定性的指导作用，被外界作为分析各国政治、经济政策变化的渠道之一。因此，正确预测国家级报刊的头版新闻对判断国家政策变化具有重要意义。

信息技术的快速增长带动了生活的网络化，生活中存在各种各样的网络：在线社交网络、科研网络以及交通网络等。社会网络是人们通过各种关系建立起来的联系，并通过成员之间的交互作用形成的一种网络化结构。社会网络分析法就是对于社会网络的关系结构或者属性进行分析，行动者可以是人、社区或者群体等，他们之间的关系能够反映出一定的现象或者数据。其中诸多数据可以表示为二元图G＝(V,E),其中的V表示研究的成员集合，E是成员之间的关系的集合。社会网络的一个突出的特点是存在少数的关键节点，这类节点对研究网络的功能和保持网络的稳定性具有重要的作用。例如网络在遭受外界蓄意攻击时，关键节点遭到攻击就会导致整个的网络瘫痪。网络节点重要(中心)性排序是亟待解决的问题，这对处理信息流，预防传染性的传播以及网络上的其他重要的行为具有非常重要的意义。

在自然界中存在的大量复杂系统都可以通过不同的复杂网络加以描述。一个典型的复杂网络是由许多节点与节点之间的连边组成，其中节点用来代表真实系统中不同的个体，而连边则用来表示个体间的关系。新闻媒体即为不同的新闻互相连接形成的新闻网络。在复杂网络领域的研究中，节点的核心地位确定是极其重要的。其应用包括识别社交网络中最有影响力的人，互联网或城市网络中的关键基础设施节点以及疾病的超级传播者。中心性概念最早是在社交网络分析中开发的，许多用于衡量中心性的术语都反映了它们的社会学渊源。中心性指数就是对节点核心地位的定量刻画，借此反应该节点在网络中的重要性。而“重要性”一词有很多含义，导致对中心性的许多不同定义，目前主要有两种不同的解释。“重要性”可以被认为与网络上的流或传输类型有关，这使得中心性可以根据在资源分配过程中对节点的依赖程度进行定义。“重要性”也可以被认为是节点对网络凝聚力的贡献情况，这使得中心性也可以通过衡量节点对网络凝聚力贡献的程度进行定义。通过研究网络节点中心性的方式研究权威报刊头版新闻的成因，可以从直观的角度给出一个假设来解释头版新闻的成因，即“在新闻网络中，新闻的中心性越大，其成为头版新闻的可能性就高”。因此，利用预测新闻网络节点中心性来实现头版新闻的预测分类是具有较大研究价值的。

发明内容

本发明的任务是提供一种能够兼顾局部中心性和全局中心，并能表现出较好头版新闻预测结果的头版新闻预测分类方法。

为了实现上述发明目的，本发明提供了一种头版新闻预测分类方法，其特征在于包括如下步骤：利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构，首先通过用户界面输入要查询的关键字，在互联网上搜集网页，使用面向对象的程序设计语言Python编写网络爬虫，加载到新闻报刊文本数据采集模块中，将搜集到的网页新闻文本信息保存到本地数据库；数据清洗模块将从网站获取的原数据进行数据清洗工作；文本分词模块使用结巴分词，对清洗完毕的数据进行分词；文本表征模块利用Doc2Vec表征算法进行向量表征，将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量；相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况，得到一个稀疏的相似矩阵，根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵，构建出新闻相似性网络；头版新闻预测模块将H指数引入PageRank算法，根据相似性网络计算支持H-指数贡献矩阵，判断是否遍历完相似性网络，是则根据支持H-指数贡献矩阵迭代计算向量HR值，利用HR值对新闻进行权重排序，预测top-N条新闻作为头版新闻。

本发明相比于现有技术具有如下有益效果：

本发明利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构，新闻报刊文本数据采集模块首先通过用户界面输入要查询的关键字，在互联网上搜集网页，使用Python编写网络爬虫，爬行程序根据输入的相关信息，将搜集到的网页新闻文本信息保存到本地数据库，综合H-中心性排序算法和PageRank排序算法，利用兼顾局部中心性和全局中心性的优势，有效缓解了巨大网络中随机游走本所产生的超大矩阵乘法计算负担，降低了PageRank算法受直接连接重要性较小的节点影响而导致的搜索结果误差。

本发明采用数据清洗模块将从网站获取的原数据进行数据清洗工作；文本分词模块使用结巴分词，对清洗完毕的数据进行分词；文本表征模块利用Doc2Vec表征算法进行向量表征，将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量，从复杂网络的全新视角构建并分析新闻网络，并对头版新闻的成因给出了一个可解释性强的假设。

本发明相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况，得到一个稀疏的相似矩阵，根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵，构建出新闻相似性网络；构建高效的Top-N头版新闻预测模型，相比于其他节点排序算法在四个评估指标上都表现出较好的头版新闻预测结果。

附图说明

图1是本发明头版新闻预测分类的流程图。

具体实施方式

参阅图1，根据本发明，利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构，首先通过用户界面输入要查询的关键字，在互联网上搜集网页，使用面向对象的程序设计语言Python编写网络爬虫，加载到新闻报刊文本数据采集模块中，将搜集到的网页新闻文本信息保存到本地数据库；数据清洗模块将从网站获取的原数据进行数据清洗工作；文本分词模块使用结巴分词，对清洗完毕的数据进行分词；文本表征模块利用Doc2Vec表征算法进行向量表征，将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量；相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况，得到一个稀疏的相似矩阵，根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵，构建出新闻相似性网络；头版新闻预测模块将H指数引入PageRank算法，根据相似性网络计算支持H-指数贡献矩阵，判断是否遍历完相似性网络，是则根据支持H-指数贡献矩阵迭代计算向量HR值，利用HR值对新闻进行权重排序，预测top-N条新闻作为头版新闻。

其具体实现步骤如下：

步骤1：新闻报刊文本数据采集模块使用Python编写网络爬虫将网页新闻文本信息储存为“时间-标题-文本-版面号”的格式，并保存到本地。

步骤2：数据清洗模块将从网站获取的原数据进行数据清洗工作，例如原数据中存在“图片新闻”的情况，图片新闻只包含图片而没有文字内容，将原数据中的部分垃圾信息删除，随后对数据格式进行规则化，删除文本中的标点、空格等，留待后续分词操作，同时将时间转化为标准8位的形式YYYYMMDD。

步骤3：文本分词模块使用结巴分词，对清洗完毕的数据进行分词。

步骤4:文本表征模块利用Doc2Vec表征算法进行向量表征，将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量；

(1)文本表征模块构建词t在新闻i的和向量

其中，h(w_t|p_i)为词t在新闻i的和向量，w_t为新闻中词t对应的one-hot编码向量，p_i为新闻i对应的one-hot编码向量，T为Doc2Vec算法考虑的上下文词数；

(2)文本表征模块将和向量带入Doc2Vec算法的神经网络模型中训练，可得到神经网络模型的如下输出函数y，y＝Softmax(h(w_t|p_i)·W)+b

其中，y为神经网络模型的输出，h(w_t|p_i)为词t在新闻i的和向量，W为Doc2Vec算法的神经网络模型中的隐层权重，b为偏置。

(3)文本表征模块利用上述输出函数构建如下损失函数Loss＝∑D(y,w_t)，通过优化损失函数，可以得到一个隐层权重W_best矩阵和b_best偏置；

其中，D(·)为向量间二阶欧氏距离，y为神经网络模型的输出函数，w_t为新闻中词t对应的one-hot编码向量；

(4)文本表征模块以新闻i对应的one-hot向量p_i作为输入，根据训练好的神经网络模型中的隐层权重W_best，得到低维文本特征向量表征R_i：R_i＝p_i·W_best。

步骤5:相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况，得到一个稀疏的大小为“新闻数×新闻数”的相似矩阵，根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵，构建出新闻相似性网络。

步骤6：头版新闻预测模块将H指数引入PageRank算法，通过遍历相似性网络计算支持H-指数贡献矩阵，进而迭代计算出向量HR值，利用HR值对新闻进行权重排序，预测top-N条新闻作为头版新闻。(1)引入H指数在排序的局部中心性优势，根据相似性网络遍历计算支持H-指数贡献矩阵第i行j列的值，具体计算方式如下：

其中，A_ij为网络邻接矩阵第i行j列的值，v_i为目标节点，v_j为v_i所属领域中的节点,D(v_j)为邻域中节点v_j的度,H(v_i)为目标节点v_i的H指数；

(2)当判定头版新闻预测模块遍历计算完相似性网络，引入Pagerank算法在排序的全局中心性优势，根据邻接函数l(v_i,v_j)代表在G_SHCM网络中节点v_J在v_i领域N_SHCM(v_i)中的节点总数中的比重和支持H-指数贡献矩阵迭代计算向量HR值，具体计算方式如下：

其中，d为阻尼系数，并声明d＝0.85，N_SHCM(v_i)为网络G_SHCM中节点v_i的领域，D_SHCM(v_j)为网络G_SHCM中节点v_j的度，网络G_SHCM中节点的数量N_SHCM＝|V_SHCM|，其中V_SHCM为网络G_SHCM的节点集合，如果网络G_SHCM中节点v_i和网络G_SHCM中节点v_Jv_j不相邻，则邻接函数l(v_i,v_j)＝0，将HR值计算结果进行Top-N预测，得到低维文本特征向量表征R_i＝Sort_i,ifi＜N，Sort_i表示基于某种排序算法所得的排序序列中第i个元素，N为Top-N预测的预测长度。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种头版新闻预测分类方法，其特征在于包括如下步骤：利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构，首先通过用户界面输入要查询的关键字，在互联网上搜集网页，使用面向对象的程序设计语言Python编写网络爬虫，加载到新闻报刊文本数据采集模块中，将搜集到的网页新闻文本信息保存到本地数据库；数据清洗模块将从网站获取的原数据进行数据清洗工作；文本分词模块使用结巴分词，对清洗完毕的数据进行分词；文本表征模块利用Doc2Vec表征算法进行向量表征，将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量；相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况，得到一个稀疏的相似矩阵，根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵，构建出新闻相似性网络；头版新闻预测模块将H指数引入PageRank算法，根据相似性网络计算支持H-指数贡献矩阵，判断是否遍历完相似性网络，是则根据支持H-指数贡献矩阵迭代计算向量HR值，利用HR值对新闻进行权重排序，预测top-N条新闻作为头版新闻；

其中，头版新闻预测模块将H指数引入PageRank算法，根据相似性网络计算支持H-指数贡献矩阵，判断是否遍历完相似性网络，是则根据支持H-指数贡献矩阵迭代计算向量HR值，利用HR值对新闻进行权重排序，预测top-N条新闻作为头版新闻步骤，具体包括：

头版新闻预测模块对新闻进行权重排序，将预测top-N条新闻作为头版新闻，根据相似性网络计算支持H-指数贡献矩阵第i行j列的值

v_j∈N(v_i)

头版新闻预测模块遍历计算完相似性网络，根据邻接函数l(v_i,v_j)代表在G_SHCM网络中节点v_J在v_i领域N_SHCM(v_i)中的节点总数中的比重和支持H-指数贡献矩阵迭代计算向量HR值：

其中，d为阻尼系数，N_SHCM(v_i)为网络G_SHCM中节点v_i的领域，D_SHCM(v_j)为网络G_SHCM中节点v_j的度，Sort_i表示基于某种排序算法所得的排序序列中第i个元素，N为Top-N预测的预测长度；

网络G_SHCM中节点的数量N_SHCM＝|V_SHCM|，如果网络G_SHCM中节点v_i和网络G_SHCM中节点v_Jv_j不相邻，则邻接函数l(v_i,v_j)＝0，将HR值计算结果进行Top-N预测，得到低维文本特征向量表征R_i＝Sort_i,if i<N。

2.如权利要求1所述的头版新闻预测分类方法，其特征在于：新闻报刊文本数据采集模块使用Python编写网络爬虫将网页新闻文本信息储存为“时间-标题-文本-版面号”的格式，并保存到本地。

3.如权利要求1所述的头版新闻预测分类方法，其特征在于：数据清洗模块将从网站获取的原数据中存在的“图片新闻”进行数据清洗，将原数据中的部分垃圾信息删除，随后对数据格式进行规则化，删除文本中的标点、空格，同时将时间转化为标准8位的形式YYYYMMDD。

4.如权利要求1所述的头版新闻预测分类方法，其特征在于：文本表征模块利用Doc2Vec表征算法构建词t在新闻i的和向量

其中，w_t为新闻中词t对应的one-hot编码向量，p_i为新闻i对应的one-hot编码向量，T为Doc2Vec算法考虑的上下文词数。

5.如权利要求4所述的头版新闻预测分类方法，其特征在于：文本表征模块将和向量带入Doc2Vec算法的神经网络模型中训练，得到神经网络模型的如下输出函数y，

其中，h(w_t|p_i)为词t在新闻i的和向量，W为Doc2Vec算法的神经网络模型中的隐层权重，b为偏置。

6.如权利要求5所述的头版新闻预测分类方法，其特征在于：文本表征模块利用神经网络模型的输出函数y构建损失函数Loss＝∑D(y,w_t)，通过优化损失函数，得到一个隐层权重W_best矩阵和b_best偏置，其中，D(·)为向量间二阶欧氏距离，w_t为新闻中词t对应的one-hot编码向量。

7.如权利要求6所述的头版新闻预测分类方法，其特征在于：文本表征模块以新闻i对应的one-hot向量p_i作为输入，根据训练好的神经网络模型中的隐层权重W_best，得到低维文本特征向量表征R_i：R_i＝p_i·W_best。