CN109241277B

CN109241277B - 基于新闻关键词的文本向量加权的方法及系统

Info

Publication number: CN109241277B
Application number: CN201810787444.2A
Authority: CN
Inventors: 徐汕; 刘强; 张晶亮; 杨端; 郭强; 姜桥
Original assignee: Beijing Casicloud Co ltd
Current assignee: Beijing Casicloud Co ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2022-05-17
Anticipated expiration: 2038-07-18
Also published as: CN109241277A

Abstract

本发明公开了基于新闻关键词的文本向量加权的方法及系统，对新闻内容通过TextRank算法自动提取摘要，针对提取的摘要以及新闻原文提取几个关键词；计算每篇新闻文档关键词的TD‑IDF值，使用关键词的TD‑IDF值构建一个五维的向量，作为该新闻文档的空间向量；统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；将关键词的阅读量作为权值，对文档的空间向量进行加权。本发明有益效果：将新闻的阅读量作为权值，改进TDIDF算法的文本向量加权方法，充分考虑了关键词在文本中的重要程度，提高了文本空间向量的信息量，从而提高后续相关算法的精确度。

Description

基于新闻关键词的文本向量加权的方法及系统

技术领域

本发明涉及人工智能领域的自然语言处理方法，具体来说，涉及一种基于新闻关键词的文本向量加权的方法及系统。

背景技术

随着计算机的普及和网络的飞速发展,互联网上各种新闻的数量快速积累，如何快速查找相关信息变得非常重要。文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果，而文本向量加权是文本相速度计算的重要步骤。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数,相似度大,说明文本相似程度高,反之文本相似度低。对于舆情分析、文本聚类、信息检索、问答系统、网页去重、文本分类等众多领域,文本相似度的有效计算问题是其进行信息处理的关键。

在文本挖掘的研究中,学者们运用了很多方法,其中TDIDF是文档特征权重计算的最常用算法之一,但传统的TDIDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于新闻关键词的文本向量加权的方法，能够解决了传统的TDIDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题，提高了文本空间向量的信息量，从而提高后续算法的精确度。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于新闻关键词的文本向量加权的方法，具体包括以下步骤：

S1对新闻内容通过TextRank算法自动提取摘要，针对提取的摘要以及新闻原文提取几个关键词，并将提取的几个关键词做并集；

S2计算每篇新闻文档关键词的TD-IDF值，使用关键词的TD-IDF值构建一个五维的向量，作为该新闻文档的空间向量；

S3统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；

S4将关键词的阅读量作为权值，对文档的空间向量进行加权。

进一步地，所述步骤1中所述步骤S1中TextRank算法具体步骤如下：

S11按照常规方法对新闻文本进行分词并加载文本，对文本数据进行分词并进行词性标注；

S12对分词后的结果进行去停用词操作，得到处理后的文本数据；

S13计算分词处理后的文本数据的TextRank算法得分；

S14通过TextRank算法获取关键词，采用窗口大小为5来计算得分，关键词和关键词之间的权重为1；

S15通过TextRank算法获取摘要时，全部句子是相邻的，不提取窗口，关键词与关键词之间的权重采用BM25相似度算法获得；

S16通过TextRank算法获取得分后，进行降序排序。

进一步地，步骤S13中，计算公式如下：

其中，d为阻尼系数，其取值在0-1之间，V_i表示文本数据中第i个词，W_ji表示文本数据中第i个词和第j个词之间的权重，In(V_i)表示文本数据中以V_i为终点的入边集合Out(V_j)表示文本中以V_j起点的出边集合。

进一步地，步骤S15中，BM25算法计算公式如下：

其中，Q表示文本数据中的句子，q_i表示Q进行分词后的结果列表中的词；d表示处理的文档；W_i表示q_i的权重(一般使用TF-IDF值来作为权重)；；R(q_i，d)表示q_i与文档d的相关性得分，其中，计算方式如下：

其中，k，b为调节因子，一般按照经验设置，一般为k＝2，b＝0.75，f_i为q_i在文档中d中出现的频率，dl为文档的长度，avgdl为文本的平均长度。

进一步地，所述步骤S2中TD-IDF的具体计算方式为：

TD-IDF＝TF·IDF

其中，N_x为关键词x在文档中出现的次数，N为该文档所有词的总数，G为所有新闻文本文档的总数，G_x为包含关键词x的文档总数。

本发明的另一方面，提供一种基于新闻关键词的文本向量加权系统，包括

提取模块，用于对新闻内容通过TextRank算法自动提取摘要，针对提取的摘要以及新闻原文提取几个关键词；

构建模块，用于计算每篇新闻文档关键词的TD-IDF值，使用关键词的TD-IDF值构建一个五维的向量，作为该新闻文档的空间向量；

统计模块，用于统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；

计算模块，用于将关键词的阅读量作为权值，对文档的空间向量进行加权。

进一步地，所述TextRank算法具体步骤如下：

S13计算分词处理后的文本数据的TextRank算法得分；

S16通过TextRank算法获取得分后，进行降序排序。

进一步地，步骤S13中，计算公式如下：

进一步地，步骤S15中，BM25算法计算公式如下：

进一步地，所述TD-IDF的具体计算方式为：

TD-IDF＝TF·IDF

本发明的有益效果：

将新闻的阅读量作为权值，改进TDIDF算法的文本向量加权方法，充分考虑了关键词在文本中的重要程度，提高了文本空间向量的信息量，从而提高后续相关算法的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于新闻关键词的文本向量加权的方法的流程图；

图2是根据本发明实施例所述的基于新闻关键词的文本向量加权系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

用户的阅读量作为新闻的重要标度，对新闻的文本挖掘有重要作用，将用户阅读量作为权值，对文档的空间向量进行加权处理，在不增加开销的情况下扩大了新闻集的信息量,可提高进一步的相似度、文本聚类等算法的精确度。

如图1所示，根据本发明实施例所述的一种基于新闻关键词的文本向量加权的方法，具体包括以下步骤：

S1对新闻内容通过TextRank算法自动提取摘要，并对提取的摘要通过TextTank算法提取2个关键词，对新闻原文提取3个关键词，并对提取的5个关键词做并集；

其中，TextRank算法关键步骤具体如下：

S11按照常规方法对新闻文本进行分词，加载文本，对文本数据进行分词并进行词性标注，例如使用N-最短路径分词，采用马尔科夫模型进行词性标注；

S12对分词后的结果进行去停用词操作，主要是根据分词及词性标注结果取出文本中的名词、动词、形容词、副词等，得到处理后的文本数据；

S13根据计算分词处理后的文本数据的TextRank算法得分，计算公式如下：

其中，d为阻尼系数，其取值在0-1之间，V_i表示文本数据中第i个词，W_ji表示文本数据中第i个词和第j个词之间的权重，In(V_i)表示文本数据中以V_i为终点的入边集合Out(V_j)表示文本中以V_j起点的出边集合；

S14在通过TextRank算法获取关键词中，采用窗口大小为5来计算得分，关键词和关键词之间的权重为1，即任意词之间的W_ji＝1；

S15在通过TextRank算法获取文本摘要时，一般认为全部句子是相邻的，不提取窗口，词与词之间的权重采用BM25相似度算法获得，BM25算法计算公式如下：

S16通过TextRank算法获取得分后，进行降序排序，按照获取摘要和关键词的个数a，取出排序后排名前a个的句子和关键词；S2计算每篇新闻文档关键词的TD-IDF值(TermFrequency-Inverse Document Frequemce,词频-逆文档频率)，使用关键词的TD-IDF值构建一个五维的向量，做为该新闻文档的空间向量，其中，TD-IDF计算公式如下：

TD-IDF＝TF·IDF

例如：某新闻关键词及其TD-IDF值为：发展：x1；市场：x2；工业x3；设备：x4；系统：x5，则该新闻的空间向量为{x1，x2，x3，x4，x5}。

S3统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；例如关键词的阅读量分别为：发展：a1；市场：a2；工业a3；设备：a4；系统：a5。

S4将关键词的阅读量作为权值，对文档的空间向量进行加权，即{a1*x1,a2*x2,a3*x3,a4*x4,a5*x5}。

如图2所示，本发明的另一方面，提供一种基于新闻关键词的文本向量加权系统，包括

所述TextRank算法具体步骤如下：

S13计算分词处理后的文本数据的TextRank算法得分；

S16通过TextRank算法获取得分后，进行降序排序。

在本发明的一个具体实施例中，步骤S13中，计算公式如下：

在本发明的一个具体实施例中，步骤S15中，BM25算法计算公式如下：

在本发明的一个具体实施例中，所述TD-IDF的具体计算方式为：

TD-IDF＝TF·IDF

综上所述，借助于本发明的上述技术方案，将新闻的阅读量作为权值，改进TDIDF算法的文本向量加权方法，充分考虑了关键词在文本中的重要程度，提高了文本空间向量的信息量，从而提高后续相关算法的精确度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。