CN109684642B

CN109684642B - 一种结合页面解析规则和nlp文本向量化的摘要提取方法

Info

Publication number: CN109684642B
Application number: CN201811604934.0A
Authority: CN
Inventors: 陈玮; 刘德彬; 孙世通; 严开; 吴涛
Original assignee: Chongqing Socialcredits Big Data Technology Co ltd; Chongqing Telecommunication System Integration Co ltd
Current assignee: China Telecom Yijin Technology Co ltd; Chongqing Yucun Technology Co ltd; Zhongdian Zhi'an Technology Co ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2023-01-13
Anticipated expiration: 2038-12-26
Also published as: CN109684642A

Abstract

一种结合页面解析规则和NLP文本向量化的摘要提取方法，包括以下步骤：S1：运用Readability包对网页类的文本数据的“body”标签内html格式的正文数据进行抽取；S2：获取所述文本语料的文本长度，排除不合格的文本语料；S3：判断所述文本语料的句子数量是否大于阈值；S4：判断能否获取段落小标题语段；S5：定义正则匹配关键词，剔除匹配到正则匹配关键词的文本得到过滤后的文本语料S6：对语段进行合规性判定；S7：训练Word2Vec模型，将所述文本语料拆分成句子，再将句子拆分成词做向量化操作并用EMD求句子相似度，再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。本发明可以对于长篇博客、新闻类的文章可以获取较核心的句子从而快速了解主旨。

Description

一种结合页面解析规则和NLP文本向量化的摘要提取方法

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种结合页面解析规则和 NLP文本向量化的摘要提取方法。

背景技术

文本摘要的重要性在生活中都能体现，在这个信息和数据爆炸的时代，越来越多的信息让人们难以在短时间内接收，过滤掉烦琐的文字信息，用几个简单的句子就能把核心的信息表达出来的方式显得尤为重要，最常见的就是日常我们经常接触的新闻、微博等。技术应用方面，通过获取的摘要信息，可以拿来做分类、主旨分析等NLP任务。目前对摘要提取是采用textrank+word2vec 模型对整个文本进行核心句子的抽取，但是，对于长篇文章来说，用word2vec 模型将文本划分为句子，再将句子拆分成词，然后将词向量化并求距离的过程会有很高的计算复杂度，而且textrank是基于句子的相似度给予的权重，根据实际的抽取结果来看，尤其是对于类似新闻这一类的文本，内容和段落形态各异，很多干扰性的句子会影响抽取结果。

发明内容

针对上述现有技术的不足，本发明提供了一种结合页面解析规则和NLP文本向量化的摘要提取方法，快速对类似新闻的多样性文本核心句子进行抽取。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种结合页面解析规则和NLP文本向量化的摘要提取方法，包括以下步骤：

S1：运用Readability包对网页类的文本数据的“body”标签内html格式的正文数据进行抽取，得到页面正文的文本语料；

S2：获取所述文本语料的文本长度，排除不合格的文本语料，合格的文本语料进入S3；

S3：判断所述文本语料的句子数量是否大于阈值；若不大于阈值，进入步骤S7，若大于阈值，进入步骤S4；

S4：判断能否获取段落小标题语段，如果能，获取段落小标题语段后进入 S6；如果不能，进入S5；

S5：定义正则匹配关键词，剔除匹配到正则匹配关键词的文本得到过滤后的文本语料；对所述过滤后的文本语料取一定长度的首尾段语段进入S6；

S6：对语段进行合规性判定，若语段的合规性符合要求，则认定所述语段为文本摘要句子；若语段的合规性不符合要求，则返回至步骤S4；

S7：训练Word2Vec模型，将所述文本语料拆分成句子，再将句子拆分成词做向量化操作并用EMD求句子相似度，再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。

作为优化，运用python的内置函数的方式来获取步骤S2所述的文本语料的文本长度，在经过对文本语料的句子做过滤后,排除句子数量小于2或在ascii 编码条件下句子长度不大于45或包含正则匹配关键词的文本语料。

作为优化，步骤S4的具体步骤为在HTML格式的文本中抽取h2、h3、h4、 h5、strong标签,若抽取结果为空则代表没有获取到小标题语段，若不为空，则将h2、h3、h4、h5、strong标签作为小标题语段并进入步骤S6。

作为优化，步骤S7的具体步骤为将文本划分为句子，采用CBOW与skip-gram 模型和负采样与层次softmax方法的组合将句子拆分成词做向量化，将基于词向量的句子用EMD求句子的相似度，再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。

作为优化，步骤S6的合规性判定为：对于能获取小标题的语段，选取语段段落大于5且不包含正则匹配关键词且带有h2、h3、h4、h5、strong标签的段落位置不相邻的文本语段；对于不能获取小标题的语段，选取在unicode编码下长度大于5且不包含正则匹配关键词的文本语料。

作为优化，步骤S3的阈值为28。

本发明的有益效果是：

本发明所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法可以对于长篇的博客、新闻类的文章可以获取较核心的句子从而快速了解主旨。

附图说明

图1为本发明所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法的方法流程图。

图2为本发明所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法的具体实施流程图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

S1：运用Readability包对网页类的文本数据的“body”标签内html格式的正文数据进行抽取，得到页面正文的文本语料。

例如需要提取的正文：

from readability.readability import Document

from scrapy.selector import HtmlXPathSelector

from scrapy.http import HtmlResponse

import urllib

html＝urllib.urlopen(url).read()

content_t＝ html.split(‘<divclass＝"arti-conrel">‘)[-1].strip().split(‘<div class＝"clearfix page-n-p-con"‘)[0].strip()

content_t＝‘<div class＝"arti-con rel">‘+content_t

readable_article＝Document(content_t).summary()

response＝HtmlResponse(url＝“,body＝readable_article, encoding＝‘utf8‘)

hxs＝HtmlXPathSelector(response)

html_content＝

“.join(hxs.select(‘//text()‘).extract()).strip()

S2：获取所述文本语料的文本长度，排除不合格的文本语料，合格的文本语料进入S3。运用python的内置函数的方式来获取步骤S2的文本语料的文本长度，在经过对文本语料的句子做过滤后,排除句子数量小于2或在ascii编码条件下句子长度不大于45且包含正则匹配关键词的文本语料。判断句子数量是以句末为句号、问号和叹号为判断标准的，长度是指包括标点符号在内的字数统计。

S3：判断所述文本语料的句子数量是否大于阈值；若不大于阈值，进入步骤S7，若大于阈值，进入步骤S4。本实施例中，句子的数量阈值为28。

S4：判断能否获取段落小标题语段，如果能，获取段落小标题语段后进入 S6；如果不能，进入S5。在HTML格式的文本中抽取h2、h3、h4、h5、strong 标签,若抽取结果为空则代表没有获取到小标题语段，若不为空，则将h2、h3、 h4、h5、strong标签作为小标题语段。

例如有文本：

需要把table标签提取出来，代码如下：

[div/table]

或

from lxml import etree

div＝etree.HTML(html)

table＝div.xpath('//div/table')[0]

content＝etree.tostring(table,print_pretty＝True,method＝'html')，也可以采用其他代码来实现提取标签。

S5：定义正则匹配关键词，剔除匹配到正则匹配关键词的文本得到过滤后的文本语料；对所述过滤后的文本语料取一定长度的首尾段语段进入S6。

S6：若语段的合规性符合要求，则认定所述语段为文本摘要句子；若语段的合规性不符合要求，则返回至步骤S4；

本实施例中，语段的合规性具体判断标准为：对于能获取小标题的语段，选取语段段落大于5且不包含正则匹配关键词且带有h2、h3、h4、h5、strong 标签的段落位置不相邻的文本语段；对于不能获取小标题的语段，选取在 unicode编码下长度大于5且不包含正则匹配关键词的文本语料。

本实施例中，步骤S7的具体步骤为将文本划分为句子，采用CBOW与 skip-gram模型和负采样与层次softmax方法的组合将句子拆分成词做向量化，将基于词向量的句子用EMD求句子的相似度，再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。

CBOW(Continuous Bag-of-Word Model,CBOW)，称为连续词袋模型，是一个三层神经网络,输入已知上下文输出对下个单词的预测。

CBOW模型的第一层是输入层,输入已知上下文的词向量.中间一层称为线性隐含层,它将所有输入的词向量累加。

第三层是一棵哈夫曼树,树的的叶节点与语料库中的单词一一对应,而树的每个非叶节点是一个二分类器(一般是softmax感知机等),树的每个非叶节点都直接与隐含层相连。

将上下文的词向量输入CBOW模型,由隐含层累加得到中间向量.将中间向量输入哈夫曼树的根节点,根节点会将其分到左子树或右子树。

每个非叶节点都会对中间向量进行分类,直到达到某个叶节点.该叶节点对应的单词就是对下个单词的预测。首先根据预料库建立词汇表,词汇表中所有单词拥有一个随机的词向量.我们从语料库选择一段文本进行训练。将单词W 的上下文的词向量输入CBOW,由隐含层累加,在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点,从给出对单词W的预测。训练过程中我们已经知道了单词W,根据W的哈夫曼编码我们可以确定从根节点到叶节点的正确路径, 也确定了路径上所有分类器应该作出的预测。我们采用梯度下降法调整输入的词向量,使得实际路径向正确路径靠拢。在训练结束后我们可以从词汇表中得到每个单词对应的词向量。

skip-gram模型同样是一个三层神经网络，skip-gram模型的结构与CBOW 模型正好相反，skip-gram模型输入某个单词输出对它上下文词向量的预测。输入一个单词,输出对上下文的预测。Skip-gram的核心同样是一个哈夫曼树,每一个单词从树根开始到达叶节点可以预测出它上下文中的一个单词。对每个单词进行N-1次迭代,得到对它上下文中所有单词的预测,根据训练数据调整词向量得到足够精确的结果。

用EMD求句子的相似度的具体步骤为：

假设有两个包含向量化词的句子P、Q，

P＝{(P₁，w_p1)，(P₂，w_p2)，(P₃，w_p3)···，(P_n，w_pm)}，

Q＝{(q₁，w_q1)，(q₂，w_q2)，(q₃，w_q3)···，(q_n，w_qn)}

p_i是句子P的某个向量化词，w_pi是向量化词p_i的权重，而q_j是句子Q的某个向量化词，w_qj是向量化词q_j的权重，m、n分别为句子P和句子Q的向量化词的数量。

定义句子P和句子Q之间的距离矩阵[d_ij]；每一项d_ij代表p_i和q_j的距离，[d_ij] 是个MxN矩阵；

定义p_i到q_j的流动数量矩阵F＝[f_ij]，p_i到q_j的次数，从而最小化全局的代价函数：

对最小化全局代数函数归一化得到：

即

其中，f_ij≥0；

再通过TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。TextRank算法是一种用于文本的基于图的排序算法。通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。

初始时，设置每个句子的重要性为1，通过迭代得到公式如下：

计算得到句子权重，其中，WS(V_i)为文本句子i的重要性(PR值)，WS(V_j)为文本句子j的重要性(PR值)，d是阻尼系数，一般设置为0.85，in(V_i)是存在指向文本句子i 的链接的句子集合；Out(V_j)是文本句子j中的链接存在的链接指向的句子的集合；W_ji是文本句子i和文本句子j的相似度，公式等号左边计算的结果是迭代后文本句子i的PR值，等号右边用到的PR值全是迭代前的。

最终得到权重最高的文本句子就是文本摘要句子。

最后应说明的是：本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等统计数的范围之内，则本发明也意图包含这些改动和变型。

Claims

1.一种结合页面解析规则和NLP文本向量化的摘要提取方法，其特征在于，包括以下步骤：

S4：判断能否获取段落小标题语段，如果能，获取段落小标题语段后进入S6；如果不能，进入S5；

2.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法，其特征在于，运用python的内置函数的方式来获取步骤S2所述的文本语料的文本长度，在经过对文本语料的句子做过滤后,排除句子数量小于2或在ascii编码条件下句子长度不大于45或包含正则匹配关键词的文本语料。

3.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法，其特征在于，步骤S4的具体步骤为在HTML格式的文本中抽取h2、h3、h4、h5、strong标签,若抽取结果为空则代表没有获取到小标题语段，若不为空，则将h2、h3、h4、h5、strong标签作为小标题语段并进入步骤S6。

4.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法，其特征在于，步骤S7的具体步骤为将文本划分为句子，采用CBOW与skip-gram模型和负采样与层次softmax方法的组合将句子拆分成词做向量化，将基于词向量的句子用EMD求句子的相似度，再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。

5.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法，其特征在于，步骤S6的合规性判定为：对于能获取小标题的语段，选取语段段落大于5且不包含正则匹配关键词且带有h2、h3、h4、h5、strong标签的段落位置不相邻的文本语段；对于不能获取小标题的语段，选取在unicode编码下长度大于5且不包含正则匹配关键词的文本语料。

6.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法，其特征在于，步骤S3的阈值为28。