CN111538829B

CN111538829B - 一种新的工程机械租赁场景网页文本关键内容提取方法

Info

Publication number: CN111538829B
Application number: CN202010344614.7A
Authority: CN
Inventors: 杨婷婷; 王艺; 郑龙
Original assignee: Joint Digital Technology Co ltd
Current assignee: Joint Digital Technology Co ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2021-04-20
Anticipated expiration: 2040-04-27
Also published as: CN111538829A

Abstract

本发明提出了一种新的工程机械租赁场景网页文本关键内容提取方法，能够不需要根据HTML标签解析不同网页的内容，利用YEDA中文文本标注工具标注出网页中的机构名，地名，日期，货币，数字，工程名，工程内容，工程范围，工程规模，所属工程行业，工程施工阶段等信息，将标注好的数据输入到基于局部软注意力机制的深度网络模型中，在深度网络模型中以LSTM作为基础网络，同时在单词级别，短语级别使用全局注意力机制，在句子级别使用局部注意力机制，从而使得提取的网页关键性摘要信息可以让人不用大量的阅览网页，快速获取与工程租赁场景相关的感兴趣内容。

Description

一种新的工程机械租赁场景网页文本关键内容提取方法

技术领域

本发明具体涉及到一种新的工程机械租赁场景网页文本关键内容提取方法。

背景技术

网页关键文本的提取是海量数据背景下互联网应用中的一个热点问题。从大量包含网页结构的文档中提取适当合理的关键性摘要信息用以概括网页文本内容。网页内容提取在知识图谱构建，智能问答，个性化搜索等领域中有着广泛的信息。

工程用车推荐需要根据爬取出来的互联网网页上的关键内容进行判断是否用车，而工程招标网站多种多样，规则复杂。利用传统的方法提取关键内容可能存在信息遗漏，丢失的问题。通常情况下，工程用车推荐信息中时间，地点，工程类型均是非常重要的内容，需要将它们完整的提取出来。

传统的方法是将网页文本按照HTML标签解析内容，提取正文，然后再分词，去掉停用词之后得到候选内容，再根据设定的阈值来提取关键内容。设定的阈值一般是根据候选的N个关键词来设置的。但是这种方法算法复杂，计算量巨大，不能适应不同的网站内容，需要设计多种不同的规则。因此，现有的技术提取关键内容精度不高，而且不够通用。

为了解决这一问题，我们提出了一种新的基于局部软注意力机制的网页文本摘要信息提取技术。

发明内容

发明目的：本发明的目的是针对目前技术中的不足，提供了一种新的工程机械租赁场景网页文本关键内容提取方法，能够有效解决现有的网页文本关键内容提取技术提取的关键内容精度不高，而且不够通用的技术问题。

1、技术方案：为实现上述目的，本发明提供了一种新的工程机械租赁场景网页文本关键内容

提取方法，其特征在于：包括如下步骤:

步骤1、数据标注：

利用开源的YEDA中文文本标注工具标注出关键文本内容,工程名，工程内容，工程范围，工程规模，所属工程行业，工程施工阶段；

步骤2、分层次：

首先将输入的网页文本分句子即根据中文句子起止符号、分短语即根据jieba分词粗分割、分词即根据jieba分词精分割，然后利用word2vec将分割后的中文词汇变成单词嵌入向量，得到序列embedding1、embedding2、…、embeddingt；

步骤3、构建局部软注意力机制模型：

局部软注意力机制的模型可以分为三个部分，分别是左边的Encoder模块、中间的Attention模块和后面的Decoder模块：

Encoder模块包括有嵌入层和LSTM单元，嵌入层利用word2vec转换单词、短语、句子转换成embeddings输出，LSTM单元为基础模型，embeddings通过LSTM单元得到一系列的隐藏单元，隐藏单元是各个LSTM单元的输出h1,h2,…,ht；

Decoder模块包括有LSTM单元和输出层，LSTM单元为基础模型，输出层用于处理Encoder输入和注意力机制部分输入进行加权求和之后用softmax预测得到文本实体输出，LSTM单元为基础模型，embeddings通过LSTM单元得到一系列的隐藏单元，隐藏单元是各个LSTM单元的输出h1,h2,…,ht；

Attention模块包括单词和短语级别的全局注意力机制和句子级别的局部注意力机制，Attention模块是一个前馈神经网络，输入是Encoder模块和Decoder模块中的LSTM单元输出的隐藏单元，输出是权重系数；

权重系数可以和后面的Decoder模块一起决定文本实体的输出；

Attention模块的全局注意力机制和局部注意力机制是参数的初始化和更新；

全局注意力机制设置全局变量随机初始化和全部更新，局部注意力机制设置首尾的变量随机初始化，中间的变量设置为0并且设置只更新首尾的变量；

步骤4、局部软注意力机制模型进行参数初始化：

在单词和短语级别的注意力机制矩阵中用随机数进行初始化，在句子级别的注意力机制矩阵中只初始化首位权重，其余置为0；

步骤5：将步骤1中处理得到的embeddings嵌入量根据单词，短语，句子级别分别输入到网络中，即输入到Encoder部分的LSTM单元，中，得到隐藏单元(h₁，h₂，h₃，…，h_t)，Decoder部分中的隐藏单元设为s_t-1，每个输入位置j与当前输出位置的关联性可以表示为：

e_jt＝α(s_t-1，h_j)

向量化的表示成：

其中α是相关性运算符，通常情况下，运算符会取加权点乘，

对

进行softmax运算，就得到了Attention的归一化分布：

对α_t进行加权求和得到相应的文本向量：

可以计算得到Decoder的下一个隐藏单元，s_t＝f(s_t-1，y_t-1，c_t)，以及该位置的输出：

步骤6.、选择随机梯度下降算法作为优化器，结合交叉熵损失函数更新网络参数，按指数衰减调整学习率，学习率的初始值设置为1e-4；

步骤7、将训练好的模型中提取出来的网络关键文本输入到自定义的模板中，形成网页关键性信息摘要的提取。

与现有技术相比本发明具有的有益效果：本发明能够不需要根据HTML标签解析不同网页的内容，利用YEDA中文文本标注工具标注出网页中的机构名，地名，日期，货币，数字，工程名，工程内容，工程范围，工程规模，所属工程行业，工程施工阶段等信息，将标注好的数据输入到基于局部软注意力机制深度网络中，在深度网络模型中以LSTM作为基础网络，同时在单词级别，短语级别使用全局注意力机制，因为人类关注短语的时候肯定是有重点关注词汇的；在句子级别使用局部软注意力机制，因为人类写文本的时候，通常情况下的句子结构是总分总的形式，在句首和句尾的内容通常包含较大的信息量，便于精准提取大量的重要信息；

提取出来的网页关键性摘要信息可以根据自定义的模板，形成最终的关键性摘要文本，自定义的模板包括，工程名，工程内容，工程范围，工程规模，所属工程行业，工程施工阶段等；

用自定义的模板生成工程租赁场景下的网页关键文本信息，提取爬出的网页关键性摘要信息可以让人不用大量的阅览网页，快速获取感兴趣的内容。

附图说明

图1为本发明中局部软注意力机制深度网络结构示意图；

图2为本发明中局部软注意力机制在网络文本中的应用示意图；

图3为本实施例中用YEDA标注工具标注工程的相关信息示意图；

图4为本实施例中将标注的数据导出后是带标注的文本示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

YEDA：轻型协作文本跨度注释工具；

Jieba：结巴；

Embedding：嵌入；

Encoder模块：编码模块；

Attention模块：注意力机制模块；

Decoder模块：解码模块；

LSTM单元：长短期记忆单元；

word2vec：词向量模型；

softmax：Softmax函数，或称归一化指数函数，是逻辑函数的一种推广；

Query：查询；

Key：键；

Value：值；

compatibility function：适应度函数。

基于局部软注意机制的深度网络结构如图1所示。

局部软注意力机制在网络文本中的应用示意图如图2所示。

提取出来的网页关键性摘要信息可以根据自定义的模板，形成最终的关键性摘要文本。

自定义的模板包括，工程名，工程内容，工程范围，工程规模，所属工程行业，工程施工阶段等。

实施步骤：

步骤1：数据标注，利用开源的YEDA中文文本标注工具标注出关键文本内容,工程名，工程内容，工程范围，工程规模，所属工程行业，工程施工阶段等；

步骤2：首先将输入的网页文本分句子即根据中文句子起止符号、分短语即根据jieba分词粗分割、分词即根据jieba分词精分割，然后利用word2vec将分割后的中文词汇变成单词嵌入向量，得到序列embedding1、embedding2、…、embeddingt；

步骤3：构建局部软注意力机制模型，其网络结构如图1所示；

权重系数可以和后面的Decoder模块一起决定文本实体的输出；

全局注意力机制设置全局变量随机初始化和全部更新，局部注意力机制设置首尾的变量随机初始化，中间的变量设置为0并且设置只更新首尾的变量。

注意力机制的定义：注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，注意力机制可以快速提取稀疏数据的重要特征，它是一种编码序列的方案。一个注意力函数可以描述为将Query与一组键值对(Key-Value)映射到输出，其中Query、Key、Value和输出都是向量，输出可以通过值的加权和而计算得出，其中分配到每一个值的权重可通过Query和对应Key的适应度函数(compatibility function)计算。

局部软注意力机制：是在单词、短语部分应用全局注意力机制，在句子部分应用首尾重点关注的局部注意力机制，将单词、短语和句子部分的注意力机制全部合起来，我们就定义它为局部软注意力机制。

步骤4：局部软注意力机制模型进行参数初始化，在单词和短语级别的注意力机制矩阵中用随机数进行初始化，在句子级别的注意力机制矩阵中只初始化首位权重，其余置为0；

步骤5：将步骤1中处理得到的embeddings嵌入量根据单词，短语，句子级别等分别输入到网络中，即输入到图1中的Encoder部分的LSTM单元，中，得到隐藏单元(h₁，h₂，h₃，…，h_t)。图1中的Decoder部分中的隐藏单元设为s_t-1，每个输入位置j与当前输出位置的关联性可以表示为：

e_jt＝a(s_t-1，h_j)

向量化的表示成：

其中a是相关性运算符，通常情况下，运算符会取加权点乘，

对

进行softmax运算，就得到了Attention的归一化分布：

对α_t进行加权求和得到相应的文本向量：

可以计算得到Decoder的下一个隐藏单元，s_t＝f(s_t-1，y_t-1，c_t),以及该位置的输出：

步骤6：选择随机梯度下降算法作为优化器，结合loss更新网络参数，按指数衰减调整学习率，学习率的初始值设置为1e-4；

大多数机器学习或者深度学习算法都涉及某种形式的优化，优化指的是改变x以最小化或最大化某个函数f(x)的任务，我们通常以最小化f(x)指代大多数最优化问题，最大化可经由最小化算法最小化-f(x)来实现。

梯度下降：我们知道曲面上方向导数的最大值的方向就代表了梯度的方向，因此我们在做梯度下降的时候，应该是沿着梯度的反方向进行权重的更新，可以有效的找到全局的最优解，这个θ_i的更新过程可以描述为

a表示的是步长或者说是学习率(learning rate；

步骤7：将训练好的模型中提取出来的网络关键文本输入到自定义的模板中，最终形成网页关键性信息摘要的提取。

实施例子：

步骤1：首先用YEDA标注工具标注工程相关信息，如图3所示：

其中B_ProName代表的是项目名称的标注，B_OverViewKey是标注的工程租赁场景下的相关信息的键，B_OverViewValue标注的是工程租赁场景下相关信息的值，B_ProTime标注的是工程租赁场景下的时间，B_ProCaptial标注的是工程租赁场景下的地点，B_ProNo标注的是工程租赁场景下的工程编号，Other是工程租赁的其他信息。

将标注的数据导出后是带标注的文本如图4所示：

步骤2：对文本利用结巴分词，分为单词和短语模式：

原文："332429""新疆第二师铁门关市司法局司法业务用房建设项目""新疆维吾尔自治区直辖县级行政区划第二师铁门关市""兴建一幢4层司法业务用房,建筑面积2275平方米,占地面积677.13平方米.

单词模式分词结果："/332429/"//"/新疆/第二/师/铁门/铁门关/市/司法/司法局/司法/业务/用房/建设/建设项目/项目/"//"/新疆/新疆维吾尔/新疆维吾尔自治区/维吾尔/自治/自治区/自治/自治区/区直/直辖/县级/行政/行政区/行政区划/政区/区划/第二/师/铁门/铁门关/市/"//"/兴建/一幢/4/层/司法/业务/用房/,///建筑/建筑面积/面积/2275/平方/平方米/,///占地/占地面积/地面/面积/677/./13/平方/平方米/.

短语模式分词结果:"/332429/"//"/新疆/第二/师/铁门关/市/司法局/司法/业务/用房/建设项目/"//"/新疆维吾尔自治区/自治区/直辖/县级/行政区划/第二/师/铁门关/市/"//"/兴建/一幢/4/层/司法/业务/用房/,//建筑面积/2275/平方米/,//占地面积/677.13/平方米/.

步骤3：上面是本发明中一个标准的数据标注和分词模式方法，大量的文本是重复上述步骤1和步骤2，将分词得到的单词和短语级别的中文通过word2vec转换为计算机可以处理的数字量，将整句话通过word2vec转换为计算机可以处理的数字量。将单词，短语和句子的数字量作为输入，输入到本发明构建的深度网络中，其对应的标签就是标注的B_ProName，B_OverViewKey，B_OverViewValue，B_ProTime，B_ProCaptial，B_ProNo，Other。

步骤4：利用随机梯度下降算法作为优化器，结合loss更新网络参数，按指数衰减调整学习率，学习率的初始值设置为1e-4。得到最终的参数最优的深度网络

步骤5：利用训练好的参数最优的深度网络预测新的数据，得到对应的标签，可以判断出其中的项目名称，键值对，时间，地点，编号等。

步骤6：根据自定义的模板组合可以得到租赁场景下网页文本的关键信息。

对步骤1中的文本重新组织输出就是：

新疆第二师铁门关市司法局司法业务用房建设项目，工程地点：新疆维吾尔自治区自治区直辖县级行政区划第二师铁门关市，工程内容：兴建一幢4层司法业务用房，建筑面积：2275平方米,占地面积：677.13平方米，编号：332429。

将工程租赁场景下的网页文本进行实体标注和实体识别，一般情况下的通用的实体标注是人名，地点，时间等，不包含工程信息。

将单词，短语，句子级别根据人类关注重点，利用深度网络中的注意机制关联它们，首次实现单词，短语，以及句子之间有层次的，兼顾局部与全局的特性的深度网络结构。

利用自定义的模板生成工程租赁场景下的网页关键文本信息，快速从大量网页信息中提取出文本信息。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。