CN114969601A

CN114969601A - 一种基于深度学习的个人主页信息提取方法及装置

Info

Publication number: CN114969601A
Application number: CN202210546058.0A
Authority: CN
Inventors: 田悦霖; 王路路; 于凯; 刘佳
Original assignee: Beijing Zhipu Huazhang Technology Co ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-30

Abstract

本申请提出的基于深度学习的个人主页信息提取方法、装置及存储介质，获取个人主页网址对应的网页，并对网页进行数据清洗得到网页文本语料，将网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列，将词向量序列输入至目标模型中，得到对应的句向量，将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签，将分类标签与句向量对应的网页内容输出。由此可知，本申请完整提取网页中的内容，提高了提取效果、适用范围较广、降低了计算资源的消耗。

Description

一种基于深度学习的个人主页信息提取方法及装置

技术领域

本申请涉及信息提取领域，尤其涉及一种基于深度学习的个人主页信息提取方法、装置及存储介质。

背景技术

信息技术的迅速发展导致万维网信息量爆炸式增长，网页资源成为了信息获取的第一选择。其中，全球的专家学者众多，随着互联网技术的发展，学术界大部分学者都在网站中建立了自己的个人主页并定期会对个人主页进行维护更新，学者的个人主页中包含学者的工作经历、教育经历、研究兴趣、发表论文情况等信息可作为学者画像、人才引进等任务的重要支撑，因此，需要对学者的个人主页信息进行提取研究。但是，学者的个人主页可能来源于不同站点，嘈杂的页面内容、半结构化的数据格式和五花八门的页面布局都使页面信息提取成为一个巨大的挑战。

相关技术中，基于模板的方法/基于统计信息的方法/基于视觉分块的方法对网页的信息进行提取。但是，相关技术中基于模板的方法主要用来解决特定网站的信息抽取问题，同时需要大量的人工分析且不同站点需要不同的模板，通用性较差；相关技术中基于统计的方法是针对抽取网页正文信息进行研究，对于网页中更为具体的工作经历、教育经历、研究兴趣等细粒度信息的抽取不能提供直接帮助；相关技术中基于视觉分块的方法需要先进行页面渲染，个人主页变动较快，利用视觉分块的方法实时抽取会消耗大量计算资源。

发明内容

本申请提供一种基于深度学习的个人主页信息提取方法、系统及存储介质，以解决上述方法中通用性较差、提取内容不完整、计算资源消耗大的技术问题。

本申请第一方面实施例提出一种基于深度学习的个人主页信息提取方法，所述方法包括：

获取个人主页网址对应的网页，并对所述网页进行数据清洗得到网页文本语料；

将所述网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列；

将所述词向量序列输入至目标模型中，得到对应的句向量；

将所述句向量输入至目标卷积神经网络中，得到所述句向量对应的分类标签，将所述分类标签与所述句向量对应的网页内容输出。

可选的，所述对所述网页进行数据清洗得到网页文本语料，包括：

获取所述网页对应的超文本标记语言HTML文档；

根据所述HTML文档中具有换行功能的标签所处的位置，对HTML文档进行换行处理；

解析所述HTML文档，并对所述HTML文档进行去空行处理，得到网页文本语料。

可选的，所述将所述网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列，包括：

将所述网页文本语料切分为多个子句子序列，在每个子句子序列头部插入token([CLS])得到对应的每个句子序列；

所述每个句子序列通过匹配词嵌入表得到每个句子序列对应的词嵌入序列；

将所述每个词嵌入序列填充为等长序列，得到对应的词向量序列。

可选的，所述将所述词向量序列输入至目标模型中，得到对应的句向量，包括：将所述词向量序列输入至目标BERT中，得到对应的句向量。

可选的，所述将所述句向量输入至目标卷积神经网络中，得到所述句向量对应的分类标签，包括：通过目标卷积网络对输入的句向量进行一维卷积操作，将临近句向量的特征相互融合，结合上下文语义得出所述句向量的分类标签。

可选的，所述将所述句向量输入至目标卷积神经网络中，得到所述句向量对应的分类标签，之前，还包括：

构建预设卷积神经网络，并随机生成预设卷积神经网络中的参数值；

获取用于训练所述预设卷积神经网络的训练句向量；

将所述训练句向量输入预设卷积神经网络进行一维卷积操作后，得到预测分类标签；

将所述训练句向量输入至Sigmoid分类器得到所述训练句向量对应的目标分类标签；

计算所述预测的分类标签与所述目标分类标签的交叉熵损失，根据交叉熵损失调整所述预设神经网络的参数，得到目标卷积神经网络。

本申请第二方面实施例提出一种基于深度学习的个人主页信息提取装置，包括：

第一数据处理模块，用于获取个人主页网址对应的网页，并对所述网页进行数据清洗得到网页文本语料；

第二数据处理模块，用于将所述网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列；

第一模型处理模块，用于将所述词向量序列输入至目标模型中，得到对应的句向量；

第二模型处理模块，用于将所述句向量输入至目标卷积神经网络中，得到所述句向量对应的分类标签，将所述分类标签与所述句向量对应的网页内容输出。

本申请第三方面实施例提出的计算机设备，其中，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时，能够实现如上第一方面所述的方法。

本申请第四方面实施例提出的计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现如上第一方面所述的方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请提出的基于深度学习的个人主页信息提取方法、装置及存储介质，获取个人主页网址对应的网页，并对网页进行数据清洗得到网页文本语料，将网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列，将词向量序列输入至目标模型中，得到对应的句向量，将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签，将分类标签与句向量对应的网页内容输出。由此可知，本申请通过对网页进行数据清洗，得到纯文本的网页文本语料，以使得完整提取网页中的内容，提高了提取效果，同时本申请中的目标卷积神经网络是对句向量进行卷积，将临近句向量的特征相互融合，结合上下文语义对当前语义进行推断，从而使得得到的分类标签的结果更加精确，同时可以直接分析出网页文本语料的分类标签，适用范围较广。此外，本申请无需对网页进行页面渲染，降低了计算资源的消耗。

此外，本申请提出的方法，可以通过协调控制器对一组PCS进行集中控制管理，并对一组PCS进行实时策略检测及控制，以使得当设备发生故障时，协调控制器可以及时响应并重新分配功率，降低了系统的安全风险。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例提供的基于深度学习的个人主页信息提取方法的流程示意图；

图2为根据本申请一个实施例提供的基于深度学习的个人主页信息提取装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于深度学习的个人主页信息提取方法及装置。

实施例一

图一为根据本申请一个实施例提供的基于深度学习的个人主页信息提取方法的流程示意图，如图1所示，可以包括：

步骤101、获取个人主页网址对应的网页，并对网页进行数据清洗得到网页文本语料。

其中，在本申请的一个实施例之中，可以获取多个对于同一个人的个人主页网址。以及，在本申请的一个实施例之中，上述个人主页具体可以为关注的学者的个人主页。

以及，在本申请的一个实施例之中，可以通过web框架的Flask封装接口，获取用户输入的个人主页网址，以请求方式为POST，json格式将数据进行传输。

进一步地，在本申请的一个实施例之中，对网页进行数据清洗得到网页文本语料的方法可以包括以下步骤：

步骤1011、获取网页对应的HTML(超文本标记语言)文档。

其中，在本申请的一个实施例之中，可以通过python的URL处理包打印获取的个人主页网址对应的HTML源码，然后得到网页对应的HTML文档。

步骤1012、根据HTML文档中具有换行功能的标签所处的位置，对HTML文档进行换行处理。

其中，在本申请的一个实施例之中，HTML文档具有换行功能的标签可以包括：<Br/>、<h>、<p>。以及，在本申请的一个实施例之中，

步骤1013、解析HTML文档，并对HTML文档进行去空行处理，得到网页文本语料。

其中，在本申请的一个实施例之中，可以通过Python XML库中的lxml解析器对HTML文档进行解析，并通过定义的get_text()函数去掉HTML中所有标签，得到该HTML文档中的纯文本内容。

以及，在本申请的一个实施例之中，可以对上述得到的纯文本内容进行分句处理与去空行处理，以得到以一句话为一行的纯文本网页文本语料。

步骤102、将网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列。

其中，在本申请的一个实施例之中，将网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列的方法可以包括以下步骤：

步骤1021、将网页文本语料切分为多个子句子序列，在每个子句子序列头部插入token([CLS])得到对应的每个句子序列。

其中，在本申请的一个实施例之中，可以使用Tokenization技术将网页文本语料分割为token的多个子句子序列，在每个子句子序列头部插入token([CLS])得到对应的每个句子序列。

步骤1022、每个句子序列通过匹配词嵌入表得到每个句子序列对应的词嵌入序列。

其中，在本申请的一个实施例之中，每个句子序列通过匹配词嵌入表之后，可以量化为具体的id，再转换为tensor输出，即对应的词嵌入序列。

步骤1023、将每个词嵌入序列填充为等长序列，得到对应的词向量序列。

其中，在本申请的一个实施例之中，在返回的向量中会对每句长度进行限制，超出限制的部分进行截断，以提高处理效率，从而需要对词嵌入序列进行填充，使得每个词嵌入序列为等长序列。

以及，在本申请的一个实施例之中，可以通过填充0对词嵌入序列进行填充，并利用attention_mask向量掩盖填充位置，以避免训练时注意力集中于无意义词。

进一步地，在本申请的一个实施例之中，将以上填充过的两个变长序列：词向量序列与attention_mask序列分别进行压紧操作，构建为Python字典数据，并随机打乱后分批次输入至后续的目标模型中。

步骤103、将词向量序列输入至目标模型中，得到对应的句向量。

其中，在本申请的一个实施例之中，目标模型可以是目标BERT。

以及，在本申请的一个实施例之中，将词向量序列输入至目标模型中，得到对应的句向量的方法可以包括：将词向量序列输入至目标BERT中，得到对应的句向量。

进一步地，在本申请的一个实施例之中，目标BERT可以通过字符token(CLS)聚集整个词向量序列表征信息，然后获取token(CLS)的embedding作为对应的句向量。

以及，在本申请的一个实施例之中，上述句向量可以包括高阶语义信息。

步骤104、将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签，将分类标签与句向量对应的网页内容输出。

其中，在本申请的一个实施例之中，将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签的方法可以包括：通过目标卷积网络对输入的句向量进行一维卷积操作得到句向量的分类标签。

以及，在本申请的一个实施例之中，一维卷积操作可以包括：

卷积层的输入形状为(N,C_in,L)，输出形状为(N,C_out,L_out)，卷积层的输出值可以被以下公式精确描述：

其中，上式中*表示有效的互相关操作，N为batch_size,C表示通道的个数，L为输入信号序列的长度。

进一步地，在本申请的一个实施例之中，将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签，之前，还可以包括以下步骤：

步骤1041、构建预设卷积神经网络，并随机生成预设卷积神经网络权值。

其中，在本申请的一个实施例之中，预设卷积神经网络包括上述一维卷积操作。

步骤1042、获取用于训练预设卷积神经网络的训练句向量。

步骤1043、将训练句向量输入预设卷积神经网络进行一维卷积操作后，得到预测分类标签。

其中，在本申请的一个实施例之中，预设卷积神经网络获取训练句向量后，进行nn.dropout()操作，使该预设卷积神经网络中的某个神经元的激活值以一定的概率p，让其停止工作，此次训练过程中不更新预设卷积网络的权值，也不参加预设卷积神经网络的计算。

步骤1044、将训练句向量输入至Sigmoid分类器得到训练句向量对应的目标分类标签。

其中，在本申请的一个实施例之中，上述Sigmoid分类器可以根据句向量得出该句向量对应的分类标签。

步骤1045、计算预测的分类标签与目标分类标签的交叉熵损失，根据交叉熵损失调整预设卷积神经网络的权值，得到目标卷积神经网络。

其中，在本申请的一个实施例之中，根据计算得到的交叉熵损失调整预设卷积神经网络的权值矩阵，直至该预设卷积神经网络收敛，得到目标卷积神经网络。

此外，在本申请的一个实施例之中，将分类标签与句向量对应的网页内容，通过前端页面呈现给用户。

本申请提出的基于深度学习的个人主页信息提取方法，获取个人主页网址对应的网页，并对网页进行数据清洗得到网页文本语料，将网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列，将词向量序列输入至目标模型中，得到对应的句向量，将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签，将分类标签与句向量对应的网页内容输出。由此可知，本申请通过对网页进行数据清洗，得到纯文本的网页文本语料，以使得完整提取网页中的内容，提高了提取效果，同时本申请中的目标卷积神经网络是对句向量进行卷积，将临近句向量的特征相互融合，结合上下文语义对当前语义进行推断，从而使得得到的分类标签的结果更加精确，同时可以直接分析出网页文本语料的分类标签，适用范围较广。此外，本申请无需对网页进行页面渲染，降低了计算资源的消耗。

实施例二

图二为根据本申请一个实施例提供的基于深度学习的个人主页信息提取装置的结构示意图，如图2所示，可以包括：

第一数据处理模块201，用于获取个人主页网址对应的网页，并对网页进行数据清洗得到网页文本语料；

第二数据处理模块202，用于将网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列；

第一模型处理模块203，用于将词向量序列输入至目标模型中，得到对应的句向量；

第二模型处理模块204，用于将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签，将分类标签与句向量对应的网页内容输出。

本申请提出的基于深度学习的个人主页信息提取装置，获取个人主页网址对应的网页，并对网页进行数据清洗得到网页文本语料，将网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列，将词向量序列输入至目标模型中，得到对应的句向量，将句向量输入至目标卷积神经网络中，得到句向量对应的分类标签，将分类标签与句向量对应的网页内容输出。由此可知，本申请通过对网页进行数据清洗，得到纯文本的网页文本语料，以使得完整提取网页中的内容，提高了提取效果，同时本申请中的目标卷积神经网络是对句向量进行卷积，将临近句向量的特征相互融合，结合上下文语义对当前语义进行推断，从而使得得到的分类标签的结果更加精确，同时可以直接分析出网页文本语料的分类标签，适用范围较广。此外，本申请无需对网页进行页面渲染，降低了计算资源的消耗。

为了实现上述实施例，本公开还提出一种计算机存储介质。

本公开实施例提供的计算机存储介质，存储有可执行程序；所述可执行程序被处理器执行后，能够实现如图1任一所示的方法。

为了实现上述实施例，本公开还提出一种计算机设备。

本公开实施例提供的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；所述处理器执行所述程序时，能够实现如图1任一所示的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的个人主页信息提取方法，其特征在于，所述方法包括：

将所述词向量序列输入至目标模型中，得到对应的句向量；

2.根据权利要求1所述的方法，其特征在于，所述对所述网页进行数据清洗得到网页文本语料，包括：

获取所述网页对应的超文本标记语言HTML文档；

3.根据权利要求1所述的方法，其特征在于，所述将所述网页文本语料进行分词，并通过匹配对应的词嵌入表得到词向量序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述词向量序列输入至目标模型中，得到对应的句向量，包括：将所述词向量序列输入至目标BERT中，得到对应的句向量。

5.根据权利要求1所述的方法，其特征在于，所述将所述句向量输入至目标卷积神经网络中，得到所述句向量对应的分类标签，包括：通过目标卷积网络对输入的句向量进行一维卷积操作得到所述句向量的分类标签。

6.根据权利要求5所述的方法，其特征在于，所述一维卷积操作，包括：

卷积层的输入形状为(N,C_in,L)，输出形状为(N,C_out,L_out)，卷积层的输出值为：

其中，*表示有效的互相关操作，N为batch_size,C表示通道的个数，L为输入信号序列的长度。

7.根据权利要求1所述的方法，其特征在于，所述将所述句向量输入至目标卷积神经网络中，得到所述句向量对应的分类标签，之前，还包括：

构建预设卷积神经网络，并随机生成预设卷积神经网络权值；

获取用于训练所述预设卷积神经网络的训练句向量；

计算所述预测的分类标签与所述目标分类标签的交叉熵损失，根据交叉熵损失调整所述预设卷积神经网络的权值，得到目标卷积神经网络。

8.一种基于深度学习的个人主页信息提取装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的方法。

10.一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现权利要求1-7中任一所述的方法。