CN115438183B

CN115438183B - 基于自然语言处理的业务网站监测系统

Info

Publication number: CN115438183B
Application number: CN202211059228.9A
Authority: CN
Inventors: 钟志宏; 陈肇文; 徐永兴
Original assignee: Guangzhou Polinked Technology Co ltd
Current assignee: Guangzhou Polinked Technology Co ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2023-07-04
Anticipated expiration: 2042-08-31
Also published as: CN115438183A

Abstract

本申请属于互联网及人工智能技术领域，涉及基于自然语言处理的业务网站监测系统，包括：数据在线处理子系统通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据并发送至数据采集清洗子系统，数据采集清洗子系统对第一业务网站数据进行清洗得到第二业务网站数据并发送至数据资源管理子系统，数据资源管理子系统将来自数据采集清洗子系统的第二业务网站数据传输至数据分析应用子系统，数据分析应用子系统利用经训练的基于Transformer架构的预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析，该基于Transformer架构的预训练语言模型利用目标业务领域的文本语料训练得到；该方案能够提高对业务网站数据监测分析的准确性和效率。

Description

基于自然语言处理的业务网站监测系统

技术领域

本申请涉及互联网及人工智能技术领域，特别是涉及一种基于自然语言处理的业务网站监测系统。

背景技术

近年来，随着互联网技术的快速发展，信息的传递和交流更加便捷和快速，网络成为信息传播的主要渠道和重要方式。一些特定业务领域的门户网站在业务信息公开方面起到了举足轻重的作用，需要保证该些业务领域的门户网站所发布的数据信息正确无误，避免出现错漏，由此就需要对其网站数据进行准确的监测。

在目前的相关技术中，其提供的监测系统对网页数据进行分析时主要基于规则和专家系统，即通过专家从语言学角度分析自然语言的结构规则，来达到分析网页数据的目的。但是由于语言表达的多样性使得规则库和专家系统无法涵盖所有的语言样式，导致其误判率较高，进而造成人工复核工作量也随之升高，也降低了监测分析效率。

发明内容

基于此，有必要针对上述技术问题，提供一种基于自然语言处理的业务网站监测系统。

本申请提供了一种基于自然语言处理的业务网站监测系统，所述系统包括：数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统；其中，

所述数据在线处理子系统，用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据，发送至所述数据采集清洗子系统；

所述数据采集清洗子系统，用于对所述第一业务网站数据进行清洗得到第二业务网站数据，将所述第二业务网站数据发送至所述数据资源管理子系统；

所述数据资源管理子系统，用于将来自所述数据采集清洗子系统的第二业务网站数据传输至所述数据分析应用子系统；

所述数据分析应用子系统，用于获取经训练的基于Transformer架构的预训练语言模型，利用所述预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进行分析；其中，所述基于Transformer架构的预训练语言模型利用所述目标业务领域的文本语料训练得到。

在一个实施例中，所述Encoder结构对应的运算方式为：

其中，X表示Encoder结构输入，Y_Encoder表示Encoder结构输出，MHA(X)表示Transformer结构的输出，LayerNorm(.)表示对矩阵进行归一化运算，FeedForward(L1)表示全连接层的输出。

在一个实施例中，所述数据分析应用子系统，进一步用于利用所述目标业务领域的文本语料进行掩码训练，得到所述基于Transformer架构的预训练语言模型。

在一个实施例中，数据分析应用子系统，还用于利用GPU线程对掩码的文本语料进行训练，以及利用CPU对下一批文本语料进行掩码处理。

在一个实施例中，所述数据分析应用子系统，进一步用于在训练过程中，根据所述基于Transformer架构的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标，得到输出序列的掩码表示，根据所述输出序列的掩码表示计算掩码位置对应的词表上的概率分布矩阵，根据所述概率分布矩阵计算交叉熵损失，根据所述交叉熵损失调整每一Transformer Encoder结构的网络参数。

在一个实施例中，所述数据分析应用子系统，进一步用于获取通用文本语料库和所述目标业务领域的文本语料库，利用所述通用文本语料库中的通用文本语料进行掩码训练得到初步的基于Transformer架构的预训练语言模型，在所述初步的基于Transformer架构的预训练语言模型的基础上，利用所述目标业务领域的文本语料库中的文本语料进行掩码训练，得到所述基于Transformer架构的预训练语言模型。

在一个实施例中，所述数据在线处理子系统进一步用于对输出的第一业务网站数据进行打包处理，并在打包的数据包中添加安全校验信息；

所述数据采集清洗子系统进一步用于对所述安全校验信息进行校验后解包得到第一业务网站数据；其中，所述安全校验信息包括间隔性地对第一业务网站数据进行解密所使用的密钥打上的使用时间标签；

所述数据采集清洗子系统预先接收一份密钥使用列表，并根据所述密钥使用列表中记录的对第一业务网站数据解密所使用的密钥及其前后时间关联性对第一业务网站数据的数据包进行校验。

在一个实施例中，所述数据在线处理子系统进一步用于对输出的第一业务网站数据的关键字进行识别；根据所述关键字识别所述第一业务网站数据的重要性程度并划分等级，并分别对所述第一业务网站数据打上等级标签；其中，所述等级包括高级、中级和低级；

所述数据采集清洗子系统进一步用于对所述高级等级的第一业务网站数据进行逐条清洗处理，对所述中级等级的第一业务网站数据清除异常数据后再进行清洗处理，以及对所述低级等级的第一业务网站数据清除异常数据且对同类数据融合后进行清洗处理，输出第二业务网站数据。

在一个实施例中，所述数据分析应用子系统进一步用于对所述第二业务网站数据进行分析时，向数据采集清洗子系统实时反馈数据训练状态；

所述数据采集清洗子系统进一步用于根据所述数据训练状态，并计算出所需使用的数据清洗函数表中的目标数据清洗函数；其中，数据采集清洗子系统中预存有数据清洗函数表，所述数据清洗函数表上记录有多种不同的数据清洗函数；从所述数据清洗函数表中读取所述目标数据清洗函数对第一业务网站数据进行清洗处理。

在一个实施例中，所述数据采集清洗子系统进一步用于将目标数据清洗函数以及当前的数据清洗进度信息反馈至数据在线处理子系统；

所述在线处理子系统进一步用于根据目标数据清洗函数以及数据清洗进度信息，对数据采集清洗子系统的数据处理量进行预测分析；并根据所述预测分析结果确定数据采集清洗子系统的数据处理能力值，根据所述数据处理能力值对输出的第一业务网站数据进行优化处理；其中，所述优化处理包括：若数据处理能力值低于设定阈值，调整对低级等级的第一业务网站数据进行融合处理时的融合程度，或者根据设定规则抛弃部分低级等级的第一业务网站数据。

在一个实施例中，所述数据在线处理子系统，进一步用于：通过互联网接收由属于目标业务领域的受监测业务网站发送的加密的第一业务网站数据；根据所述加密的第一业务网站数据的发送时间，从预置的密钥库中获取所述发送时间对应的密钥；利用所述发送时间对应的密钥对所述加密的第一业务网站数据进行解密，得到所述第一业务网站数据，发送至所述数据采集清洗子系统。

在一个实施例中，所述数据分析应用子系统，进一步用于：确定所述第一业务网站数据对应的发布平台；根据所述发布平台，从模型库中获取所述发布平台对应的经训练的基于Transformer架构的预训练语言模型，利用该预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进行分析。

上述基于自然语言处理的业务网站监测系统，包括数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统；数据在线处理子系统用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据并发送至数据采集清洗子系统，数据采集清洗子系统用于对第一业务网站数据进行清洗得到第二业务网站数据并发送至数据资源管理子系统，数据资源管理子系统用于将来自数据采集清洗子系统的第二业务网站数据传输至数据分析应用子系统，数据分析应用子系统用于获取经训练的基于Transformer架构的预训练语言模型，利用预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析，该基于Transformer架构的预训练语言模型利用目标业务领域的文本语料训练得到，该系统在对业务网站数据进行分析时采用了自然语言处理技术，运用预训练语言模型可从大规模语料中学习知识，提高对业务网站数据监测分析的准确性和效率。

附图说明

图1为本申请实施例中基于自然语言处理的业务网站监测系统的结构示意图；

图2为本申请实施例中计算机设备的内部结构图；

图3是一个示例的数据采集清洗子系统的清洗示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，本申请提供了一种基于自然语言处理的业务网站监测系统，包括数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统。其中，每一子系统均可用计算机设备实现，该计算机设备可以是服务器或者是多个服务器组成的服务器集群。

作为实施例，图2示出了一种计算机设备的内部结构图，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务网站数据等数据。该计算机设备的网络接口可用于与外部的设备通过网络连接通信。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

具体的，结合图2，本申请实施例提供的基于自然语言处理的业务网站监测系统中，数据在线处理子系统，用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据，发送至数据采集清洗子系统。对于数据在线处理子系统，具体可基于Java开发，实现多节点、多进程、多线程并发的方式进行业务网站数据的采集，具体可部署在麒麟系统、Linux或Windows服务器上，实现基于互联网的业务网站数据的采集处理，数据在线处理子系统可部署在外网，通过互联网接收由属于目标业务领域(可指定一些特定的业务领域)的受监测业务网站提供的第一业务网站数据，然后发送至监测系统的数据采集清洗子系统。

数据采集清洗子系统，用于对第一业务网站数据进行清洗得到第二业务网站数据，将第二业务网站数据发送至数据资源管理子系统。对于数据采集清洗子系统，具体可采用主从分离的分布式架构，在保证高效率数据采集的同时，也具备高可用性、高扩展性、快速定制采集规则等能力，从而保证数据在线处理子系统拥有增量式采集、按主题分类采集、可定制化采集的强大功能，可实现从底层优化采集效率，也可对抓取节点进行横向扩展，保障数据采集高效性。数据采集清洗子系统中，数据层的存储解决方案可使用HBase+Elasticsearch的组合，均是基于Java开发的，其中Elasticsearch具备强大的数据索引、快速搜索和海量存储能力。该数据采集清洗子系统也可部署在外网，接收数据在线处理子系统发送的第一业务网站数据进行清洗得到第二业务网站数据，然后将第二业务网站数据发送至该监测系统的数据资源管理子系统。

数据资源管理子系统，用于将来自数据采集清洗子系统的第二业务网站数据传输至数据分析应用子系统。对于数据资源管理子系统，具体可通过开源的分布式数据存储组件，如Minio、HBase、Hive等，实现对文本文件、网页文件、PDF文档、Office文档等常见的数据类型提供统一的网页数据管理能力，还可从文本中提取关键信息、实体识别、实体属性等，构建领域知识图谱，对外提供知识服务。该数据资源管理子系统可部署在内网，接收来自数据采集清洗子系统的第二业务网站数据并传输至数据分析应用子系统。

数据分析应用子系统，可部署在内网，用于获取经训练的基于Transformer架构的预训练语言模型，以及接收来自数据资源管理子系统的第二业务网站数据，从而利用预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析；其中，基于Transformer架构的预训练语言模型利用目标业务领域的文本语料训练得到。

对于数据分析应用子系统中所运用的基于Transformer架构的预训练语言模型，具体的，基于Transformer机制的超大规模预训练语言模型(bidirectionalencoderrepresentation from transformers，BERT)，相比于传统自然语言方法，从准确性和实用性等方面取得了重大突破，为自然语言处理(natural language processing，NLP)提供了新范式。利用无监督方法对一个或者多个原任务构建初始训练模型，再结合场景任务进行模型训练。相比传统的NLP算法，以BERT为代表的预训练语言模型显著降低了文本人工标注的工作量，基于小量样本就能达到较高的性能。

自然语言数据的分析和理解需要专业背景知识和概念推理过程。相对通用NLP算法应用，在一些特定的业务领域(表述为前述目标业务领域)的文本语料数据分析发展相对缓慢，并存在如下挑战：第一，缺乏高质量语料库；超大规模预训练语言模型中的待训练参数达到百兆甚至千兆字节级，各类开源的通用预训练模型，其预训练语料库多采用如维基百科、新闻、社区问答等语料，由此，专门针对该些特定的业务领域的文本语料开展预训练需要海量的专业语料数据积累。第二，通用领域的词汇分布与该些特定的业务领域的词汇差异较大，难以通过通用语言模型实进行理解学习。因此基于特定的业务领域的文本语料训练自然语言分析十分必要。

本申请实施例的数据分析应用子系统中所运用的基于Transformer架构的预训练语言模型，可以依次包括：嵌入层、多层Transformer Encoder结构和输出层。其中，具体的，基于Transformer架构的预训练语言模型的基本框架基于BERT，由嵌入层、多层Transformer Encoder结构和输出层构成，输入的原始语料可记为X_GmBERT。对于嵌入层，嵌入层可以包括字嵌入部分、块嵌入部分和位置嵌入部分，嵌入层将输入的语料中的字符的编码和位置转化成对应向量信息。其中，输入的原始语料X_GmBERT经过嵌入层运算的输出矩阵表示为Y_Embedings。具体的，嵌入层用于将原始语料X_GmBERT中的文本输入序列处理成BERT所能进行计算的向量矩阵，为了能完整地表示文本语料信息，每一段输入的文本都将拆解为字、块、位置3个嵌入矩阵。字嵌入部分是通过词向量矩阵Wt将原始文本X_GmBERT转化成实值向量Vt，即：V^t＝X_GmBERT*W^t式(1)。式(1)中，词向量矩阵Wt中每一行代表的具体词汇记录采用独热编码(One-hotEncoding)方式记录在词表向量Vt中。块嵌入部分用于表示编码当前词属于哪一个块；位置嵌入部分用于表示每个词的绝对位置，当同一个单词重复出现在同一句子中的不同位置时，可通过块向量予以区分。

对于每层Transformer Encoder结构，可以包括Transformer结构和Encoder结构，Transformer结构用于捕获语料中的内在涵义，Encoder结构用于每一层权值的合并链接以及归一化，第一层Transformer Encoder结构的输入是原始语料X_GmBERT经嵌入层运算的输出矩阵表示Y_Embedings，后续层Transformer Encoder结构的输入是前一层TransformerEncoder结构的输出，最后一层Transformer Encoder结构的输出对应于模型的输出序列Y_GmBERT。

具体的，Transformer结构主要包括多头注意力层(Multi-HeadAttention)，它由多个自注意力层(Self-Attention)组合形成，设多头注意力层的输入为矩阵X_MHA，则可以根据下式(2)计算得到自注意力层的输入Q,K,V，在输入自注意力层(Self-Attention)进行计算，计算结果通过拼接以及线性变换后作为本层的输出矩阵Y_MHA。其中，式(2)为：

式(2)中，W_Q、W_K、W_V为待训练的变换参数矩阵。

自注意力层是注意力模型的一种特殊形式，本质是对输入向量的一种加权求和，它的计算方法如下式(3)所示：

式(3)中，Q,K,V为公式输入矩阵；d_k为输入矩阵的维度；f_softmax(.)为激活函数。相比于传统循环神经网络模型(如LSTM、RNN、ELMo等)自注意力层中，采用自注意力层可以无视词的距离，所有字都是全部同时训练的，各时刻可以独立计算，不存在信息衰减。既提高了其运算效率，也解决了传统循环神经网络模型在运算过程中的长距离衰减问题。

具体的，Encoder结构主要包括归一化层和全连接层，其计算方法如下下式(4)所示：

式(4)中，X表示Encoder结构输入；MHA(X)为Transformer结构的输出；LayerNorm(.)为对矩阵进行归一化运算；FeedForward(L₁)为全连接层的输出，本申请中全连接层可以包括两层全连接神经网络，第一层采用Relu作为激活函数，第二层不使用激活函数，具体模型如下式(5)所示：

FeedForward(X)＝max(0,XW₁+b₁)W₂+b₂(5)

其中，X表示全连接层的输入，W₁、W₂、b₁、b₂表示全连接层中待训练参数。

基于此，作为一个实施例，数据分析应用子系统进一步用于利用目标业务领域的文本语料进行掩码训练，得到基于Transformer架构的预训练语言模型。

本实施例基于掩码训练思路训练得到基于Transformer架构的预训练语言模型，可预先将输入语料中的词或实体掩码利用上下文信息还原掩码位置的词汇。该训练方式可以避免传统NLP算法中存在的信息暴露缺陷问题(算法从逆向模型中反推正向模型中需要预测的词)。在其中一些实施例中，掩码可以包含字符掩码、实体掩码和片段掩码中的一种或多种，也即可以进一步在通用BERT的字符掩码基础上增加实体掩码、片段掩码等多种掩码机制交叉组合的预训练机制，以及训练过程中的掩码机制动态加载策略，避免多轮训练中重复陷入局部最优问题，增强了模型的文本理解能力。

示例性的，设原始语料X_GmBERT对应的文本输入序列为a1,a2,a3,……,an，对其进行掩码后的文本输入序列(即掩码的文本语料)为

其中被掩盖的字符的下标集合为T＝{t₁,t₂,t₃,……,t_s}，s表示被掩盖字符的总数量，且任意被掩盖字符t_n<预设值N。一次原始语料X_GmBERT的输入如下式(6)所示：

设每次训练输入的原始语料X_GmBERT的长度为M，若文本序列长度小于M-2则需要进行补齐操作，补齐操作标记设为“[PAD]”，则训练文本的输入如式(7)所示：

若文本序列长度大于M-2，则将文本截断至-2，再进行输入。

在掩码训练过程中，一般的掩码方式为掩盖单个字符，这种情况下预训练模型可能根据前后词即可猜出被掩盖内容，从而弱化了对整个句子的理解能力，因此，在一些实施例中，掩码可以包含字符掩码、实体掩码和片段掩码中的一种或多种。具体的，可采用字符掩码+实体掩码+片段掩码的交叉训练策略。

在一些实施例中，数据分析应用子系统，还用于利用GPU线程对掩码的文本语料进行训练，以及利用CPU对下一批文本语料进行掩码处理。

本实施例中，数据分析应用子系统可采用实时动态掩码(Dynamic Masking)机制，将训练进程拆分为两个线程，CPU线程和GPU线程，CPU线程负责实时动态掩码操作，即利用CPU对下一批文本语料进行掩码处理，GPU线程负责对掩码的样本进行训练，即利用GPU线程对掩码的文本语料进行训练。这样，在GPU线程训练一批样本时，CPU对下一批样本进行掩码，从而充分利用计算资源，并缩短了训练时间，提高了训练的效率和完整度。

在一些实施例中，数据分析应用子系统，进一步用于在训练过程中，根据基于Transformer架构的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标，得到输出序列的掩码表示，根据输出序列的掩码表示计算掩码位置对应的词表上的概率分布矩阵，根据概率分布矩阵计算交叉熵损失，根据交叉熵损失调整每一TransformerEncoder结构的网络参数。

本实施例中，在模型训练过程中，首先，获取模型的输出序列Y_GmBERT和嵌入层的输出序列Y_Embedings，从中根据被掩盖字符的下标集合T＝{t2,t3,……,ts}，抽取被掩盖字符对应的列，形成输出序列的掩码表示

和/>

再根据下式(8)计算掩码位置对应的词表上的概率分布矩阵P^mask：

其中，w^t为词表向量；b为待训练的偏置系数；P^mask可以理解为输出的掩码字符

与词表中每一个位置yi的单词相同的概率。然后，根据概率分布矩阵计算交叉熵损失H(P^mask,w^t)，再根据交叉熵损失利用反向传播算法去优化模型中每一TransformerEncoder结构的网络参数，其中，交叉熵损失的计算方式如下式(9)所示：

在一个实施例中，数据分析应用子系统，进一步用于获取通用文本语料库和目标业务领域的文本语料库，利用通用文本语料库中的通用文本语料进行掩码训练得到初步的基于Transformer架构的预训练语言模型，在初步的基于Transformer架构的预训练语言模型的基础上，利用目标业务领域的文本语料库中的文本语料进行掩码训练，得到基于Transformer架构的预训练语言模型。

本实施例中，数据分析应用子系统可运用通用文本语料库和目标业务领域的文本语料库训练得到基于Transformer架构的预训练语言模型。其中，通用文本语料库可以是中文维基百科，即可以将中文维基百科作为初步的基于Transformer架构的预训练语言模型的训练文本语料，由于一些特定的业务领域包含大量专有名词和术语，通用文本语料库在这类特定的业务领域的挖掘任务中往往表现不佳。因此，还可以将该些特定的业务领域的规程、制度、相关术语作为文本语料库，在模型训练过程中可以对实体进行掩码。基于此，具体的，利用中文维基百科和通用BERT架构和掩码训练方法得到初步的(或称为通用的)基于Transformer架构的预训练语言模型，继而在此初步的基于Transformer架构的预训练语言模型的基础上结合包含该目标业务领域的规程、制度、相关术语等文本语料的文本语料库进行掩码训练，得到适用于该目标业务领域的基于Transformer架构的预训练语言模型。

本申请提供的基于自然语言处理的业务网站监测系统，包括数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统；数据在线处理子系统用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据并发送至数据采集清洗子系统，数据采集清洗子系统用于对第一业务网站数据进行清洗得到第二业务网站数据并发送至数据资源管理子系统，数据资源管理子系统用于将来自数据采集清洗子系统的第二业务网站数据传输至数据分析应用子系统，数据分析应用子系统用于获取经训练的基于Transformer架构的预训练语言模型，利用预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析，该基于Transformer架构的预训练语言模型利用目标业务领域的文本语料训练得到，该系统在对业务网站数据进行分析时采用了自然语言处理技术，运用预训练语言模型可从大规模语料中学习知识，提高对业务网站数据监测分析的准确性和效率。

在一些实施例中，数据在线处理子系统，进一步用于：通过互联网接收由属于目标业务领域的受监测业务网站发送的加密的第一业务网站数据；根据该加密的第一业务网站数据的发送时间，从预置的密钥库中获取该发送时间对应的密钥；利用该发送时间对应的密钥对加密的第一业务网站数据进行解密，得到第一业务网站数据，发送至数据采集清洗子系统。

本实施例中，数据在线处理子系统接收到受监测业务网站发送的加密的第一业务网站数据时，确定该加密的第一业务网站数据的发送时间，该发送时间可以由受监测业务网站发送该加密的第一业务网站数据一并发送至数据在线处理子系统，从而数据在线处理子系统可获得该加密的第一业务网站数据发送时间。监测系统可预先与受监测业务网站约定多个时间段分别对应的密钥，受监测业务网站在一时段用对应的密钥对第一业务网站数据进行加密，可相应由监测系统用该时段对应的密钥进行解密获得第一业务网站数据，需要分析的业务网站数据通常是暂未发布的业务信息，也可能存在一定的敏感性，由此可以在一定程度上进一步提升对业务网站数据传输分析的安全性。基于此，数据在线处理子系统确定该加密的第一业务网站数据的发送时间后，可进一步获得该发送时间对应的时间段，从与受监测业务网站预先约定形成的密钥库中获取该时间段对应的密钥，利用该密钥对加密的第一业务网站数据进行解密得到第一业务网站数据，发送至数据采集清洗子系统进行后续处理。

对于数据采集清洗子系统，其实现功能主要是检查数据一致性、处理无效值和缺失值等，从而发现并纠正数据文件中进入数据分析应用子系统前的处理流程。为了更加清晰本申请的技术方案，下面结合图2阐述更多实施例，参考图3所示，图3是一个示例的数据采集清洗子系统的清洗示意图。

在一个实施例中，由于数据在线处理子系统与数据采集清洗子系统均处于外网，为了进一步提高数据安全性，本申请的技术方案还可以包括：

数据在线处理子系统对输出的第一业务网站数据进行打包处理，并在打包的数据包中添加安全校验信息；数据采集清洗子系统对上述安全校验信息进行校验后解包得到第一业务网站数据；其中，所述安全校验信息包括间隔性地对第一业务网站数据进行解密所使用的密钥打上的使用时间标签；

数据采集清洗子系统预先接收一份密钥使用列表，并根据所述密钥使用列表中记录的对第一业务网站数据解密所使用的密钥及其前后时间关联性对第一业务网站数据的数据包进行校验。

上述实施例的技术方案，通过在数据包中添加安全校验信息，数据采集清洗子系统利用预先接收的密钥使用列表来对第一业务网站数据的数据包进行校验，利用密钥校验数据原来使用密钥的信息是的一致时，认为是安全数据，从而可以具有更高的安全性，提高了数据在线处理子系统将第一业务网站数据发送至数据采集清洗子系统的安全性。

在一个实施例中，为了确保数据清洗过程的准确性及清洗效率，本申请的技术方案还可以包括：

数据在线处理子系统对输出的第一业务网站数据的关键字进行识别；

根据所述关键字识别所述第一业务网站数据的重要性程度并划分等级，并分别对所述第一业务网站数据打上等级标签；其中，所述等级包括高级、中级和低级；

数据采集清洗子系统对所述高级等级的第一业务网站数据进行逐条清洗处理，对所述中级等级的第一业务网站数据清除异常数据后再进行清洗处理，以及对所述低级等级的第一业务网站数据清除异常数据且对同类数据融合后进行清洗处理，输出第二业务网站数据。

上述实施例的技术方案，数据在线处理子系统对输出第一业务网站数据进行分级处理，根据数据重要性分级设定，并在数据清洗环节中，再采用不同的数据清洗方案，保证重要信息区别对待，减少了数据处理量，也可以提高清洗效率。

在一个实施例中，为了确保数据采集清洗子系统数据清洗过程与数据分析应用子系统之间的匹配和监测系统的稳定性，本申请的技术方案还可以包括：

数据分析应用子系统对所述第二业务网站数据进行分析时，向数据采集清洗子系统实时反馈数据训练状态；

数据采集清洗子系统根据所述数据训练状态，并计算出所需使用的数据清洗函数表中的目标数据清洗函数；其中，数据采集清洗子系统中预存有数据清洗函数表，所述数据清洗函数表上记录有多种不同的数据清洗函数；

从所述数据清洗函数表中读取所述目标数据清洗函数对第一业务网站数据进行清洗处理。

上述实施例的技术方案，在数据采集清洗子系统与数据分析应用子系统之间设置了反馈机制，数据分析应用子系统可以将数据训练状态反馈至数据采集清洗子系统，如数据训练进度状态、数据训练异常状态等，从而可以能够形成一个闭环环境，实现动态平衡，避免数据分析应用子系统与数据采集清洗子系统不匹配，保护了整个监测系统的稳定性，确保使用效果。

在一个实施例中，为了进一步确保网站监测系统的稳定性，本申请的技术方案还可以包括：

数据采集清洗子系统将目标数据清洗函数以及当前的数据清洗进度信息反馈至数据在线处理子系统；

在线处理子系统根据目标数据清洗函数以及数据清洗进度信息，对数据采集清洗子系统的数据处理量进行预测分析；并根据所述预测分析结果确定数据采集清洗子系统的数据处理能力值，根据所述数据处理能力值对输出的第一业务网站数据进行优化处理；其中，所述优化处理包括：若数据处理能力值低于设定阈值，调整对低级等级的第一业务网站数据进行融合处理时的融合程度，或者根据设定规则抛弃部分低级等级的第一业务网站数据。

上述实施例的技术方案，设置了数据分析应用子系统、数据采集清洗子系统、数据在线处理子系统三者联动反馈；以确保避免数据分析应用子系统、与数据采集清洗子系统与数据在线处理子系统之间的不匹配，确保导致整个监测系统的稳定运行。

在一些实施例中，数据分析应用子系统，进一步用于：确定第一业务网站数据对应的发布平台；根据该发布平台，从模型库中获取发布平台对应的经训练的基于Transformer架构的预训练语言模型，利用该预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析。

本实施例中，数据分析应用子系统可预先针对受监测业务网站发布业务网站数据的各发布平台分别训练形成每个发布平台对应的基于Transformer架构的预训练语言模型并构成模型库。由此，数据分析应用子系统在分析前，确定第一业务网站数据对应的发布平台，即将要发布该第一业务网站数据的平台，然后根据该第一业务网站数据对应的发布平台从前述模型库中获取对应的经训练的基于Transformer架构的预训练语言模型，然后利用该预训练语言模型对第二业务网站数据进行分析，从而可以为受监测业务网站用于发布业务网站数据的不同发布平台配置相应的经训练的基于Transformer架构的预训练语言模型，以期适应不同发布平台发布业务数据的特性，进一步提高对业务网站数据监测分析的准确性。

从整体上看，本申请提供的基于自然语言处理的业务网站监测系统，基于特定的业务领域的专业语料构建超大规模预训练语言模型，使用基于字符掩码(CharMasking)、实体掩码(EntityMasking)、片段掩码(N-gram Masking)等多种掩码机制交叉组合的预训练机制，以及掩码机制动态加载策略，提高了特定的业务领域复杂文本术语、结构训练的完整性，避免了多轮训练中重复陷入局部最优的问题，与传统NLP算法相比，本申请提供的基于自然语言处理的业务网站监测系统中所运用的基于Transformer架构的预训练语言模型在目标业务领域的文本实体识别、信息抽取和缺陷诊断等监测分析任务均达到最佳水平。本申请提供的基于自然语言处理的业务网站监测系统，适用于高并发场景，较大规模的语言模型经过训练后可以同时提取更多的网页局部特征；充分利用了文本天然的有序性和词共现信息的优势，无需人工标注也能够通过自监督学习从文本中获取语义表示信息，减少了人工投入成本；在数据分析中采用预训练语言模型可以从大规模语料中学习知识，从而提高数据分析的准确性；预训练语言模型采用了参数初始化方式，使得在目标任务上泛化能力更好，计算速度更快。

本领域普通技术人员可以理解实现上述实施例中的全部或部分处理流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各实施例的处理流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory，MRAM)、铁电存储器(Ferroelectric RandomAccess Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static RandomAccess Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccessMemory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

需要说明的是，本申请所涉及的数据(包括但不限于用于分析的数据、存储的数据等)，均为经过各方充分授权的数据。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于自然语言处理的业务网站监测系统，其特征在于，所述系统包括：数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统；其中，

所述数据在线处理子系统，用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据，发送至所述数据采集清洗子系统；对输出的第一业务网站数据进行打包处理，并在打包的数据包中添加安全校验信息；

所述数据采集清洗子系统，用于预先接收一份密钥使用列表，并根据所述密钥使用列表中记录的对第一业务网站数据解密所使用的密钥及其前后时间关联性对第一业务网站数据的数据包进行校验；对所述安全校验信息进行校验后解包得到第一业务网站数据；对所述第一业务网站数据进行清洗得到第二业务网站数据，将所述第二业务网站数据发送至所述数据资源管理子系统；其中，所述安全校验信息包括间隔性地对第一业务网站数据进行解密所使用的密钥打上的使用时间标签；

2.根据权利要求1所述的系统，其特征在于，所述基于Transformer架构的预训练语言模型依次包括：嵌入层、多层Transformer Encoder结构和输出层；所述嵌入层包括字嵌入部分、块嵌入部分和位置嵌入部分；所述Transformer Encoder结构包括Transformer结构和Encoder结构；所述Encoder结构包括归一化层和全连接层；

所述数据分析应用子系统，进一步用于利用所述目标业务领域的文本语料进行掩码训练，得到所述基于Transformer架构的预训练语言模型。

3.根据权利要求2所述的系统，其特征在于，所述Encoder结构对应的运算方式为：

4.根据权利要求2所述的系统，其特征在于，数据分析应用子系统，还用于利用GPU线程对掩码的文本语料进行训练，以及利用CPU对下一批文本语料进行掩码处理；其中，所述掩码包含字符掩码、实体掩码和片段掩码中的一种或多种；

所述数据分析应用子系统，进一步用于在训练过程中，根据所述基于Transformer架构的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标，得到输出序列的掩码表示，根据所述输出序列的掩码表示计算掩码位置对应的词表上的概率分布矩阵，根据所述概率分布矩阵计算交叉熵损失，根据所述交叉熵损失调整每一TransformerEncoder结构的网络参数。

5.根据权利要求4所述的系统，其特征在于，所述数据分析应用子系统，进一步用于获取通用文本语料库和所述目标业务领域的文本语料库，利用所述通用文本语料库中的通用文本语料进行掩码训练得到初步的基于Transformer架构的预训练语言模型，在所述初步的基于Transformer架构的预训练语言模型的基础上，利用所述目标业务领域的文本语料库中的文本语料进行掩码训练，得到所述基于Transformer架构的预训练语言模型。

6.根据权利要求1所述的系统，其特征在于，所述数据在线处理子系统进一步用于对输出的第一业务网站数据的关键字进行识别；根据所述关键字识别所述第一业务网站数据的重要性程度并划分等级，并分别对所述第一业务网站数据打上等级标签；其中，所述等级包括高级、中级和低级；

7.根据权利要求6所述的系统，其特征在于，所述数据分析应用子系统进一步用于对所述第二业务网站数据进行分析时，向数据采集清洗子系统实时反馈数据训练状态；

8.根据权利要求7所述的系统，其特征在于，所述数据采集清洗子系统进一步用于将目标数据清洗函数以及当前的数据清洗进度信息反馈至数据在线处理子系统；

所述数据在线处理子系统进一步用于根据目标数据清洗函数以及数据清洗进度信息，对数据采集清洗子系统的数据处理量进行预测分析；并根据所述预测分析结果确定数据采集清洗子系统的数据处理能力值，根据所述数据处理能力值对输出的第一业务网站数据进行优化处理；其中，所述优化处理包括：若数据处理能力值低于设定阈值，调整对低级等级的第一业务网站数据进行融合处理时的融合程度，或者根据设定规则抛弃部分低级等级的第一业务网站数据。

9.根据权利要求1所述的系统，其特征在于，所述数据在线处理子系统，进一步用于：

通过互联网接收由属于目标业务领域的受监测业务网站发送的加密的第一业务网站数据；

根据所述加密的第一业务网站数据的发送时间，从预置的密钥库中获取所述发送时间对应的密钥；

利用所述发送时间对应的密钥对所述加密的第一业务网站数据进行解密，得到所述第一业务网站数据，发送至所述数据采集清洗子系统；

所述数据分析应用子系统，进一步用于：

确定所述第一业务网站数据对应的发布平台；

根据所述发布平台，从模型库中获取所述发布平台对应的经训练的基于Transformer架构的预训练语言模型，利用该预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进行分析。