CN116341518A

CN116341518A - 用于大数据统计分析的数据处理方法及系统

Info

Publication number: CN116341518A
Application number: CN202310225604.5A
Authority: CN
Inventors: 沈敏杰; 庞程潇
Original assignee: Hangzhou Turing Digital Information Technology Co ltd
Current assignee: Qizhiyan Data Technology Zhejiang Co ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-27

Abstract

本发明公开了一种用于大数据统计分析的数据处理方法及系统，其获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息；使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解，并基于此对访客身份信息与其所要访问和调取的资料之间的适配度进行评估，以确定是否为访客开放资料访问和调用权限。这样，可以在进行大数据分析之前，确保是否适宜给予数据访问和调取的权限。

Description

用于大数据统计分析的数据处理方法及系统

技术领域

本申请涉及智能化数据处理技术领域，且更为具体地，涉及一种用于大数据统计分析的数据处理方法及系统。

背景技术

企业在数字化转型中会沉淀诸多数据，例如，例如，访客信息、员工操作日志、各类办公文档等等。对这些数据进行总体统计、发展统计以及业务量统计，可以为企业的决策层和高级管理人员的分析决策提供数据依据。

数据安全一直是数字化企业面临的挑战，近年来数据处理系统面临的威胁远不止几个心怀不轨的黑客，可能还有人员配置完善的专家团队。保障数据安全是用于大数据统计分析的数据处理系统的必要前提，以防止大数据被泄露。

因此，期待一种用于大数据统计分析的数据处理方法，其能够在进行大数据统计分析前，对访客进行风险评估以确保数据安全。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种用于大数据统计分析的数据处理方法及系统，其获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息；使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解，并基于此对访客身份信息与其所要访问和调取的资料之间的适配度进行评估，以确定是否为访客开放资料访问和调用权限。这样，可以在进行大数据分析之前，确保是否适宜给予数据访问和调取的权限。

根据本申请的一个方面，提供了一种用于大数据统计分析的数据处理方法，其包括：

获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息;

将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;

将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;

计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及

将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

在上述用于大数据统计分析的数据处理方法中，所述将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量，包括：对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客所需访问和调取的资料的文本描述转化为由多个词组成的词序列；使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量；以及，将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。

在上述用于大数据统计分析的数据处理方法中，所述使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量，包括：将所述词向量的序列进行一维排列以得到词特征向量；计算所述词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个语义特征向量。

在上述用于大数据统计分析的数据处理方法中，所述计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵，包括：以如下公式计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵；其中，所述公式为：

其中，

表示所述资源描述语义特征向量，/>

表示所述身份标签语义特征向量，

表示所述分类特征矩阵，/>

表示矩阵相乘。

在上述用于大数据统计分析的数据处理方法中，所述将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限，包括：将所述分类特征矩阵进行矩阵展开以得到分类特征向量；对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；以及，将所述校正后分类特征向量通过所述分类器以得到所述分类结果。

在上述用于大数据统计分析的数据处理方法中，所述将所述分类特征矩阵进行矩阵展开以得到分类特征向量，包括：将所述分类特征矩阵按照行向量展开为所述分类特征向量。

在上述用于大数据统计分析的数据处理方法中，所述对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量，包括：以如下公式对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；其中，所述公式为：

其中，

表示校正前分类特征向量，/>

表示校正后分类特征向量，/>

表示校正前分类特征向量的转置向量，/>

表示校正前分类特征向量的二范数的平方，/>

表示校正前分类特征向量的各特征值按大小次序排列的有序向量，且校正前分类特征向量/>

是列向量形式。

在上述用于大数据统计分析的数据处理方法中，所述将所述校正后分类特征向量通过所述分类器以得到所述分类结果，包括：使用所述分类器的多个全连接层对所述校正后分类特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

根据本申请的另一个方面，提供了一种用于大数据统计分析的数据处理系统，其包括：

信息获取模块，用于获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息;

资源描述语义编码模块，用于将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;

身份标签语义编码模块，用于将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;

转移矩阵计算模块，用于计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及

权限处理模块，用于将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

与现有技术相比，本申请提供的用于大数据统计分析的数据处理方法及系统，其获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息；使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解，并基于此对访客身份信息与其所要访问和调取的资料之间的适配度进行评估，以确定是否为访客开放资料访问和调用权限。这样，可以在进行大数据分析之前，确保是否适宜给予数据访问和调取的权限。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的用于大数据统计分析的数据处理方法的场景示意图。

图2为根据本申请实施例的用于大数据统计分析的数据处理方法的流程图。

图3为根据本申请实施例的用于大数据统计分析的数据处理方法的架构示意图。

图4为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S120的子步骤的流程图。

图5为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S230的子步骤的流程图。

图6为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S150的子步骤的流程图。

图7为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S430的子步骤的流程图。

图8为根据本申请实施例的用于大数据统计分析的数据处理系统的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，保障数据安全是用于大数据统计分析的数据处理系统的必要前提。因此，期待一种用于大数据统计分析的数据处理方法，其能够在进行大数据统计分析前，对访客进行风险评估以确保数据安全。

具体地，在本申请的技术方案中，关键对访客身份信息与其所要访问和调取的资料之间的适配度进行评估，以在进行大数据分析之前，确保是否适宜给予数据访问和调取的权限。应可以理解，在大数据分析系统中，所要访问和调度的资料各不相同，难以通过一套标准的规则来规范化访客的访问权项表达。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。自然语言处理的发展为上述问题提供了新的解决思路和方案。

具体地，首先获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息。然后，使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解以得到身份标签语义特征向量和资源描述语义特征向量。也就是，将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量。同时，将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量。在本申请一个具体的示例中，所述语义编码器为基于转换器的Bert模型，当然，在本申请的其他示例中，也可以是其他语义理解模型。

进而，计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵。也就是，在语义特征空间中，以所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵来表达两者在高维特征空间中的适配表达。并以分类器来确定所述转移矩阵所属的类概率标签，在本申请实施例中，所述类概率标签包括为访客开放资料访问和调用权限（第一标签）和不为访客开放资料访问和调用权限（第二标签）。也就是，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

特别地，在本申请的技术方案中，计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为所述分类特征矩阵时，由于所述转移矩阵的每个行向量作为待转移特征向量的整体与所述转移特征向量的单个特征值之间的转移特征表达，因此其本质上是将待转移特征向量的整体的高维特征分布映射到转移特征向量的低维子特征空间内，这可能会导致所述分类特征矩阵的特征分布的结构模糊，从而降低所述分类特征矩阵的表达确定性，影响所述分类特征矩阵通过分类器得到的分类结果的准确性。

基于此，本申请的申请人对所述分类特征矩阵展开后得到的分类特征向量进行向量的有序希尔伯特完备化，表示为：

和/>

分别是校正前和校正后的分类特征向量，/>

表示分类特征向量的二范数的平方，即分类特征向量自身的内积，/>

是分类特征向量的各特征值按大小次序排列的有序向量，且分类特征向量/>

是列向量形式。

这里，通过将有序向量映射到由向量的自内积定义的希尔伯特空间内，可以实现特征集合的数值关系在一致性空间内的有意义的度量，以此为基础通过与特征向量的相对位置嵌入构造具有正交性结构的特征空间，并基于向量查询对特征向量的高维流形进行特征空间内的结构完备化，可以避免由于模糊化结构降低特征向量的表达确定性，从而增大所述分类特征矩阵通过分类器得到的分类结果的准确性。

基于此，本申请提供了一种用于大数据统计分析的数据处理方法，其包括：获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息;将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

图1为根据本申请实施例的用于大数据统计分析的数据处理方法的场景示意图。如图1所示，在该应用场景中，首先，获取访客所需访问和调取的资料的文本描述（例如，如图1中所示意的C1），以及，所述访客的身份标签信息（例如，如图1中所示意的C2）；然后，将获取的资料的文本描述和访客的身份标签信息输入至部署有用于大数据统计分析的数据处理算法的服务器（例如，如图1中所示意的S）中，其中所述服务器能够基于用于大数据统计分析的数据处理算法对所述资料的文本描述和所述访客的身份标签信息进行处理，以生成用于表示是否为访客开放资料访问和调用权限。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2为根据本申请实施例的用于大数据统计分析的数据处理方法的流程图。如图2所示，根据本申请实施例的用于大数据统计分析的数据处理方法，包括步骤：S110，获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息;S120，将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;S130，将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;S140，计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及，S150，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

图3为根据本申请实施例的用于大数据统计分析的数据处理方法的架构示意图。如图3所示，在该网络架构中，首先，获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息;然后，将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;接着，将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;然后，计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及，最后，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

具体地，在步骤S110中，获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息。如前所述，保障数据安全是用于大数据统计分析的数据处理系统的必要前提。因此，期待一种用于大数据统计分析的数据处理方法，其能够在进行大数据统计分析前，对访客进行风险评估以确保数据安全。

具体地，首先获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息。

具体地，在步骤S120中和步骤S130中，将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量；以及，将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量。

然后，使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解以得到身份标签语义特征向量和资源描述语义特征向量。也就是，将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量。同时，将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量。

在本申请实施例中，图4为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S120的子步骤的流程图，如图4所示，所述将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量，包括：S210，对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客所需访问和调取的资料的文本描述转化为由多个词组成的词序列；S220，使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；S230，使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量；以及，S240，将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。

图5为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S230的子步骤的流程图，如图5所示，所述使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量，包括：S310，将所述词向量的序列进行一维排列以得到词特征向量；S320，计算所述词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；S330，分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；S340，将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，S350，分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个语义特征向量。

进一步地，所述将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量，包括：对所述访客的身份标签信息进行分词处理以将所述访客的身份标签信息转化为由多个词组成的词序列；使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量；以及，将所述多个语义特征向量进行级联以得到所述身份标签语义特征向量。

在本申请一个具体的示例中，所述语义编码器为基于转换器的Bert模型，当然，在本申请的其他示例中，也可以是其他语义理解模型。

具体地，在步骤S140中，计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵。进而，计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵。也就是，在语义特征空间中，以所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵来表达两者在高维特征空间中的适配表达。

所述计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵，包括：以如下公式计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵；

其中，所述公式为：

其中，

表示所述资源描述语义特征向量，/>

表示所述身份标签语义特征向量，

表示所述分类特征矩阵，/>

表示矩阵相乘。

具体地，在步骤S150中，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。并以分类器来确定所述转移矩阵所属的类概率标签，在本申请实施例中，所述类概率标签包括为访客开放资料访问和调用权限（第一标签）和不为访客开放资料访问和调用权限（第二标签）。也就是，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

在本申请实施例中，图6为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S150的子步骤的流程图，如图6所示，所述将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限，包括：S410，将所述分类特征矩阵进行矩阵展开以得到分类特征向量；S420，对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；以及，S430，将所述校正后分类特征向量通过所述分类器以得到所述分类结果。

其中，所述将所述分类特征矩阵进行矩阵展开以得到分类特征向量，包括：将所述分类特征矩阵按照行向量展开为所述分类特征向量。

基于此，本申请的申请人对所述分类特征矩阵展开后得到的分类特征向量进行向量的有序希尔伯特完备化，也就是，所述对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量，包括：以如下公式对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；其中，所述公式为：

其中，

表示校正前分类特征向量，/>

表示校正后分类特征向量，/>

表示校正前分类特征向量的转置向量，/>

表示校正前分类特征向量的二范数的平方，/>

是列向量形式。

图7为根据本申请实施例的用于大数据统计分析的数据处理方法中步骤S430的子步骤的流程图，如图7所示，所述将所述校正后分类特征向量通过所述分类器以得到所述分类结果，包括：S510，使用所述分类器的多个全连接层对所述校正后分类特征向量进行全连接编码以得到编码分类特征向量；以及，S520，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

这样，可以避免由于模糊化结构降低特征向量的表达确定性，从而增大所述分类特征矩阵通过分类器得到的分类结果的准确性。

在本申请一具体示例中，使用所述分类器以如下公式对所述校正后分类特征向量进行处理以得到所述分类结果；其中，所述公式为：

所述公式为：

，其中X表示所述校正后分类特征向量，/>

至/>

为权重矩阵，/>

至/>

表示偏置向量。

综上，基于本申请实施例的用于大数据统计分析的数据处理方法，其获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息；使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解，并基于此对访客身份信息与其所要访问和调取的资料之间的适配度进行评估，以确定是否为访客开放资料访问和调用权限。这样，可以在进行大数据分析之前，确保是否适宜给予数据访问和调取的权限。

示例性系统

图8为根据本申请实施例的用于大数据统计分析的数据处理系统的框图。如图8所示，根据本申请实施例的用于大数据统计分析的数据处理系统100，包括：信息获取模块110，用于获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息;资源描述语义编码模块120，用于将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;身份标签语义编码模块130，用于将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;转移矩阵计算模块140，用于计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及，权限处理模块150，用于将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

在一个示例中，在上述用于大数据统计分析的数据处理系统100中，所述资源描述语义编码模块，包括：分词单元，用于对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客所需访问和调取的资料的文本描述转化为由多个词组成的词序列；词嵌入单元，用于使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；上下文编码单元，用于使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量；以及，级联单元，用于将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。

在一个示例中，在上述用于大数据统计分析的数据处理系统100中，所述上下文编码单元，包括：向量构造子单元，用于将所述词向量的序列进行一维排列以得到词特征向量；自注意子单元，用于计算所述词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，注意力施加子单元，用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个语义特征向量。

首先获取访客所需访问和调取的资料的文本描述，以及，所述访客的身份标签信息。然后，使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解以得到身份标签语义特征向量和资源描述语义特征向量。也就是，将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量。同时，将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量。在本申请一个具体的示例中，所述语义编码器为基于转换器的Bert模型，当然，在本申请的其他示例中，也可以是其他语义理解模型。

在一个示例中，在上述用于大数据统计分析的数据处理系统100中，所述转移矩阵计算模块，用于：以如下公式计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵；其中，所述公式为：

其中，

表示所述资源描述语义特征向量，/>

表示所述身份标签语义特征向量，

表示所述分类特征矩阵，/>

表示矩阵相乘。

进而，计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵。也就是，在语义特征空间中，以所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵来表达两者在高维特征空间中的适配表达。

在一个示例中，在上述用于大数据统计分析的数据处理系统100中，所述权限处理模块，包括：矩阵展开单元，用于将所述分类特征矩阵进行矩阵展开以得到分类特征向量；校正单元，用于对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；以及，分类单元，用于将所述校正后分类特征向量通过所述分类器以得到所述分类结果。

并以分类器来确定所述转移矩阵所属的类概率标签，在本申请实施例中，所述类概率标签包括为访客开放资料访问和调用权限（第一标签）和不为访客开放资料访问和调用权限（第二标签）。也就是，将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限。

在一个示例中，在上述用于大数据统计分析的数据处理系统100中，所述矩阵展开单元，用于：将所述分类特征矩阵按照行向量展开为所述分类特征向量。

在一个示例中，在上述用于大数据统计分析的数据处理系统100中，所述校正单元，进一步用于：以如下公式对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；其中，所述公式为：

其中，

表示校正前分类特征向量，/>

表示校正后分类特征向量，/>

表示校正前分类特征向量的转置向量，/>

表示校正前分类特征向量的二范数的平方，/>

是列向量形式。

在一个示例中，在上述用于大数据统计分析的数据处理系统100中，所述分类单元，包括：全连接编码子单元，用于使用所述分类器的多个全连接层对所述校正后分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类结果子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

这里，本领域技术人员可以理解，上述用于大数据统计分析的数据处理系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图7的用于大数据统计分析的数据处理方法的描述中得到了详细介绍，并因此，将省略其重复描述。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于大数据统计分析的数据处理方法，其特征在于，包括：

2.根据权利要求1所述的用于大数据统计分析的数据处理方法，其特征在于，所述将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量，包括：

对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客所需访问和调取的资料的文本描述转化为由多个词组成的词序列；

使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；

使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量；以及

将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。

3.根据权利要求2所述的用于大数据统计分析的数据处理方法，其特征在于，所述使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量，包括：

将所述词向量的序列进行一维排列以得到词特征向量；

计算所述词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；

分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；

将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及

分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个语义特征向量。

4.根据权利要求3所述的用于大数据统计分析的数据处理方法，其特征在于，所述计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵，包括：

以如下公式计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵；

其中，所述公式为：

其中，

表示所述资源描述语义特征向量，/>

表示所述身份标签语义特征向量，/>

表示所述分类特征矩阵，/>

表示矩阵相乘。

5.根据权利要求4所述的用于大数据统计分析的数据处理方法，其特征在于，所述将所述分类特征矩阵通过分类器以得到分类结果，所述分类结果用于表示是否为访客开放资料访问和调用权限，包括：

将所述分类特征矩阵进行矩阵展开以得到分类特征向量；

对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；以及

将所述校正后分类特征向量通过所述分类器以得到所述分类结果。

6.根据权利要求5所述的用于大数据统计分析的数据处理方法，其特征在于，所述将所述分类特征矩阵进行矩阵展开以得到分类特征向量，包括：将所述分类特征矩阵按照行向量展开为所述分类特征向量。

7.根据权利要求6所述的用于大数据统计分析的数据处理方法，其特征在于，所述对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量，包括：以如下公式对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量；

其中，所述公式为：

其中，

表示校正前分类特征向量，/>

表示校正后分类特征向量，/>

表示校正前分类特征向量的转置向量，/>

表示校正前分类特征向量的二范数的平方，/>

是列向量形式。

8.根据权利要求7所述的用于大数据统计分析的数据处理方法，其特征在于，所述将所述校正后分类特征向量通过所述分类器以得到所述分类结果，包括：

使用所述分类器的多个全连接层对所述校正后分类特征向量进行全连接编码以得到编码分类特征向量；以及

将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

9.一种用于大数据统计分析的数据处理系统，其特征在于，包括：

10.根据权利要求1所述的用于大数据统计分析的数据处理系统，其特征在于，所述资源描述语义编码模块，包括：

分词单元，用于对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客所需访问和调取的资料的文本描述转化为由多个词组成的词序列；

词嵌入单元，用于使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；

上下文编码单元，用于使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量；以及

级联单元，用于将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。