CN112398906A

CN112398906A - 一种互联网平台数据交互方法及装置

Info

Publication number: CN112398906A
Application number: CN202011094376.5A
Authority: CN
Inventors: 关天昊; 夏其峰
Original assignee: Shanghai Hydee Software Corp ltd
Current assignee: Shanghai Hydee Software Corp ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-02-23

Abstract

本发明公开了一种互联网平台数据交互方法及装置，其通过接收用户的上传请求和上传数据，将用户的上传数据得到数据流，对所述数据流分割出多个大小为的子窗口；计算所述当前子窗口中各所述数据块的支持度值，判断所述各数据块的支持度值是否大于阈值，如果是将所述数据块添加到所述当前子窗口的有效集内；将数据处理分解为面向所述数据处理服务的子处理请求，以及将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集；得到临时数据处理结果，将所述临时数据处理结果组装成当前子窗口的最终数据处理结果。

Description

一种互联网平台数据交互方法及装置

技术领域

本申请涉及数据处理领域，特别涉及一种互联网平台数据交互方法及装置。

背景技术

现如今在互联网领域，数据信息具有大数据复杂性特点，领域差别较大、数据类型繁杂、冗余数据较多，现有的平台只能简单地进行数据汇总，无法对数据进行处理得到有用的后台数据，平台管理人员面对冗余繁杂的各种大数据时，无法及时、高效地处理数据，导致工作效率大大降低；同时，现有的互联网平台在数据流较大时，并发数过多，容易引起系统崩溃、服务器宕机。

发明内容

本发明提供了一种互联网平台数据交互方法及装置，目的在于高效整理上传数据、数据写入较快、系统不会崩溃、宕机。

为了解决上述问题或至少部分地解决上述技术问题，在本申请的一个实施例中，提供了一种互联网平台数据交互方法，其特征在于，所述方法包括：

步骤101、接收用户的上传请求和上传数据，根据所述上传数据的目标数据源，从远程服务器端定位对应的数据处理服务，其中所述数据处理服务具有多个；

步骤102、将用户的上传数据得到数据流，对所述数据流设定大小为M1的滑动窗口，在所述滑动窗口上分割出多个大小为M2的子窗口；

步骤103、根据上传数据的数据属性对当前子窗口的数据块进行划分，得到初始化种群，计算所述当前子窗口中各所述数据块的支持度值，判断所述各数据块的支持度值是否大于阈值，如果是，将所述数据块添加到所述当前子窗口的有效集内；

步骤104、根据有效集内的数据块的数据规则集，将数据处理分解为面向所述数据处理服务的子处理请求，以及将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集；

步骤105、所述子处理请求和对应的规则子集派发给对应的所述数据处理服务，各所述数据处理服务并行执行数据处理任务，分别得到临时数据处理结果；

步骤106、按照所述上传数据的数据结果项的要求，将所述临时数据处理结果组装成当前子窗口的最终数据处理结果；

步骤107、数据流流动和滑动窗口的迁移，接收流入的新数据，同时删除过期的旧数据，更新滑动窗口数据作为新的处理起点。

进一步的，其中所述计算所述当前子窗口中各所述数据块的支持度值Ma的公式为：

其中，N为数据集中数据块的个数；Si为数据集中第i个数据块；q为查询点，由第一个数据块开始；D(Si,q)为数据块Si到查询点q的距离；R为正确的数据集中查询点q与离q最远的数据块之间的距离。

进一步的，其中所述接收用户的上传请求包括：上传请求服从参数为&的泊松过程，队列具有长度限制L，当队满时，新到的上传请求将会被云服务系统丢弃；局调度器对所述上传请求的解析时间和虚拟机对所述上传请求的服务时间分别服从

和1/σ的指数分布；其中，&、

σ均大于1；所述全局调度器对上传请求的解析，把所述上传请求转化为虚拟机创建命令，当基础设施资源池中所有可用资源均已被占用时，虚拟机创建命令无法执行。

进一步的，其中所述接收用户的上传数据包括数据写入：

客户端通过文件创建系统类的打开命令打开文件，相对应的所述文件创建系统类就会返回一个文件系统输出数据流给客户端；

所述客户端调用主节点的远程调用接口的取数据块地址命令，获得所述文件第一个数据块的保存地址；

调用所述文件系统输出数据流的读取命令读取文件数据；

所述文件系统输出数据流和数据节点建立连接，调用数据节点的读数据接口读取数据块；

当读取完该数据块后，如果文件尚未读取完，继续调用取数据块地址命令获得下一个数据块的地址；

所述文件系统输出数据流和存储所述数据块的数据节点进行通信，读取数据块内容；

重复上述读数据块过程，直到文件读取完毕，所述客户端调用关闭命令关闭数据流。

在本申请的另一个实施例中，提供了一种互联网平台数据交互装置，其特征在于，所述装置包括：

接收模块，用于接收用户的上传请求和上传数据，根据所述上传数据的目标数据源，从远程服务器端定位对应的数据处理服务，其中所述数据处理服务具有多个；

滑动窗口设置模块，用于将用户的上传数据得到数据流，对所述数据流设定大小为M1的滑动窗口，在所述滑动窗口上分割出多个大小为M2的子窗口；

判断模块，用于根据上传数据的数据属性对当前子窗口的数据块进行划分，得到初始化种群，计算所述当前子窗口中各所述数据块的支持度值，判断所述各数据块的支持度值是否大于阈值，如果是，将所述数据块添加到所述当前子窗口的有效集内；

分解模块，用于根据有效集内的数据块的数据规则集，将数据处理分解为面向所述数据处理服务的子处理请求，以及将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集；

并行执行模块，用于将所述子处理请求和对应的规则子集派发给对应的所述数据处理服务，各所述数据处理服务并行执行数据处理任务，分别得到临时数据处理结果；

结果处理模块，用于按照所述上传数据的数据结果项的要求，将所述临时数据处理结果组装成当前子窗口的最终数据处理结果；

更新模块，用于数据流流动和滑动窗口的迁移，接收流入的新数据，同时删除过期的旧数据，更新滑动窗口数据作为新的处理起点。

进一步的，所述接收模块，进一步用于：上传请求服从参数为&的泊松过程，队列具有长度限制L，当队满时，新到的上传请求将会被云服务系统丢弃；全局调度器对上传请求的解析时间和虚拟机对上传请求的服务时间分别服从

和1/σ的指数分布；其中，&、

σ均大于1；全局调度器对上传请求的解析，把上传请求转化为虚拟机创建命令，当基础设施资源池中所有可用资源均已被占用时，虚拟机创建命令无法执行。

进一步的，其中所述接收模块包括数据写入模块，用于：

调用所述文件系统输出数据流的读取命令读取文件数据；

本发明公开了一种互联网平台数据交互方法及装置，其通过接收用户的上传请求和上传数据，将用户的上传数据得到数据流，对所述数据流分割出多个大小为的子窗口；计算所述当前子窗口中各所述数据块的支持度值，判断所述各数据块的支持度值是否大于阈值，如果是将所述数据块添加到所述当前子窗口的有效集内；将数据处理分解为面向所述数据处理服务的子处理请求，以及将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集；得到临时数据处理结果，将所述临时数据处理结果组装成当前子窗口的最终数据处理结果。通过上述方法使得互联网平台中的数据处理得到统一符合的数据，管理人员可以快速高效地处理审核；并且数据处理速度和能力大大加强，服务器多并行处理不会因此导致系统宕机。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅用于示意本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。

图1是本发明一实施例的一种互联网平台数据交互方法的流程示意图；

图2是本发明一实施例的接收用户的上传数据包括数据写入的流程示意图；

图3是本发明另一实施例的一种互联网平台数据交互装置的结构示意图。

具体实施例

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX，但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一XXX也可以被称为第二XXX，类似地，第二XXX也可以被称为第一XXX。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地，取决于语境，短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在一实施例中，如图1所示，其示出了一种互联网平台数据交互方法，该方法应用于互联网平台中。上述互联网平台数据交互方法包括：

步骤101、接收用户的上传请求和上传数据，根据所述上传数据的目标数据源，从远程服务器端定位对应的数据处理服务，其中所述数据处理服务具有多个。

用户在互联网平台上填写上传数据，上传数据根据所需上传项目的内容进行事先整理得出，该数据正确性、有效性先由自身进行把关处理。数据具有以下信息：目标数据源，表示与结构化数据来源相关的信息；当然，可以根据所需互联网要求进行添加修改；数据规则集，表示与上传数据的处理规则；数据结果项，表示处理后的上传数据得到符合统一理解的数据处理结果。

进一步的，接收用户的上传请求包括：

上传请求服从参数为&的泊松过程，队列具有长度限制设置有阈值，当队满时，新到的上传请求将会被云服务系统丢弃；全局调度器对上传请求的解析时间和虚拟机对上传请求的服务时间分别服从

和1/σ的指数分布；其中，&、

进一步的，计算所述当前子窗口中各所述数据块的支持度值Ma的公式为：

进一步的，整合上传数据的数据属性，对数据属性进行训练，可以得到适合各种类型的数据属性，对训练集中的数据属性的所有文本进行必要的文本预处理，生成特征向量，训练方法步骤如下：

归一化输入的待判文本的特征向量T和训练样本的特征向量集E_T；并计算出特征向量T、特征向量集E_T中相同的特征词；

把相同的特征词和对应的权值提取出来组成新的向量NT、NE_T；

进行相似度计算，计算两个特征向量的权值组成的一元向量之间的相似度，并对计算的文本的相似度计算结果进行排序；

取出相似度最高的K个文本；把这K个文本的相似度按类别累加；

取相似度最大值S；以及对应的类别C；如果相似度最大值大于等于设定阈值，则标识该文本属于C类。

在每个数据处理服务中，根据生成的数据服务组合规则和结果组装规则，将每个数据处理服务分别为多个并行处理的子处理请求，进一步缩减服务器处理压力，数据处理时间更快。总的数据规则集包括有相关数据的处理规则，针对生成的数据服务组合规则和结果组装规则将数据规则集分解成对应于子处理请求的多个不相交的规则子集。

每个数据处理服务对应处理一一对应的子处理请求和规则子集，根据一一对应的子处理请求和规则子集，数据处理服务快速进行上传数据的数据处理。

临时数据处理结果进行汇总，最终得到一项数据上传的最终处理数据。

前述中当前子窗口数据处理好之后，继续对下一个子窗口的数据进行并行处理，同时删除旧数据，更新下一个滑动窗口数据作为新的处理起点。

进一步的，所述接收用户的上传数据包括数据写入：

调用所述文件系统输出数据流的读取命令读取文件数据；

进一步的，数据包括数据写入，还具有如下的方法步骤：

将上传数据以追加写的形式写入一个写缓冲区中，并建立一个哈希表进行数据索引；哈希存储区的数据量达到一定量时，上传数据被发送到哈希存储区中进行排序操作，当排序操作完成后，哈希存储区中的上传数据将被删除；

哈希存储区中缓存的上传数据将被划分成排序存储区中的M个块中，每个块中对上传数据进行排序；排序完成后，排序存储区将数据块发送到索引存储区中，构建索引子树，当索引子树构建完成后，排序存储区中的数据块将被删除；

排序存储区的M个数据块发送到索引存储区中之后，对于每个数据块分别构建一个索引子树，然后将M个索引子树合并到索引存储区的索引树种，到索引树的数据量达到一定阈值时，新建一个新的索引树继续进行索引子树的合并操作。

进一步的，各数据处理服务并行执行数据处理任务，具有如下的方法步骤：

各数据处理服务提交数据处理任务，提交请求动态到达；提交内容包括计算任务、用户需求、计算任务资源需求概况，这些内容被放入配置文件并一起提交；

主节点接收提交请求，并把新到达的计算任务加入在线计算任务清单，根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子，分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数；

在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；其次把这些值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵；

把最优放置矩阵提交给子任务调度器，由其负责推行各处理器的实际资源放置调度工作；

各处理器的接受子任务调度器的调度并执行各子任务，在执行各子任务过程中，随时把子任务的状态变更情况向计算任务状态更新器报告。

进一步的，当用户需要修改时，覆盖上传系统中的文件内容，更新后的数据可以通过应用程序端的语法分析机制提取出新增加的数据关联性，但是被覆盖的数据内容中可能包含数据关联系，这些被覆盖的数据关联性同时需要被删除掉以保证关联性的一致性。最直接的方法就是每次发生覆盖写时，客户端从数据服务器中重新读取被覆盖的部分进行语法分析知晓哪些数据关联性是无效的，从而进行删除操作。

但是这种方式需要客户端从数据服务器中重新读取数据内容，引入了额外的数据I/O，同时增加了更新的开销。结合数据关联性的组织结构和存储方式同时考虑更新操作的开销，通过在客户端检查文件扩展属性中数据关联性在文件内容中的偏移量和长度与新增加的数据部分是否存在重叠，来判断是否存在被覆盖的数据关联性；如果存在某些数据关联性属于被覆盖的数据部分，则在客户端缓存的文件元数据的扩展属性中直接删除这些无效的数据关联性即可完成更新操作。

这种更新方式避免了客户端从数据服务器中读取文件的旧数据而引入的额外数据I/O。并且在进行覆盖写操作时，文件的元数据已经缓存在客户端本地，因此对新数据的语法分析和文件扩展属性中的数据关联性范围和新数据部分重叠性的判断都是在客户端本地执行，无需再向元数据服务器和数据服务器进行跨网络请求，从而降低了数据关联性更新的开销。

上述方法公开了一种互联网平台数据交互方法，其通过接收用户的上传请求和上传数据，将用户的上传数据得到数据流，对所述数据流分割出多个大小为的子窗口；计算所述当前子窗口中各所述数据块的支持度值，判断所述各数据块的支持度值是否大于阈值，如果是将所述数据块添加到所述当前子窗口的有效集内；将数据处理分解为面向所述数据处理服务的子处理请求，以及将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集；得到临时数据处理结果，将所述临时数据处理结果组装成当前子窗口的最终数据处理结果。通过上述方法使得互联网平台中的数据处理得到统一符合的数据，管理人员可以快速高效地处理审核；并且数据处理速度和能力大大加强，服务器多并行处理不会因此导致系统宕机。

在另一实施例中，如图3所示，一种互联网平台数据交互装置，该装置应用于互联网平台中。该装置包括：

接收模块，接收用户的上传请求和上传数据，根据所述上传数据的目标数据源，从远程服务器端定位对应的数据处理服务，其中所述数据处理服务具有多个。

用户在平台上填写上传数据，上传数据根据所需上传项目的内容进行事先整理得出，该数据正确性、有效性先由自身进行把关处理。数据具有以下信息：目标数据源，表示与结构化数据来源相关的信息；当然，可以根据所需互联网平台要求进行添加修改；数据规则集，表示与上传数据的处理规则；数据结果项，表示处理后的上传数据得到符合统一理解的数据处理结果。

进一步的，接收用户的上传请求包括：

和1/σ的指数分布；其中，&、

并行执行模块，用于子处理请求和对应的规则子集派发给对应的所述数据处理服务，各所述数据处理服务并行执行数据处理任务，分别得到临时数据处理结果；

进一步的，所述接收用户的上传数据包括数据写入：

调用所述文件系统输出数据流的读取命令读取文件数据；

进一步的，数据包括数据写入，还具有如下的方法步骤：

上述装置公开了一种互联网平台数据交互装置，其通过接收用户的上传请求和上传数据，将用户的上传数据得到数据流，对所述数据流分割出多个大小为的子窗口；计算所述当前子窗口中各所述数据块的支持度值，判断所述各数据块的支持度值是否大于阈值，如果是将所述数据块添加到所述当前子窗口的有效集内；将数据处理分解为面向所述数据处理服务的子处理请求，以及将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集；得到临时数据处理结果，将所述临时数据处理结果组装成当前子窗口的最终数据处理结果。通过上述装置使得互联网平台中的数据处理得到统一符合的数据，管理人员可以快速高效地处理审核；并且数据处理速度和能力大大加强，服务器多并行处理不会因此导致系统宕机。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。