CN116595040A

CN116595040A - 一种过载场景下数据分类查询的优化方法和装置

Info

Publication number: CN116595040A
Application number: CN202310321242.XA
Authority: CN
Inventors: 叶飞; 杨智慧; 沈筠霏; 何震瀛; 荆一楠; 张凯; 王晓阳
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-08-15

Abstract

一种过载场景下数据分类查询的优化方法和装置，通过改进查询流程来优化流数据过载场景的查询结果。本发明提出了一种在线的训练模式，包含一系列概率过滤器，概率过滤器主要基于查询中包含的语义信息来筛选数据(例如文本数据)，并使用了参数搜索的方式来获取过滤器的最佳配置，同时用函数拟合的方法来控制查询的延迟。本发明着重于处理流数据场景下包含数据分类任务的查询，并致力于解决发生流数据过载场景时的查询优化问题。本发明较于基于离线场景下的查询优化工作，对查询时间不做限制，在尝试在流数据过载的场景下，给定查询的时间限制，对此类查询进行优化，取得了不错的优化效果。

Description

一种过载场景下数据分类查询的优化方法和装置

技术领域

本发明涉及计算机数据库领域，具体涉及一种过载场景下数据分类查询的优化方法和装置。

背景技术

近几年来，计算机技术不断地发展与革新，同时网络架构性能也逐年提升，互联网在人们生活中起着愈发重要的作用，使得人们的生活愈加方便快捷，真正做到了“足不出户便知天下事”。现代人的生活变得无法离开互联网产品，如今的各种支付系统成为了交易买卖消费的主流方式；出行的导航系统或者打车系统使得人们出行更加快捷，同时也能自主地利用网络自行驱车快速地到达目的地；还有会议系统，为人们提供了性能稳定、移动端客户端统一的开会讨论平台。

此外，网络技术的发展也为互联网的社交平台以及新闻媒体带来了革命性的发展，催生了“互联网媒体”的诞生，互联网媒体以表现形式多著称，包含了图像、视频、文本以及音频等等非结构化数据，同时借以互联网平台，涵盖电脑、移动手机等平台来进行传播发展。互联网媒体如今在人类生活中扮演着越来越重要的角色，它传播信息的速度远超传统媒介，并且所携带的信息形式更为多元化，内容更加丰富。除此之外，流行的社交平台也为人们的沟通交流提供了极大的便利，不仅限于传统的日常社交软件，现在也涌现出了新网络环境下的新型社交，首先有直播平台社交，用户可以在主播直播时候进行互动沟通，其次是视频网站社交，另外还有生活饮食类的社交平台，人们可以在这些平台上分享自己的体验心得。

同时随着网络服务以及社交媒体的普及，网民使用这些平台服务的频次越来越高。新闻媒体涵盖自媒体等，每天都会产生以万计的视频或者文本信息，丰富大众生活，拓宽视野；社交媒体则极大地缩短了人与人之的距离，同时交流沟通的成本也大幅度下降。

另一方面，互联网积攒了大量的用户，这些用户使用网络服务，在产生了巨大的商业价值的同时，也使得互联网数据量呈现指数级的膨胀。而这些数据同样也蕴含了很高的价值，以文本类型数据为例，在许多文本任务上，例如文本主题挖掘等，都需要对这些每天生成的大量数据进行分析。与传统的结构化数据相比，这些数据主要以文本数据为主，而分析这些数据，逃不开现在主流的机器学习模型。如果需要查询带有较为深层信息的数据，比如查询情感类型为积极的文本，那么查询中就会带有用户自定义函数(UDF，user-definedfunctions)，这类函数一般会带有相应的机器学习任务。相比于传统的查询而言，这类查询需要在查询时候运行相应的用户自定义函数，得到函数结果之后再返回给用户，当数据量很大时，效率会非常低下，一般需要做一些高效的查询优化来提升查询效率。许多现有的查询处理平台或者引擎，包括BlazeIt，MIRIS，NoScope，概率谓词，SVQ等，这些都是加速视频或者其他非结构化数据查询执行的工作，但是这些工作都依赖于基于用户自定义函数(UDF)和查询谓词的离线训练过程。

现如今在流数据场景上，同样会有此类查询以情感分析任务为例，用户希望在实时的时间宽度为一分钟的时间窗口内，查询到其中带有积极(positive)情感的文本数据。虽然上述提及的相关工作均是对于带有机器学习UDF的查询优化工作，但是这些工作都没有尝试在流数据场景下优化整个流程，尤其是出现流数据过载的情况下，而离线处理特定的查询，一般需要基于大量的历史数据，同时分析查询的特性。与离线查询处理相比，流数据更关注查询结果的延迟(latency)。在许多流数据应用程序中，处理延迟是最关键的相应质量要求，因为查询结果的价值会随着时间的推移而急剧下降，同时流数据本身也讲究时效性，数据的价值也会随着时间推移而下降。在流数据管理系统(Data Stream ManagementSystems，DSMS)中，及时响应查询的能力在数据过载的情况下会严重下滑，这种现象在流数据场景下非常普遍。通常，DSMS采用减载技术来满足质量要求，同时跟上数据到达的高速率。为了让系统持续完成最新的查询响应，负载抛弃(loadshedding)总是会丢弃一部分未处理的数据。在流数据场景中，系统通常处理的是没有明显分界点的连续实时数据而不是静态数据集，一般来说，人们总是使用滑动窗口来限制流入系统的数据，窗口的大小通常基于时间宽度，例如5秒、10秒等时间来限定数据流范围。在数据爆炸式增长和计算平台资源有限的背景下，数据过载的情况在现实世界中频繁发生。对于流数据过载问题，传统的、较为朴素的做法是应用负载抛弃技术，但是这种做法具有较高随机性，如果查询中包含机器学习UDF，那么查询结果的精度就会较低。

支持向量机(Support Vector Machine,SVM)是一个历史悠久同时在机器学习领域应用非常广泛的分类器，它以模型轻量、简单任务效果较好著称。最早原始的支持向量机模型于1963年发表，后续经过不同学者的不断努力，发展出了用核技巧来创建非线性分类器的方法以及软间隔(Soft-Margin)等技术。支持向量机主要用于分类、回归等任务。直觉来看，训练结果得到的分类边界距离最近的训练样本越远，则说明当前分类的效果越好，分类结果越准确。

神经网络(Neural Network)是人工神经网络的简称，在机器学习领域是一种模仿动物中枢神经网络构造和功能的研究方法。神经网络由大量的人工神经元连接而成并进行计算，其中，具体的网络结构一般情况下能够在外界信息的基础上更改调整内部结构，这一过程即为神经网络的训练过程，因此神经网络能对特定的任务进行相应的调整适应，具备一定的学习能力。现代的神经网络通常是通过一个基于数理统计学的学习方法来进行优化，最终能学习到样本中的非线性关系，所以也是数理统计学的一种实际应用。

朴素贝叶斯分类器(Naive Bayes classifier)在机器学习中是一种常见的基于概率的简单分类器，主要的理论依据是在假设特征之间强独立的条件下，运用贝叶斯定理进行分类任务。朴素贝叶斯自上世纪50年代就已经有了广泛的研究，并至今仍然活跃于文本分类任务之中。通过恰当的特征预处理，朴素贝叶斯也可以与领域先进的方法相竞争。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种过载场景下数据分类查询的优化方法和装置。

本发明的目的是通过以下技术方案来实现的：一种过载场景下数据分类查询的优化方法，包括以下步骤：

当检测到数据流发生过载时，按照朴素查询流程对过载的数据流进行查询：数据以窗口形式输入，先经过负载抛弃模块，再经过文本分类模块，最后返回给用户带有标签的数据，并将所述带有标签的数据存储在本地作为训练数据，再重复上述步骤；

所述负载抛弃模块采用负载抛弃技术随机抛弃一些数据，并将剩余的数据输入文本分类模块中；

所述文本分类模块处理剩余的数据，将满足查询条件的数据打上标签，将带有标签的数据返回给用户；

直到本地存储的训练数据超过设定的阈值，使用本地存储的训练数据在线训练选定的过滤器，并为过滤器设定一个阈值th_a，得到训练好的过滤器；

随后剩余的数据流按照改进查询流程进行查询：数据以窗口形式输入，先经过负载抛弃模块，随后经过所述训练好的过滤器，再经过文本分类模块，得到查询结果并返回给用户。

进一步地，所述本地存储的训练数据超过设定的阈值具体为：本地存储的训练数据中总文本数量超过设置的总文本数量阈值、正样本数量超过设置的正样本数量阈值以及负样本数量超过设置的负样本数量阈值。

进一步地，所述过滤器为线性支持向量机、神经网络分类器或伯努利朴素贝叶斯分类器。

本发明还提供了一种过载场景下数据分类查询的优化装置，包括一个或多个处理器，用于实现上述过载场景下数据分类查询的优化方法。

本发明还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述过载场景下数据分类查询的优化方法。

本发明的有益效果是：

这些工作大多数都基于离线的训练模式，通过离线训练的索引或者概率谓词，来筛选与查询不相关的数据，此种训练模式需要大量的训练数据以及较高的开销时间，在实时性要求较高的流数据场景下并不适用。现有的流数据过载场景下的查询优化工作，主要停留于朴素的解决方案，一般通过负载抛弃技术来减少负载并优化查询，这种查询优化方法效率低下，同时不适用于现在新型的机器学习推理查询。本发明主要考虑从在线训练的模式出发，针对流数据场景下实时的查询进行优化，本发明考虑的主要手段也是采用概率过滤器的方式对于原始输入数据进行优化，但是解决方法的难点在于，如何快速地训练有效的过滤器模型，以及如何将过滤器调配到最适合实时场景的参数模式并提升查询结果的准确率。首先针对快速训练有效过滤器模型的问题，现行的机器学习查询优化工作主要基于离线的模式训练概率谓词等方式，这些方法需要大量的有标签的离线数据作为基础，在实时的流数据场景中，一般无法存储大量的数据在本地，同时训练或者建立相关索引所花费的开销代价都非常高，一般在离线场景中，针对不同的谓词都会训练对应的过滤器或者建立对应的索引，需要大量的预处理工作。本发明基于这些缺陷，提出了在线训练过滤器的模式，同时数据来源于冷启动阶段的查询结果，在查询结束后冷启动阶段的数据结果(带有数据标签)会被存储于本地，当这部分作为训练集的数据结果达到方法所设定的阈值时，就训练一系列模型。简单的分类器，并将这些分类器应用于后续查询流程以进行优化。其次，针对如何将过滤器调配到最适合的参数模式问题，本发明提出了使用参数搜索的算法，对查询流程中的各个模块的中间结果进行计算，并给出指标选择最优参数配置，本发明先是给出了穷举的参数搜索方式，最终根据实验参数结果，对参数搜索算法进行了进一步优化，提升了搜索效率。此外，本发明为了满足流数据场景的响应时间条件，使用函数拟合的方式来推测机器学习推理的开销时间，从而达到控制响应时间的目的。本发明将这一系列优化技术集成。本发明后续基于流数据样本出现动态分布的新场景，给出了调整方案，调整方案基于抽样的方法获取到实时数据样本的分布，并根据此分布重新计算过滤器关系曲线，最终在新场景上取得了不错的效果。

在流数据过载场景问题上，常规的解决方案仍停留于使用负载抛弃的方法来减少负载，对于机器学习推理查询来说，这样的方案虽然能使查询按时响应，但是无法保障查询结果的准确率。与其他机器学习推理查询优化工作相比，本发明优势在于，不需要离线收集大量的带标签数据，也不需要大规模的训练阶段，只需要额外花费少量的冷启动开销时间，就能使查询结果的准确率得到有效提升，同时查询也能及时响应；而与基准的负载抛弃技术相比，整体架构中涵盖了负载抛弃模块，并在此基础上，使用过滤器进一步有选择性地筛选数据，使得查询处理更为高效。

附图说明

图1为一种过载场景下数据分类查询的优化方法的示意图；

图2为朴素查询流程的示意图；

图3为改进查询流程的示意图；

图4为准确率a与数据缩减率r_f的计算示意图；

图5为一种过载场景下数据分类查询的优化装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加明白清楚，结合附图和实施例，对本发明进一步的详细说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均在本发明保护范围。

如图1所示，首先架构图中的左侧图标“Query”表示查询到达，以情感分析为例，用户希望找到情感积极的数据，情感积极即为Query中的谓词条件。并且这个查询是一个持久的查询，因此对于后续每一个流数据窗口来说，查询均为同一个。当检测到数据流发生过载时，在实时查询刚到达的阶段，会按照朴素查询流程对过载的数据流进行查询。朴素查询流程的具体模块如图2所示，从左往右的流程所示，数据以窗口形式输入，先经过负载抛弃模块，再经过文本分类模块，最后返回给用户查询结果。与此同时，返回给用户的查询结果是带有标签的数据，而这部分数据将作为后续训练过滤器时使用的训练集，所以在整体方法中，这部分带有标签的数据在这个阶段会被预先存储在本地。

在每个查询流程开始之前，都会判断“过滤器是否可用”这一条件。这一条件对应于过滤器是否训练完成，一般来说，当朴素查询流程所收集的带有标签的数据达到了一定的阈值，就可以直接训练选定的过滤器。过滤器训练完成之后，将应用训练好的过滤器新的查询流程中，查询模式就从朴素查询流程变成了改进查询流程。改进查询流程的具体模块如图3所示，从左往右的流程所示，数据以窗口形式输入，依次经过负载抛弃模块、训练好的过滤器、文本分类模块，最后返回给用户查询结果；与朴素查询流程最大的区别就在于训练好的过滤器，因此过滤器就是本发明应对流数据过载问题的核心。

过滤器会依据查询中带有的语义信息选择性地丢弃数据，并且倾向于过滤掉大概率不符合用户查询的数据。最终，剩下的未处理的数据就会被输入到文本分类模块中，文本分类模块运行结束之后查询的响应就完成了，最终将查询结果反馈给用户。直观而言，与仅用负载抛弃技术的朴素查询流程相比，本文提出的改进查询流程最后阶段与查询条件不一致的数据数量会显著减少，因此，系统可以通过减少处理负样本的开销时间从而更高效地处理查询。同时，引入概率过滤器同样会带来精度(准确率)的问题，可以观察到，过滤器不会改变假阳性(false positive)样本的比例，但是会增加假阴性(false negative)样本的比例。

实施例1

如图1所示，本发明提供了一种过载场景下数据分类查询的优化方法，包括以下步骤：

所述本地存储的训练数据超过设定的阈值具体为：本地存储的训练数据中总文本数量TrainingDataSize超过设置的总文本数量阈值threshold_all、正样本数量PositiveDataSize超过设置的正样本数量阈值threshold_pos以及负样本数量NegativeDataSize超过设置的负样本数量阈值threshold_neg；即同时满足这3个条件，就可以使用本地存储的训练数据在线训练选定的过滤器；

TrainingDataSize≥threshold_all；

PositiveDataSize≥threshold_pos；

NegativeDataSize≥threshold_neg。

由于可能出现数据量不够或者单个数据流窗口数据不够全面等问题，导致最终不足以训练较为有效的过滤器。因此设定了一系列阈值。当新的一批数据窗口到达的时候，会首先检查这些阈值是否满足条件，只有当满足了所有阈值条件才会开始训练过滤器。一般来说，总文本数量阈值threshold_all默认设定为10000，以保证数据量足以训练效果不错的数据分类器。与此同时为了保证过滤器能够清楚地分类出是否满足查询条件或者不满足查询条件这个二分类，需要确保数据标签为“+1”的正样本以及标签为“-1”的负样本均足够，因此本发明对正样本设定了正样本数量阈值threshold_pos以及对负样本设定负样本数量阈值threshold_neg。标签“+1”表示满足查询条件的正样本，标签“-1”表示不满足查询条件的负样本。

所述过滤器为线性支持向量机、神经网络分类器或伯努利朴素贝叶斯分类器。

使用决策函数来预测新输入的数据：

其中，f(x)表示过滤器的输出。x表示输入到过滤器的数据的向量特征；以文本数据为例，在文本相关的任务当中，x通常是数据分词之后的词向量，在本文方法中，对于英文文本使用Standford NLP进行分词，而中文文本则使用Jieba库来进行分词。th表示过滤器中的阈值，同时这个值在计算过滤器的准确率和数据缩减率两个参数关系中起着至关重要的作用。

对于一个固定的准确率a，本系统要为过滤器找一个合适的阈值th_a，而这个阈值是一系列满足条件的阈值中最大的阈值，其中这一条件为：输入的数据分类预测值大于当前阈值th的样本个数比上所有数据中的正样本数目这一比值，要高于给出的准确率a，即在过滤器过滤之后的数据中，召回的正样本数据占的总数据数要高于准确率a。其中，D为整个训练数据集。

其中r_a是在固定准确率a下的数据缩减率。对于训练好的过滤器，可以通过调节其中二分类阈th来控制相应过滤器的准确率a以及数据缩减率r_f。

图4为准确率a与数据缩减率r_f的计算示意图。第一行横向代表不同的数据样本，其中的概率值即为过滤器对于数据样本的预测值，而第二行则与第一行相对应，代表数据的标签，其标签来自于本地存储的已被处理的朴素查询流程数据。其中，“-1”表示不满足查询条件的负样本，“+1”表示满足查询条件的正样本。示意图的每一列即可看作是一个数据样本，包含两个属性值，其一为过滤器对其预测值，其二为所带的数据标签。可以注意到，示意图中的例子总共有16个数据，当过滤器的阈值为th_a＝1.0时，从th_a＝1.0位置向右的样本个数为12，那么通过过滤器的样本总数即为12，其中，10个样本为带有“+1”标签的满足查询条件的正样本，同时在所有16个数据样本中，正样本数也为10个，因此th_a＝1.0即为当过滤器准确率a＝1.0时的阈值，并且此阈值为满足准确率为a＝1.0时的最大阈值，因为当th_a＝1.0继续增大，过滤器的准确率a就会发生下降，因为继续增大阈值则会有标签为“+1”的正样本被过滤掉，那么此时过滤器的准确率就会低于1.0；与此同时，也可以计算出设定过滤器阈值为th_a＝1.0时的数据缩减率r_f，因为当过滤器的阈值被确定，结合之前也预先计算出了样本的预测值，那么有多少样本被过滤掉也可以轻易求解。如图4所示，阈值th_a＝1.0左边的4个样本被过滤，因此当滤器阈值为th_a＝1.0时的数据缩减率另外，当滤器阈值为th_a＝0.8时，从th_a＝0.8位置向右的样本个数为9，那么通过过滤器的样本总数即为9，其中，8个样本为带有“+1”标签的满足查询条件的正样本，因此此时对应准确率为a＝0.8，并且此阈值为满足准确率为a＝0.8时的最大阈值，因为当th_a＝0.8继续增大，则位于阈值th_a＝0.8右侧的标签为“+1”的目标样本就会被过滤掉，那么对应的数据缩减率也即可计算出来，这个数据缩减率r_f同样也对应于相应的准确率a＝0.8。如图4时，当滤器阈值为th_a＝0.8时，左侧预测值低于阈值的数据样本个数为7个，因此对应的数据缩减率/>从上述两个例子也可以看出，当过滤器的准确率a下降时，那么对应的过滤效果就会越好，因为数据缩减率r_f会提升，会有更多的数据被过滤掉，从而使得后续需要处理的样本会更少，所以在过滤器的准确率a与其过滤数据量之间存在着一个权衡。

准确率与缩减率关系计算以字典(dict)或者映射表(map)的数据结构给出，其中以过滤器的准确率a作为Key值，数据缩减率r_f作为Value值存储。算法的主要输入为存储于本地的训练数据中的验证集数据，如算法描述所示，首先用分类器预测这一系列数据获取预测值，之后将这一系列数据按照预测值排序，算法的主体为枚举过滤器准确率acc，通过固定的acc来计算在验证集上过滤器另外两个参数的具体值，最终获取到在整个acc定义域下的参数关系，存储在映射表中。该算法理论复杂度并不高。在流数据窗口正负样本比例动态变化的场景下，该过滤器准确率与数据缩减率关系计算算法会被多次复用到。

本发明针对流数据过载场景，做出了若干优化方法，给定查询的时间限制，对此类查询进行优化，同时提出了流数据分布动态变化的场景，在该新场景中提出了一种通过抽样方法来获取输入流数据分布的方法，并基于此，重新计算过滤器的准确率与数据缩减率关系曲线，使这些过滤器适用于当前数据分布，并应用到该系统中。经实验验证，取得了不错的效果。

实施例2

参见图5，本发明实施例提供的一种过载场景下数据分类查询的优化装置，包括一个或多个处理器，用于实现上述实施例中的过载场景下数据分类查询的优化方法。

本发明过载场景下数据分类查询的优化装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明过载场景下数据分类查询的优化装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的过载场景下数据分类查询的优化方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种过载场景下数据分类查询的优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种过载场景下数据分类查询的优化方法，其特征在于，所述本地存储的训练数据超过设定的阈值具体为：本地存储的训练数据中总文本数量超过设置的总文本数量阈值、正样本数量超过设置的正样本数量阈值以及负样本数量超过设置的负样本数量阈值。

3.根据权利要求1所述的一种过载场景下数据分类查询的优化方法，其特征在于，所述过滤器为线性支持向量机、神经网络分类器或伯努利朴素贝叶斯分类器。

4.一种过载场景下数据分类查询的优化装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-3中任一项所述的过载场景下数据分类查询的优化方法。

5.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-3中任一项所述的过载场景下数据分类查询的优化方法。