CN114297582A

CN114297582A - 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法

Info

Publication number: CN114297582A
Application number: CN202111626005.1A
Authority: CN
Inventors: 张新民; 李乐清; 朱哲人
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-08

Abstract

本发明公开一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法，该方法首先使用局部敏感哈希策略对计数数据的历史数据库构建索引数据结构，然后当在线预测时，先通过多探针策略搜索在线查询样本的近邻数据候选集，进一步通过过滤策略获得查询样本的K个最近邻样本；最后利用K个最近邻样本构建局部负二项式回归模型并输出查询样本对应的输出预测值。本发明通过引入多探针局部敏感哈希策略和即时学习策略，不仅可以实现负二项式回归模型的自动更新以防止预测模型性能退化，还可以提高模型的在线计算效率，适用于处理大规模计数数据和满足预测任务的实时性需求。

Description

基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法

技术领域

本发明属于工业过程控制领域，特别涉及一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法。

背景技术

计数数据是一种重要数据类型，广泛存在于社会科学、生物医学、经济学、工业制造等学科领域中。例如，一定时间或单位内设备发生故障的次数，交换机被呼叫的次数，交通流中的事故发生数，自然灾害发生的次数，产品中的缺陷数量等。计数数据的观测值以非负整数的形式表现，是离散变量。对于该类数据，一般使用泊松模型或负二项分布模型进行建模分析，即建立某一事件发生次数y(称为因变量、输出变量或响应变量)与引起其发生的因素x(称为自变量、输入变量或协变量)之间的联系，以探究影响事件发生率的关键因素和实时预报事件的发生次数。近些年来，国内外学者们针对各种应用场景和计数数据的特性，提出了许多计数数据建模与分析方法。例如，针对计数数据存在过离散的问题，提出了负二项式回归模型；针对计数数据包含过多零的问题，提出了零膨胀回归模型和栅栏回归模型等。但是，到目前为止，面向计数数据的建模与分析方法还停留在小规模数据集层面，而对于大规模计数数据的研究相对较少。然而，随着数据越来越多地被存储到数据库中，无论从变量维度还是样本维度看，数据呈现大规模特性。此外，目前大部分计数数据回归模型多建立离线、静态、全局的预测模型，不仅忽略了数据的局部信息，而且不能随着数据特征的变化自动更新预测模型，导致模型的预测性能退化。因此，亟需提供一种快速自适应计数数据建模与分析方法，以提高模型的预测精度和预测速度。

发明内容

针对现有技术的不足，本发明提出一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法，具体技术方案如下：

一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法，该方法包括以下步骤：

步骤一：收集建模用的计数数据训练集：

其中，x代表输入变量，y代表离散计数数据类型的输出变量，N表示数据样本个数；

步骤二：运用局部敏感哈希技术对训练数据集构建索引数据结构；

步骤三：采集查询样本x_q，利用多探针策略在所述索引数据结构中搜索x_q的K个相似样本，并构建和训练局部负二项式回归模型；

步骤四：利用训练后的局部负二项式回归模型对查询样本x_q对应的输出进行预测。

进一步地，所述步骤二具体包括：

构建L个哈希表，每个哈希表通过局部敏感哈希串联函数g_i(x)＝(h_i1(x)，…，h_ij(x)，…，h_iM(x))获得；M表示哈希函数数量；h_ij(x)表示向量x的第i个哈希表中的第j个局部敏感哈希函数，1≤i≤L，1≤j≤M；每个g_i(x)表示哈希值或者密钥，x存储在每个密钥对应的一个特定存储区，该特定区域定义为哈希桶；所述局部敏感哈希函数需要满足下列性质：

若D(x_i，x_j)≤r，则P(h(x_i)＝h(x_j))≥p₁ (1)

若D(x_i，x_j)≥cr，则P(h(x_i)＝h(x_j))≤p₂ (2)

其中，x_i，x_j为高维空间的任意两点；c、r为常数，c＞1，p₁＞p₂；D(x_i，x_j)为基于欧式距离的相似性度量函数；所述局部敏感哈希函数为基于P-稳定分布的局部敏感哈希函数，定义如下：

其中，α为一个d维的随机向量，该向量的每一维都服从P-稳定分布；w代表哈希桶宽度；b是一个从范围[0，w]均匀选取的实数；每个局部敏感哈希函数h(x)将一个d维向量x映射到整数集上。

进一步地，所述步骤三具体包括：

(3.1)给定查询样本x_q，计算查询样本x_q在第i个哈希表中的哈希值g_i(x_q)；

(3.2)生成探测序列(Δ₁，Δ₂…，Δ_k，…)，其中Δ_k为哈希扰动向量，Δ_k＝(δ₁，…，δ_M)，δ_i∈{-1，0，1}；

(3.3)计算查询样本x_q的新的哈希值g_i(x_q)+Δ_k；

(3.4)搜索哈希表中与g_i(x_q)以及g_i(x_q)+Δ_k对应的哈希桶中的样本，并把这些样本组成候选样本集

N_c为候选数据集中样本的数量；

(3.5)对候选数据集进一步实施线性搜索，最后获得查询样本x_q对应的最近邻数据样本集

K为最近邻数据集样本的数量；

(3.6)采用最近邻数据集及其对应的输出变量

构建局部负二项式回归模型；所述负二项式回归模型假定计数数据输出变量服从如下的负二项式分布：

其中，u_f为均值参数，α为离散系数，Γ(·)代表伽马函数；

所述负二项式分布的状态均值和方差表示为：

E(y_f|x_f)＝u_f (5)

Var(y_f|x_f)＝u_f(1+αu_f) (6)

所述负二项式回归模型的计算公式为：

u_f＝exp(x_f ^Tβ) (7)

其中，β为回归系数，exp(·)为指数函数；负二项式回归模型的参数通过最大似然估计方法获得，其对数似然函数表示为：

其中，y_f！表示y_f的阶乘。

本发明的有益效果如下：

本发明将多探针局部敏感哈希和即时学习策略引入离散的计数数据建模框架，构建了一种快速自适应的负二项式回归模型，以实现计数数据回归模型的快速自适应更新。该方法可以克服传统计数数据回归模型预测性能退化的缺陷，适用于具有非线性和时变性的工业过程；另外，本发明提升了模型预测速度，适用于处理大规模计数数据和满足预测任务的实时性需求。

附图说明

图1为基于多探针局部敏感哈希负二项式回归模型的离散计数数据建模方法的示意图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供的基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法，具体包括如下步骤：

步骤一：收集建模用的计数数据训练集：

步骤二：运用局部敏感哈希技术对训练数据集构建索引数据结构，具体分为如下的子步骤：

构建L个哈希表，每个哈希表通过局部敏感哈希串联函数g_i(x)＝(h_i1(x)，…，h_ij(x)，…，h_iM(x))获得；M表示哈希函数数量；h_ij(x)表示向量x的第i个哈希表中的第j个局部敏感哈希函数，1≤i≤L，1≤j≤M；每个g_i(x)表示哈希值或者密钥，x存储在每个密钥对应的一个特定存储区，该特定区域定义为哈希桶。

局部敏感哈希技术的基本思想为，对于高维空间的任意两点x_i，x_j，相似性度量函数为D(x_i，x_j)，局部敏感哈希函数需要满足下列性质：

若D(x_i，x_j)≤r，则P(h(x_i)＝h(x_j))≥p₁ (1)

若D(x_i，x_j)≥cr，则P(h(x_i)＝h(x_j))≤p₂ (2)

其中，c、r为常数，c＞1和p₁＞p₂。局部敏感哈希函数对高维数据空间中的数据对象进行映射，使得彼此靠近(距离r内的对象)的对象发生碰撞的概率远远高于相距较远(距离大于cr的对象)的对象。不同的局部敏感哈希函数可以用于不同的相似性度量函数D。针对欧氏距离，基于P-稳定分布的局部敏感哈希函数定义如下：

其中，α为一个d维的随机向量，该向量的每一维都服从P-稳定分布；w代表哈希桶宽度；b是一个从范围[0，w]均匀选取的实数。每个哈希函数h(x)将一个d维向量x映射到整数集上。本发明中使用的p-稳定分布是高斯分布，它是2-稳定的，适用于欧氏距离。

步骤三：采集查询样本x_q，利用多探针策略在所述索引数据结构中搜索x_q的K个相似样本，并构建和训练局部负二项式回归模型；所述步骤三具体分为如下的子步骤：

(3.2)生成探测序列(Δ₁，Δ₂…，Δ_k，…)，其中Δ_k为哈希扰动向量，Δ_k＝(δ₁，…，δ_M)，δ_i∈{-1，0，1}；多探针局部敏感哈希使用哈希扰动向量可以探测哈希表中的多个哈希桶。

(3.3)计算查询样本x_q的新的哈希值g_i(x_q)+Δ_k；

g_i(x_q)+Δ_k指向哈希表中另一个哈希桶。这样多探针局部敏感哈希在第i个哈希表中不仅索引g_i(x_q)对应的哈希桶中的样本还可以索引g_i(x_q)+Δ₁对应的哈希桶中的样本。通过使用多个扰动向量，多探针局部敏感哈希可以一次性定位更多的哈希桶，这些哈希桶通常大都靠近g_i(x_q)对应的哈希桶，并且大概率包含x_q的相似样本。通过探测每个哈希表中的多个哈希桶，多探针局部敏感哈希需要的哈希表的数量显著减少，从而进一步节省数据的存储空间。

N_c为候选数据集中样本的数量；

K为最近邻数据集样本的数量；

由于局部敏感哈希算法作为近似搜索算法，存在一定概率使得近邻数据不在搜索结果中，这会导致准确率下降，因此本发明使用“过滤”手段对候选数据集进一步实施线性搜索。

(3.6)采用最近邻数据集及其对应的输出变量

其中，u_f为均值参数，α为离散系数，Γ(·)代表伽马函数；

所述负二项式分布的状态均值和方差表示为：

E(y_f|x_f)＝u_f (5)

Var(y_f|x_f)＝u_f(1+αu_f) (6)

负二项式分布的方差大于其均值，可以解释计数数据的离散现象。

所述负二项式回归模型的计算公式为：

u_f＝exp(x_f ^Tβ) (7)

其中，y_f！表示y_f的阶乘。

步骤四：利用训练后的局部负二项式回归模型对查询样本x_q对应的输出进行预测。每个新的查询样本到来时，均重复执行步骤三和步骤四。

下面以一个具体中厚板轧制过程实例验证本发明方法的有效性。所有数据采集于某钢铁厂中厚板轧制过程，每一条数据包含一个计数类型的输出变量(中厚板内部缺陷数量)和146个与中厚板内部缺陷相关的过程操作变量。过程操作变量包含轧制温度、冷却温度、传热温度等。采集的数据被分成训练数据集，验证数据集和测试数据集。其中，训练数据集包含80500个样本，验证数据集包含2000个样本，测试数据集包含3000个样本。在该实施例中，候选数据集的规模设置为N_c＝1000，最近邻数据集的规模设置为K＝100，哈希表数量设置为L＝4，哈希函数个数设置M＝20，探针数量设置P＝11。从预测精度和预测速度两方面来定量评估本发明方法的预测性能，其中预测精度通过均方根误差作为评价指标，其计算公式如下：

其中，y_i为测试数据中的实际观测值，

为模型输出的预测值，N_t为测试数据的样本数量。RMSE值越小，说明模型预测越准确。而对于模型的预测速度，则通过模型的在线预测时间作为评价指标。本实施例中，实验环境配置为2.80GHz Intel Core i7-7700HQ CPU，16GB RAM。

表1展示了本发明方法在预测精度和预测速度方面的优势。其中，NB(负二项式回归模型)方法利用所有训练数据构建一个全局的预测模型；JIT-NB方法与MLSH-NB(本发明方法)的不同是，JIT-NB运用线性搜索方法搜索最近邻样本。

表1利用所有训练数据构建三个不同预测模型的预测精度和时间

从表中可以看出，全局NB模型的预测精度很差，尽管预测速度较快；JIT-NB方法的预测精度最高，但是预测速度很慢；相比之下，本发明方法MLSH-NB获得了与JIT-NB方法相似的预测精度，但预测速度显著提高。因此，本发明方法MLSH-NB在预测精度和预测速度方面取得了很好的平衡。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。