CN114297582A - 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法 - Google Patents
基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法 Download PDFInfo
- Publication number
- CN114297582A CN114297582A CN202111626005.1A CN202111626005A CN114297582A CN 114297582 A CN114297582 A CN 114297582A CN 202111626005 A CN202111626005 A CN 202111626005A CN 114297582 A CN114297582 A CN 114297582A
- Authority
- CN
- China
- Prior art keywords
- hash
- negative binomial
- regression model
- data
- binomial regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法,该方法首先使用局部敏感哈希策略对计数数据的历史数据库构建索引数据结构,然后当在线预测时,先通过多探针策略搜索在线查询样本的近邻数据候选集,进一步通过过滤策略获得查询样本的K个最近邻样本;最后利用K个最近邻样本构建局部负二项式回归模型并输出查询样本对应的输出预测值。本发明通过引入多探针局部敏感哈希策略和即时学习策略,不仅可以实现负二项式回归模型的自动更新以防止预测模型性能退化,还可以提高模型的在线计算效率,适用于处理大规模计数数据和满足预测任务的实时性需求。
Description
技术领域
本发明属于工业过程控制领域,特别涉及一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法。
背景技术
计数数据是一种重要数据类型,广泛存在于社会科学、生物医学、经济学、工业制造等学科领域中。例如,一定时间或单位内设备发生故障的次数,交换机被呼叫的次数,交通流中的事故发生数,自然灾害发生的次数,产品中的缺陷数量等。计数数据的观测值以非负整数的形式表现,是离散变量。对于该类数据,一般使用泊松模型或负二项分布模型进行建模分析,即建立某一事件发生次数y(称为因变量、输出变量或响应变量)与引起其发生的因素x(称为自变量、输入变量或协变量)之间的联系,以探究影响事件发生率的关键因素和实时预报事件的发生次数。近些年来,国内外学者们针对各种应用场景和计数数据的特性,提出了许多计数数据建模与分析方法。例如,针对计数数据存在过离散的问题,提出了负二项式回归模型;针对计数数据包含过多零的问题,提出了零膨胀回归模型和栅栏回归模型等。但是,到目前为止,面向计数数据的建模与分析方法还停留在小规模数据集层面,而对于大规模计数数据的研究相对较少。然而,随着数据越来越多地被存储到数据库中,无论从变量维度还是样本维度看,数据呈现大规模特性。此外,目前大部分计数数据回归模型多建立离线、静态、全局的预测模型,不仅忽略了数据的局部信息,而且不能随着数据特征的变化自动更新预测模型,导致模型的预测性能退化。因此,亟需提供一种快速自适应计数数据建模与分析方法,以提高模型的预测精度和预测速度。
发明内容
针对现有技术的不足,本发明提出一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法,具体技术方案如下:
一种基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法,该方法包括以下步骤:
步骤二:运用局部敏感哈希技术对训练数据集构建索引数据结构;
步骤三:采集查询样本xq,利用多探针策略在所述索引数据结构中搜索xq的K个相似样本,并构建和训练局部负二项式回归模型;
步骤四:利用训练后的局部负二项式回归模型对查询样本xq对应的输出进行预测。
进一步地,所述步骤二具体包括:
构建L个哈希表,每个哈希表通过局部敏感哈希串联函数gi(x)=(hi1(x),…,hij(x),…,hiM(x))获得;M表示哈希函数数量;hij(x)表示向量x的第i个哈希表中的第j个局部敏感哈希函数,1≤i≤L,1≤j≤M;每个gi(x)表示哈希值或者密钥,x存储在每个密钥对应的一个特定存储区,该特定区域定义为哈希桶;所述局部敏感哈希函数需要满足下列性质:
若D(xi,xj)≤r,则P(h(xi)=h(xj))≥p1 (1)
若D(xi,xj)≥cr,则P(h(xi)=h(xj))≤p2 (2)
其中,xi,xj为高维空间的任意两点;c、r为常数,c>1,p1>p2;D(xi,xj)为基于欧式距离的相似性度量函数;所述局部敏感哈希函数为基于P-稳定分布的局部敏感哈希函数,定义如下:
其中,α为一个d维的随机向量,该向量的每一维都服从P-稳定分布;w代表哈希桶宽度;b是一个从范围[0,w]均匀选取的实数;每个局部敏感哈希函数h(x)将一个d维向量x映射到整数集上。
进一步地,所述步骤三具体包括:
(3.1)给定查询样本xq,计算查询样本xq在第i个哈希表中的哈希值gi(xq);
(3.2)生成探测序列(Δ1,Δ2…,Δk,…),其中Δk为哈希扰动向量,Δk=(δ1,…,δM),δi∈{-1,0,1};
(3.3)计算查询样本xq的新的哈希值gi(xq)+Δk;
其中,uf为均值参数,α为离散系数,Γ(·)代表伽马函数;
所述负二项式分布的状态均值和方差表示为:
E(yf|xf)=uf (5)
Var(yf|xf)=uf(1+αuf) (6)
所述负二项式回归模型的计算公式为:
uf=exp(xf Tβ) (7)
其中,β为回归系数,exp(·)为指数函数;负二项式回归模型的参数通过最大似然估计方法获得,其对数似然函数表示为:
其中,yf!表示yf的阶乘。
本发明的有益效果如下:
本发明将多探针局部敏感哈希和即时学习策略引入离散的计数数据建模框架,构建了一种快速自适应的负二项式回归模型,以实现计数数据回归模型的快速自适应更新。该方法可以克服传统计数数据回归模型预测性能退化的缺陷,适用于具有非线性和时变性的工业过程;另外,本发明提升了模型预测速度,适用于处理大规模计数数据和满足预测任务的实时性需求。
附图说明
图1为基于多探针局部敏感哈希负二项式回归模型的离散计数数据建模方法的示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供的基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法,具体包括如下步骤:
步骤二:运用局部敏感哈希技术对训练数据集构建索引数据结构,具体分为如下的子步骤:
构建L个哈希表,每个哈希表通过局部敏感哈希串联函数gi(x)=(hi1(x),…,hij(x),…,hiM(x))获得;M表示哈希函数数量;hij(x)表示向量x的第i个哈希表中的第j个局部敏感哈希函数,1≤i≤L,1≤j≤M;每个gi(x)表示哈希值或者密钥,x存储在每个密钥对应的一个特定存储区,该特定区域定义为哈希桶。
局部敏感哈希技术的基本思想为,对于高维空间的任意两点xi,xj,相似性度量函数为D(xi,xj),局部敏感哈希函数需要满足下列性质:
若D(xi,xj)≤r,则P(h(xi)=h(xj))≥p1 (1)
若D(xi,xj)≥cr,则P(h(xi)=h(xj))≤p2 (2)
其中,c、r为常数,c>1和p1>p2。局部敏感哈希函数对高维数据空间中的数据对象进行映射,使得彼此靠近(距离r内的对象)的对象发生碰撞的概率远远高于相距较远(距离大于cr的对象)的对象。不同的局部敏感哈希函数可以用于不同的相似性度量函数D。针对欧氏距离,基于P-稳定分布的局部敏感哈希函数定义如下:
其中,α为一个d维的随机向量,该向量的每一维都服从P-稳定分布;w代表哈希桶宽度;b是一个从范围[0,w]均匀选取的实数。每个哈希函数h(x)将一个d维向量x映射到整数集上。本发明中使用的p-稳定分布是高斯分布,它是2-稳定的,适用于欧氏距离。
步骤三:采集查询样本xq,利用多探针策略在所述索引数据结构中搜索xq的K个相似样本,并构建和训练局部负二项式回归模型;所述步骤三具体分为如下的子步骤:
(3.1)给定查询样本xq,计算查询样本xq在第i个哈希表中的哈希值gi(xq);
(3.2)生成探测序列(Δ1,Δ2…,Δk,…),其中Δk为哈希扰动向量,Δk=(δ1,…,δM),δi∈{-1,0,1};多探针局部敏感哈希使用哈希扰动向量可以探测哈希表中的多个哈希桶。
(3.3)计算查询样本xq的新的哈希值gi(xq)+Δk;
gi(xq)+Δk指向哈希表中另一个哈希桶。这样多探针局部敏感哈希在第i个哈希表中不仅索引gi(xq)对应的哈希桶中的样本还可以索引gi(xq)+Δ1对应的哈希桶中的样本。通过使用多个扰动向量,多探针局部敏感哈希可以一次性定位更多的哈希桶,这些哈希桶通常大都靠近gi(xq)对应的哈希桶,并且大概率包含xq的相似样本。通过探测每个哈希表中的多个哈希桶,多探针局部敏感哈希需要的哈希表的数量显著减少,从而进一步节省数据的存储空间。
由于局部敏感哈希算法作为近似搜索算法,存在一定概率使得近邻数据不在搜索结果中,这会导致准确率下降,因此本发明使用“过滤”手段对候选数据集进一步实施线性搜索。
其中,uf为均值参数,α为离散系数,Γ(·)代表伽马函数;
所述负二项式分布的状态均值和方差表示为:
E(yf|xf)=uf (5)
Var(yf|xf)=uf(1+αuf) (6)
负二项式分布的方差大于其均值,可以解释计数数据的离散现象。
所述负二项式回归模型的计算公式为:
uf=exp(xf Tβ) (7)
其中,β为回归系数,exp(·)为指数函数;负二项式回归模型的参数通过最大似然估计方法获得,其对数似然函数表示为:
其中,yf!表示yf的阶乘。
步骤四:利用训练后的局部负二项式回归模型对查询样本xq对应的输出进行预测。每个新的查询样本到来时,均重复执行步骤三和步骤四。
下面以一个具体中厚板轧制过程实例验证本发明方法的有效性。所有数据采集于某钢铁厂中厚板轧制过程,每一条数据包含一个计数类型的输出变量(中厚板内部缺陷数量)和146个与中厚板内部缺陷相关的过程操作变量。过程操作变量包含轧制温度、冷却温度、传热温度等。采集的数据被分成训练数据集,验证数据集和测试数据集。其中,训练数据集包含80500个样本,验证数据集包含2000个样本,测试数据集包含3000个样本。在该实施例中,候选数据集的规模设置为Nc=1000,最近邻数据集的规模设置为K=100,哈希表数量设置为L=4,哈希函数个数设置M=20,探针数量设置P=11。从预测精度和预测速度两方面来定量评估本发明方法的预测性能,其中预测精度通过均方根误差作为评价指标,其计算公式如下:
其中,yi为测试数据中的实际观测值,为模型输出的预测值,Nt为测试数据的样本数量。RMSE值越小,说明模型预测越准确。而对于模型的预测速度,则通过模型的在线预测时间作为评价指标。本实施例中,实验环境配置为2.80GHz Intel Core i7-7700HQ CPU,16GB RAM。
表1展示了本发明方法在预测精度和预测速度方面的优势。其中,NB(负二项式回归模型)方法利用所有训练数据构建一个全局的预测模型;JIT-NB方法与MLSH-NB(本发明方法)的不同是,JIT-NB运用线性搜索方法搜索最近邻样本。
表1利用所有训练数据构建三个不同预测模型的预测精度和时间
从表中可以看出,全局NB模型的预测精度很差,尽管预测速度较快;JIT-NB方法的预测精度最高,但是预测速度很慢;相比之下,本发明方法MLSH-NB获得了与JIT-NB方法相似的预测精度,但预测速度显著提高。因此,本发明方法MLSH-NB在预测精度和预测速度方面取得了很好的平衡。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (3)
2.根据权利要求1所述的基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法,其特征在于,所述步骤二具体包括:
构建L个哈希表,每个哈希表通过局部敏感哈希串联函数gi(x)=(hi1(x),…,hij(x),…,hiM(x))获得;M表示哈希函数数量;hij(x)表示向量x的第i个哈希表中的第j个局部敏感哈希函数,1≤i≤L,1≤j≤M;每个gi(x)表示哈希值或者密钥,x存储在每个密钥对应的一个特定存储区,该特定区域定义为哈希桶;所述局部敏感哈希函数需要满足下列性质:
若D(xi,xf)≤r,则P(h(xi)=h(xj))≥p1 (1)
若D(xi,xf)≥cr,则P(h(xi)=h(xj))≤p2 (2)
其中,xi,xj为高维空间的任意两点;c、r为常数,c>1,p1>p2;D(xi,xf)为基于欧式距离的相似性度量函数;所述局部敏感哈希函数为基于P-稳定分布的局部敏感哈希函数,定义如下:
其中,α为一个d维的随机向量,该向量的每一维都服从P-稳定分布;w代表哈希桶宽度;b是一个从范围[0,w]均匀选取的实数;每个局部敏感哈希函数h(x)将一个d维向量x映射到整数集上。
3.根据权利要求2所述的基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法,其特征在于,所述步骤三具体包括:
(3.1)给定查询样本xq,计算查询样本xq在第i个哈希表中的哈希值gi(xq);
(3.2)生成探测序列(Δ1,Δ2…,Δk,…),其中Δk为哈希扰动向量,Δk=(δ1,…,δM),δi∈{-1,0,1};
(3.3)计算查询样本xq的新的哈希值gi(xq)+Δk;
其中,uf为均值参数,α为离散系数,Γ(·)代表伽马函数;
所述负二项式分布的状态均值和方差表示为:
E(yf|xf)=uf (5)
Var(yf|xf)=uf(1+αuf) (6)
所述负二项式回归模型的计算公式为:
uf=exp(xf Tβ) (7)
其中,β为回归系数,exp(·)为指数函数;负二项式回归模型的参数通过最大似然估计方法获得,其对数似然函数表示为:
其中,yf!表示yf的阶乘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111626005.1A CN114297582A (zh) | 2021-12-28 | 2021-12-28 | 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111626005.1A CN114297582A (zh) | 2021-12-28 | 2021-12-28 | 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297582A true CN114297582A (zh) | 2022-04-08 |
Family
ID=80972426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111626005.1A Pending CN114297582A (zh) | 2021-12-28 | 2021-12-28 | 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297582A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089731A (zh) * | 2023-04-10 | 2023-05-09 | 山东大学 | 一种缓解灾难性遗忘的在线哈希检索方法及系统 |
-
2021
- 2021-12-28 CN CN202111626005.1A patent/CN114297582A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089731A (zh) * | 2023-04-10 | 2023-05-09 | 山东大学 | 一种缓解灾难性遗忘的在线哈希检索方法及系统 |
CN116089731B (zh) * | 2023-04-10 | 2023-07-14 | 山东大学 | 一种缓解灾难性遗忘的在线哈希检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | A graph-based approach for trajectory similarity computation in spatial networks | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
Wang et al. | A new predictive model for strip crown in hot rolling by using the hybrid AMPSO‐SVR‐based approach | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
Shi et al. | Dynamic barycenter averaging kernel in RBF networks for time series classification | |
Fan et al. | Adaptive partition intuitionistic fuzzy time series forecasting model | |
Chen et al. | Embedding-based similarity computation for massive vehicle trajectory data | |
Pei et al. | The clustering algorithm based on particle swarm optimization algorithm | |
Adeyemo et al. | Effects of normalization techniques on logistic regression in data science | |
CN114297582A (zh) | 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法 | |
CN104778480A (zh) | 一种基于局部密度和测地距离的分层谱聚类方法 | |
Sagar et al. | Analysis of prediction techniques based on classification and regression | |
Zhang et al. | Trajectory similarity assessment on road networks via embedding learning | |
CN116245259B (zh) | 基于深度特征选择的光伏发电预测方法、装置和电子设备 | |
Fan et al. | An improved quantum clustering algorithm with weighted distance based on PSO and research on the prediction of electrical power demand | |
CN112182026A (zh) | 一种考虑流形排序算法的电网截面数据检索方法 | |
CN115829683A (zh) | 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统 | |
Zhang et al. | Machine Tools Thermal Error Modeling with Imbalanced Data Based on Transfer Learning | |
Dehuri et al. | Comparative study of clustering algorithms | |
Chen et al. | Meta-learning based Classification for moving object trajectories in Mobile IoT | |
Kaur et al. | Blog response volume prediction using adaptive neuro fuzzy inference system | |
CN112733903A (zh) | 基于svm-rf-dt组合的空气质量监测与告警方法、系统、装置和介质 | |
Shu | Analysis on ordered weighted averaging operators in different types and applications for decision making | |
Yang et al. | Collaborative filtering recommendation model based on fuzzy clustering algorithm | |
Li | Practice of machine learning algorithm in data mining field |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |