CN108549709B

CN108549709B - 区块链内外多源异构数据基于广度学习算法的融合方法

Info

Publication number: CN108549709B
Application number: CN201810357191.5A
Authority: CN
Inventors: 郑相涵; 翟宇波
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2019-02-22
Anticipated expiration: 2038-04-20
Also published as: CN108549709A

Abstract

本发明涉及一种区块链内外多源异构数据基于广度学习算法的融合方法,应用机器学习中的广度学习来进行区块链内外关联数据的知识融合。通过将多种数据源融合进一个模型进行挖掘，首先定义并获取有用的数据源，其次设计一种模型来将异质数据源信息融合起来，最后基于模型整体的需求从各种数据源中深度挖掘信息。

Description

区块链内外多源异构数据基于广度学习算法的融合方法

技术领域

本发明涉及一种区块链内外多源异构数据基于广度学习算法的融合方法。

背景技术

在已经来临的信息化时代，进入人们视野的信息越来越多，来源越来越多，相关的信息复杂度也越来越大。因此，在信息处理中心，已经绝对不允许多源的观测信息仅仅是持续的简单的堆积，需要对其进行有效的融合处理。而信息表现表现形式的多样性，信息容量以及信息的处理速度等，都已经远远超出了以往系统的处理能力，需要有信息融合技术的更新换代。

目前，区块链的产业应用已经从1.0时代的数字货币应用(例如，比特币)，进化到2.0时代的智能合约应用(例如，跨境支付、证券发行与交易、数字资产管理等)。随着研究的深入及数据的多元化呈现，区块链技术正在向3.0时代的各行各业迈进(例如，数据追踪、防伪溯源、身份认证、知识产权保护、能源管理等领域)。那么随着越来越多的区块链技术的成熟和应用的落地，在区块链技术领域的数据的积累也势必将越来越多。这就催促着人们能够有效地对区块链中的数据进行分析与处理。

区块链主要涉及三类数据：链内区块数据、链外关联数据、链间迁移数据。

链内区块数据记录着整个区块链的所有交易；链外关联数据是链内区块数据的外部关联与补充；链间迁移数据是不同区块链间的流通数据。基于这三类数据开展数据建模、学习与融合研究，有助于分析区块链系统各核心要素的行为特征，预测演化规律和相互作用关系。

现有研究者已围绕区块链环境下的数据融合这一崭新领域展开了一定的调研与探索，但并不成熟，缺乏一个以机器学习理论为工具支撑的解决方案，总体研究尚处于起步阶段，没有形成较为完善的特征学习理论体系。

发明内容

有鉴于此，本发明的目的在于提供一种区块链内外多源异构数据基于广度学习算法的融合方法，用于区块链内外多源异构数据的趋势预测。

为实现上述目的，本发明采用如下技术方案：

一种区块链内外多源异构数据基于广度学习算法的融合方法,其特征在于：

步骤S1:将多种类型的数据包括用户视角的数据和行为视角的数据，映射到高维非线性的潜在空间中的多源数据；

步骤S2:使用词嵌入技术将多源数据转化为低维空间中的向量，得到多源数据简单的，初步的分布式表示X^p和X^u，X^p和X^u分别为行为视角的数据分布式表示和用户视角的数据分布式表示，将其作为卷积神经网络模型的输入；

步骤S3:将X^p和X^u通过卷积神经网络模型进行卷积操作，得到卷积操作提取的用户视角抽象特征c^u和行为视角抽象特征c^p；

步骤S4:对于行为视角抽象特征c^p，继续作为LSTM模块的输入，可以得到LSTM模块的最后时刻隐藏层输出h_t，并将最后时刻隐藏的输出h_t作为行为视角的最终特征。

步骤S5:通过趋势预测层联合优化用户视角抽象特征c^u和行为视角的最终特征h_t,并预设整个模型架构的最小化误差值,且误差值公式为：

其中n_sampl_es表示n个样本，n_labels表示n个标签，是数据的真实趋势，L_ij＝{(k,l):f_ik＜f_ij,y_ik＝1,y_il＝0},是分类器的预测趋势,若ranking(y,f)小于预设的最小化误差值，则说明本模型得到的分类器的预测趋势与数据的真实趋势满足数据趋势预测的要求。

进一步的，所述步骤S2使用词嵌入技术将多源数据转化为低维空间中的向量，具体为：

假定向量维度为d，行为视角的评论句子的长度为l_p，用户视角的评论句子的长度为l_u，则行为视角的数据分布式表示为：

用户视角的数据分布式表示为：

且其中，R表示向量空间，和分别是X^p和X^u的第i个位置的词向量；

进一步的，所述卷积操作得到用户视角抽象特征c^u具体包括：

假定数据分布表达式中的第i到j个词向量拼接为

对拼接的词向量x_ij进行卷积操作，公式为：

得到对应数据分布表达式的抽象特征：

其中，h为卷积核的长度，W∈R^h*d为卷积核的权重矩阵，L为一条评论的长度，b∈R^d为偏置项。

进一步的，所述卷积操作得到行为视角抽象特征c^p具体包括：

假定数据分布表达式中的第i到j个词向量拼接为

对拼接的词向量x_ij进行卷积操作，公式为：

得到对应数据分布表达式的抽象特征：

进一步的，所述步骤S4具体为：

LSTM能学习到文本的语义序列特征，这是因为它以指定的周期循环地执行cell块，每个cell块依赖于前一个时刻隐藏层的输出h_t-1和当前时刻的输入x_t；每个cell块包含三个门限：遗忘门f_t，输入门i_t，输出门o_t，其公式分别为：

i_t＝δ(W_f·[h_t-1,x_t]+b_f) (6)

f_t＝δ(W_i·[h_t-1,x_t]+b_i) (7)

o_t＝δ(W_o·[h_t-1,x_t]+b_o) (8)

其中δ表示激活函W_f，W_i，W_o分别是遗忘门f_t，输入门i_t，输出门o_t的权重参数，b_f，b_i，b_o分别是遗忘门，输入门，输出门的偏置项；

根据遗忘门f_t，输入门i_t，可以得到当前时刻遗忘门的临时状态C_t为：

C_t和C_t-1分别为当前时刻和上一时刻遗忘门的临时状态

根据当前时刻遗忘门的临时状态C_t，可以得到LSTM模块的最后时刻隐藏层输出h_t为：

h_t＝o_t*tanh(C_t) (11)

并将最后时刻隐藏的输出h_t作为行为视角的最终特征。

其中n_samples表示n个样本，n_labels表示n个标签，是数据的真实趋势，L_ij＝{(k,l):f_ik＜f_ij,y_ik＝1,y_il＝0},是分类器的预测趋势,若ranking(y,f)小于预设的最小化误差值，则说明本模型得到的分类器的预测趋势与数据的真实趋势满足数据趋势预测的要求。

本发明与现有技术相比具有以下有益效果：

本发明是区块链内外多源异构数据基于广度学习算法的融合方法。面向区块链环境下的数据融合领域，借助机器学习理论，链内与链外关联数据的融合理论与关键方法，具有重要的学术与应用价值。

附图说明

图1是本发明模型图

图2是本发明整体架构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种区块链内外多源异构数据基于广度学习算法的融合方法,其特征在于：

步骤S5:通过趋势预测层联合优化用户视角抽象特征c^u和行为视角的最终特征h_t,并设定整个模型架构的目的为最小化误差。

在本发明一实施例中，进一步的，所述步骤S2使用词嵌入技术将多源数据转化为低维空间中的向量，具体为：

用户视角的数据分布式表示为：

在本发明一实施例中，进一步的，所述卷积操作具体包括：

假定数据分布表达式中的第i到j个词向量拼接为x_ij，则：

c_i＝f(W*X_ij+b)c_i (4)

c＝[c₁,c₂,...,c_L-b+1] (5)

在本发明一实施例中，进一步的，所述步骤S4具体为：

LSTM能学习到文本的语义序列特征，这是因为它以指定的周期循环地执行cell块，每个cell块依赖于前一个时刻隐藏层的输出h_t-1和当前时刻的输入x_t；每个cell块包含三个门限：遗忘门f_t，输入门i_t，输出门o_t；具体的计算过程如下公式所示：

i_t＝δ(W_f·[h_t-1,x_t]+b_f) (6)

f_t＝δ(W_i·[h_t-1,x_t]+b_i) (7)

o_t＝δ(W_o·[h_t-1,x_t]+b_o) (10)

h_t＝o_t*tanh(C_t) (11)

δ表示激活函其中W_f，W_i，W_o分别是遗忘门f_t，输入门i_t，输出门o_t的权重参数，b_f，b_i，b_o分别是遗忘门，输入门，输出门的偏置项，C_t和C_t-1分别为当前时刻和上一时刻遗忘门的临时状态。每个门限采用sigmoid函数将各自的值处理成[0,1]内的概率值。cell块将遗忘门和前一时刻的状态C_t-1相乘，目的在于以一定概率丢弃旧状态中无用的信息，仅保留重要的信息以便后续的传递。则是根据之前的输入h_t-1和当前的输入x_t并结合tanh函数计算出的当前时刻t的临时状态，因此将和输入门x_t相乘能够提取其中的重要信息。在此基础上，根据公式(9)可计算出当前时刻t的状态C_t，最终将其用tanh函数进行非线性变换后再乘上输出门即可得到当前时刻的输出h_t。我们取LSTM的最后时刻的输出h_t作为POI视角对应评论的最终特征。

在本发明一实施例中，进一步的，所述设定定整个模型架构的目的为最小化误差，

如下公式所示：

其中n_samples表示n个样本，n_labels表示n个标签，是数据的真实标签，L_ij＝{(k，l)：f_ik＜f_ij，y_ik＝1，y_il＝0},是分类器的预测情况。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种区块链内外多源异构数据基于广度学习算法的融合方法,其特征在于：

步骤S4:对于行为视角抽象特征c^p，继续作为LSTM模块的输入，可以得到LSTM模块的最后时刻隐藏层输出h_t，并将最后时刻隐藏的输出h_t作为行为视角的最终特征；

其中n_samples表示n个样本，n_labels表示n个标签，是数据的真实趋势，L_ij＝{(k,l):f_ik＜f_ij,y_ik＝1,y_il＝0},L_ij表示第i个样本对应第j个标签的预测误差值，其中(k,l)是行向量，表示第k个预测标签与第l个实际标签的误差值；f_ik＜f_ij表示第i个样本对应的第k个标签的预测值小于第i个样本对应的第j个标签的预测值，即表示预测错误；y_ik表示第i个样本对应的第k个标签的真实值，y_il表示第i个样本对应的第l个标签的真实值；是分类器的预测趋势,若ranking(y,f)小于预设的最小化误差值，则说明本模型得到的分类器的预测趋势满足预设的数据趋势预测的要求。

2.根据权利要求1所述的一种区块链内外多源异构数据基于广度学习算法的融合方法,其特征在于：所述步骤S2使用词嵌入技术将多源数据转化为低维空间中的向量，具体为：

用户视角的数据分布式表示为：

且其中，R表示向量空间，和分别是X^p和X^u的第i个位置的词向量。

3.根据权利要求2所述的一种区块链内外多源异构数据基于广度学习算法的融合方法,其特征在于：所述卷积操作得到用户视角抽象特征c^u具体包括：

假定数据分布表达式中的第i到j个词向量拼接为

对拼接的词向量x_ij进行卷积操作，公式为：

得到对应数据分布表达式的抽象特征：

4.根据权利要求2所述的一种区块链内外多源异构数据基于广度学习算法的融合方法,其特征在于：所述卷积操作得到行为视角抽象特征c^p具体包括：

假定数据分布表达式中的第i到j个词向量拼接为

对拼接的词向量x_ij进行卷积操作，公式为：

得到对应数据分布表达式的抽象特征：

5.根据权利要求1所述的一种区块链内外多源异构数据基于广度学习算法的融合方法,其特征在于：所述步骤S4具体为：

i_t＝δ(W_f·[h_t-1,x_t]+b_f) (6)

f_t＝δ(W_i·[h_t-1,x_t]+b_i) (7)

o_t＝δ(W_o·[h_t-1,x_t]+b_o) (8)

其中δ表示激活函数,W_f，W_i，W_o分别是遗忘门f_t，输入门i_t，输出门o_t的权重参数，b_f，b_i，b_o分别是遗忘门，输入门，输出门的偏置项；W_C为候选值向量的权重参数；b_C为候选值向量的偏置项；

C_t和C_t-1分别为当前时刻和上一时刻遗忘门的临时状态

h_t＝o_t*tanh(C_t) (11)

并将最后时刻隐藏的输出h_t作为行为视角的最终特征。