CN110516950A

CN110516950A - 一种面向实体解析任务的风险分析方法

Info

Publication number: CN110516950A
Application number: CN201910773251.6A
Authority: CN
Inventors: 陈群; 陈肇强; 侯博议; 王丽娟; 罗雨晨; 李战怀
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-11-29

Abstract

本发明针对实体解析任务，通过决策树来生成作为风险特征的规则；对于每个风险特征，假设其匹配概率服从各自的正态分布，其中包含了三个可调参数，期望，方差和特征的重要度；给定任一记录对，其匹配概率的分布则是该记录对符合的所有风险特征所对应的正态分布的加权叠加；对于给定的记录对，得到其匹配概率的正态分布和机器标签后，采用风险值来评估机器标签的风险；风险特征的匹配概率的期望根据分类器训练数据集所提供的匹配频率统计提供，方差和特征的重要度权重则是在风险训练数据集上，采用学习排序技术和梯度下降优化方法来学习它们的最优值。风险模型训练完成后，输入任一记录对的机器标签，风险模型返回该标签的风险值。

Description

一种面向实体解析任务的风险分析方法

技术领域

本发明属于数据集成与清洗领域，用于实体解析任务，通过该技术分析分类器预测的标签是错误值的风险。

背景技术

在数据集成与清洗领域中，一个重要的任务是识别数据源中表示现实世界同一个实体的记录，即实体解析。现有的实体解析方法中，一类广泛运用的方法是基于机器学习的实体解析方法。这类方法首先将可能代表同一实体的记录形成候选记录对，如果记录对中的两条记录表示同一实体，则标签为“匹配”，否则，标签为“不匹配”；然后选取一部分的记录对，进行人工标注，形成带有真实标签的训练数据；接着选择一个分类模型，例如，支持向量机，决策树，随机森林，深度神经网络等，在训练数据上训练得到最优的分类器；最后将得到的分类器运用于未标注的数据中，预测相应的标签。然而，由于记录中存在缺失值或错误数据等，实体解析任务本身很具挑战性，实际中很难得到一个能够准确标注所有的记录对的分类器，总会存在着将匹配的记录对标注为“不匹配”，或者是将不匹配的记录对标注为“匹配”的情况。因此，基于机器学习的实体解析方法中的一个重要的挑战是，如何分析机器标签是错误的风险？准确地分析机器标签的风险将有助于用最少的人力成本来改善实体解析的结果；评估并改进分类器等。

目前，针对风险分析的相关研究中，一种直观的方法是采用分类器(具体指深度神经网络模型)给出的标签概率值来分析其风险，即：一种标签类别所对应的预测概率值越高，那么，其错误的风险越小。第二种方法是对前述方法的改进，通过修改分类器的目标函数，并增加一个分布外(Out of Distribution)的训练数据集来重新优化分类器，使得分类器能够识别分布外的数据并给出更低的预测概率值。第三种方法是首先为每种标签构建一个代表该类标签的簇，然后对于给定的任一测试数据，计算该数据与其机器标签所在的簇的距离，并计算与该数据距离最近的其它标签所在簇的距离，最后通过比较这两个距离来计算标签的风险。然而，上述的三种风险分析方法不具备可解释性，并且没有独立的可学习的风险模块。新近提出的一种静态的风险分析方法是用贝叶斯推理来估计记录对的匹配概率，然后用条件风险值(Conditional Value at Risk)来评估标签为错误的风险。同样的，这种方法不能够动态地学习调整风险模型。

发明内容

要解决的技术问题

针对上述已有的风险分析算法存在的不足，本发明提出一种具备可解释性和可动态学习的风险分析框架，用于分析量化分类器给出的机器标签的风险。

技术方案

如图1所示，所提的风险分析框架主要包括三个部分：生成风险特征、构建风险模型和训练风险模型。针对实体解析任务，通过决策树来生成具有可解释性、高区分度和高覆盖率的规则，所得到的规则作为风险特征；对于每个风险特征，假设其匹配概率服从各自的正态分布，其中包含了三个可调参数，期望，方差和特征的重要度；给定任一记录对，其匹配概率的分布则是该记录对符合的所有风险特征所对应的正态分布的加权叠加；对于给定的记录对，得到其匹配概率的正态分布和机器标签后，采用风险值(Value at Risk)来评估机器标签的风险；风险特征的匹配概率的期望根据分类器训练数据集所提供的匹配频率统计提供，方差和特征的重要度权重则是在风险训练数据集上，采用学习排序技术(Learn toRank)和梯度下降优化方法来学习它们的最优值。风险模型训练完成后，输入任一记录对的机器标签，风险模型返回该标签的风险值。

一种面向实体解析任务的风险分析方法，其特征在于步骤如下：

步骤1：将训练好的分类器作用在未标注数据集D上，获得预测的机器标签；其中D＝{d₁，d₂，......，d_n}，每一个d_i表示一个候选记录对<r_i1，r_i2>，如果r_i1和r_i2表示同一个现实世界的实体，则将d_i标注为“匹配”，否则，标注为“不匹配”；

步骤2：根据具体的数据集，设计相应的属性相似度对比方法，假设为{h₁(·，·)，h₂(·，·)，h₃(·，·)，......}，对于任意的一个h_i，输入d_i中两个实体r_i1和r_i2的相对应的属性值，则h_i输出这两个实体的属性相似度；

步骤3：在分类器的训练数据D_T上，基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值，采用决策树技术，训练得到一个规则集F＝{f₁，f₂，......，f_k}；每一条规则都是由若干个条件以谓词连接词“与”组成，并推出一个“匹配”或者“不匹配”的结论；每一个条件则是由一个属性相似度对比方法和相应的阈值所声明，它们之前的关系是“＞”或者“≤”；

步骤4：对于每一个风险特征f_i，假设其蕴含的匹配概率值服从一个期望为方差为的正态分布，并且该特征的重要度权重为w_i；为表述方便，k个风险特征的匹配概率的期望用向量形式来表示，即同理，方差权重w＝[w₁，w₂，......，w_k]^T；对于任意的一个数据d_i，其对应的特征向量为x_i＝[x_i1，x_i2，......，x_ik]，其中，如果d_i满足第j个风险特征，则x_ij＝1，否则，x_ij＝0；对于分类器输出的类别概率的权重，不是用一个参数来表示，而是用一个重要度函数来表示，即

其中，α和β是待优化参数，对于每一个分类器的预测概率值，f_w(x)返回其相对应的权重；

步骤5：根据分类器的训练数据D_T，计算每一个的风险特征的匹配概率的期望；对于风险特征f_i，假设训练数据D_T中符合该特征的数据确个，其中，标签为“匹配”的数据有个，那么，该特征的匹配概率的期望可以估计为而风险特征的权重w_i，和其匹配概率的分布的方差为待求参数；

步骤6：假设记录对d_i的匹配概率同样服从正态分布然后，根据该记录对所对应的风险特征来估计其分布。具体地，其期望值为方差为其中，表示矩阵的哈达玛积，其操作是将两个向量中的对应元素相乘；简而言之，记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的；风险特征f₁的分布和风险特征f₂的分布以相等权重的方式叠加得到记录对d₁的分布；

步骤7：在获得一个记录对d_i的匹配概率分布和分类器预测的标签后，采用风险值来度量机器标签与真实标签不同的风险；记d_i所对应的匹配概率的累计分布函数的反函数为那么，在给定置信度水平为θ的条件下，当d_i的机器标签为“不匹配”时，其风险为

当d_i的机器标签为“匹配”时，其风险为

步骤8：假设已存在一个带有真实标签的风险模型训练数据D_S，所述的D_S与数据集D同分布，在D_S上，采用学习排序技术来最优化风险模型中的待求参数，即风险特征的权重w_i，和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值，给定两个记录对d_i和d_j，不妨假设它们对应的被错误分类的风险值分别为γ_i和γ_j，并且，如果γ_i大于γ_j，那么d_i排在d_j的前面；采用logistic函数将它们的风险值映射为d_i排在d_j前面的后验概率

而其目标概率为

其中，如果记录对d_i被错误分类，那么，g_i＝1，否则，g_i＝0；根据所定义的记录对排序位置的后验概率和目标概率，在风险模型训练数据D_S上，所定义的目标损失函数为交叉熵损失函数

步骤9：采用梯度下降方法来寻找最优参数，使得步骤8中的交叉熵损失函数的值最小；

步骤10：求出风险模型的未知参数后，对于数据集D上的每一个记录对，根据步骤7，可以求得其对应的机器标签的风险值。

有益效果

本发明提出的一种面向实体解析任务的风险分析方法，通过具有可解释性的风险特征，对分类器的输出标签进行风险的量化分析；风险分析模型提供了可学习的参数，能够从少量的带真实标签的目标数据中学习有效的模型，以更好地评估分类器在目标数据上的机器标签的风险；所提的风险分析技术可以将分类器视作“黑盒子”，不需要用到分类器的内部信息，具有较好的便利性和较广的适用范围。

附图说明

图1是本发明提出的面向实体解析任务的风险分析框架。

图2是一个估计记录对的匹配概率分布的示例，记录对的分布由两个风险特征的分布以相等的权重叠加得到。

图3是根据一个正态分布计算风险值(Value at Risk，VaR)的示意图。红色区域的面积大小是1-θ，表示了风险损失大于0.757的概率。此时，风险值VaR＝0.757。

图4是面向实体解析任务的风险分析流程图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

一个常见的实体解析任务的执行过程为：对于一个经过Blocking技术过滤后的未标注的数据集D＝{d₁，d₂，......，d_n}，每一个d_i表示一个候选记录对<r_i1，r_i2>，如果r_i1和r_i2表示同一个现实世界的实体，则将d_i标注为“匹配”，否则，标注为“不匹配”。假设有一个带有真实标签的数据集其中，y_i∈{“匹配”，“不匹配”}。然后在D_T上训练一个分类器G。最后，对于每一个d_i∈D，分类器G都将预测一个标签，即

然而，对于一个真实标签未知的记录对d_i，分类器预测的机器标签可能存在着错误。本发明提出的风险分析技术能够量化机器标签是错误的风险，具体的实施步骤如下：

步骤1：将训练好的分类器作用在未标注数据集D上，获得预测的机器标签。

步骤2：根据具体的数据集，设计相应的属性相似度对比方法，假设为{h₁(·，·)，h₂(·，·)，h₃(·，·)，......}，对于任意的一个h_i，输入d_i中两个实体r_i1和r_i2的相对应的属性值，则h_i输出这两个实体的属性相似度。

步骤3：在分类器的训练数据D_T上，基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值，采用决策树(Decision Tree)技术，训练得到一个规则集F＝{f₁，f₂，......，f_k}。每一条规则都是由若干个条件以谓词连接词“与”组成，并推出一个“匹配”或者“不匹配”的结论。每一个条件则是由一个属性相似度对比方法和相应的阈值所声明，它们之前的关系是“＞”或者“≤”。例如，规则f₁：h₁(r_i1，r_i2)＞0.8∧h₂(r_i1，r_i2)≤0.1→“匹配”。这里所得到的规则集即是可解释的风险特征。此外，分类器输出的类别概率也作为一个风险特征。

步骤4：对于每一个风险特征f_i，我们假设其蕴含的匹配概率值服从一个期望为方差为的正态分布，并且该特征的重要度权重为w_i。为表述方便，k个风险特征的匹配概率的期望用向量形式来表示，即同理，方差权重w＝[w₁，w₂，......，w_k]^T。对于任意的一个数据d_i，其对应的特征向量为x_i＝[x_i1，x_i2，......，x_ik]，其中，如果d_i满足第j个风险特征，则x_ij＝1，否则，x_ij＝0。需要注意的是，对于分类器输出的类别概率的权重，我们不是用一个参数来表示，而是用一个重要度函数来表示，即

其中，α和β是待优化参数。对于每一个分类器的预测概率值，f_w(x)返回其相对应的权重。

步骤5：根据分类器的训练数据D_T，计算每一个的风险特征的匹配概率的期望。对于风险特征f_i，假设训练数据D_T中符合该特征的数据有个，其中，标签为“匹配”的数据有个，那么，该特征的匹配概率的期望可以估计为而风险特征的权重w_i，和其匹配概率的分布的方差为待求参数。

步骤6：我们假设记录对d_i的匹配概率同样服从正态分布然后，根据该记录对所对应的风险特征来估计其分布。具体地，其期望值为方差为其中，表示矩阵的哈达玛积(Hadamard product)，其操作是将两个向量中的对应元素相乘。简而言之，记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的。一个示例如图2所示，风险特征f₁的分布和风险特征f₂的分布以相等权重的方式叠加得到记录对d₁的分布。

步骤7：在获得一个记录对d_i的匹配概率分布和分类器预测的标签后，我们采用风险值(VaR)来度量机器标签与真实标签不同的风险。不妨记d_i所对应的匹配概率的累计分布函数的反函数为那么，在给定置信度水平为θ的条件下，当d_i的机器标签为“不匹配”时，其风险为

当d_i的机器标签为“匹配”时，其风险为

图3给出了一个当机器标签为“不匹配”时，计算VaR的示例：红色区域的面积大小是1-θ，表示了风险损失大于0.757的概率。此时，风险值VaR＝0.757。

步骤8：假设已存在一个带有真实标签的风险模型训练数据D_S。一般而言，D_S与数据集D同分布。在D_S上，我们采用学习排序技术(Learn to Rank)来最优化风险模型中的待求参数，即风险特征的权重w_i，和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值。给定两个记录对d_i和d_j，不妨假设它们对应的被错误分类的风险值分别为γ_i和γ_j，并且，如果γ_i大于γ_j，那么d_i排在d_j的前面。我们采用logistic函数将它们的风险值映射为d_i排在d_j前面的后验概率

而其目标概率为

其中，如果记录对d_i被错误分类，那么，g_i＝1，否则，g_i＝0。根据所定义的记录对排序位置的后验概率和目标概率，在风险模型训练数据D_S上，我们所定义的目标损失函数为交叉熵损失函数

步骤9：我们采用梯度下降方法来寻找最优参数，使得步骤8中的交叉熵损失函数的值最小。

Claims

1.一种面向实体解析任务的风险分析方法，其特征在于步骤如下：

步骤1：将训练好的分类器作用在未标注数据集D上，获得预测的机器标签；其中D＝{d₁,d₂,……,d_n}，每一个d_i表示一个候选记录对＜r_i1,r_i2＞，如果r_i1和r_i2表示同一个现实世界的实体，则将d_i标注为“匹配”，否则，标注为“不匹配”；

步骤2：根据具体的数据集，设计相应的属性相似度对比方法，假设为{h₁(·,·),h₂(·,·),h₃(·,·),……},对于任意的一个h_i,输入d_i中两个实体r_i1和r_i2的相对应的属性值，则h_i输出这两个实体的属性相似度；

步骤3：在分类器的训练数据D_T上，基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值，采用决策树技术，训练得到一个规则集F＝{f₁,f₂,……,f_k}；每一条规则都是由若干个条件以谓词连接词“与”组成，并推出一个“匹配”或者“不匹配”的结论；每一个条件则是由一个属性相似度对比方法和相应的阈值所声明，它们之前的关系是“＞”或者“≤”；

步骤4：对于每一个风险特征f_i，假设其蕴含的匹配概率值服从一个期望为方差为的正态分布，并且该特征的重要度权重为w_i；为表述方便，k个风险特征的匹配概率的期望用向量形式来表示，即同理，方差权重w＝[w₁,w₂,……,w_k]^T；对于任意的一个数据d_i，其对应的特征向量为x_i＝[x_i1,x_i2,……,x_ik]，其中，如果d_i满足第j个风险特征，则x_ii＝1，否则，x_ij＝0；对于分类器输出的类别概率的权重，不是用一个参数来表示，而是用一个重要度函数来表示，即

步骤5：根据分类器的训练数据D_T，计算每一个的风险特征的匹配概率的期望；对于风险特征f_i，假设训练数据D_T中符合该特征的数据有个，其中，标签为“匹配”的数据有个，那么，该特征的匹配概率的期望可以估计为而风险特征的权重w_i，和其匹配概率的分布的方差为待求参数；

步骤6：假设记录对d_i的匹配概率同样服从正态分布然后，根据该记录对所对应的风险特征来估计其分布。具体地，其期望值为方差为其中，表示矩阵的哈达玛积,其操作是将两个向量中的对应元素相乘；简而言之，记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的；风险特征f₁的分布和风险特征f₂的分布以相等权重的方式叠加得到记录对d₁的分布；

当d_i的机器标签为“匹配”时，其风险为

而其目标概率为