CN110413658A

CN110413658A - 一种基于关联规则的事实证据链构建方法

Info

Publication number: CN110413658A
Application number: CN201910666343.4A
Authority: CN
Inventors: 柳畅
Original assignee: Zhongjing Baicheng Technology (beijing) Co Ltd
Current assignee: Zhongjing Baicheng Technology (beijing) Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-05

Abstract

本发明公开了一种基于关联规则的事实证据链构建方法，包含以下步骤：步骤1)，基于证据链的缺失值归算算法，挖掘每个数据元组中缺失值的所有相关证据，然后结合这些相关证据构建证据链，进一步估计缺失值；步骤2)，在置信度和支持度的基础上使用关联规则算法，建立证据关联强规则；包括建立条件小训练集，每条规则主体通过选取条件小训练集进行属性连接，最后用实例覆盖小训练集的每个实例，构建高质量分类器。本发明基于证据链的缺失值归算算法具有较高的计算精度，并且随着缺失值的增加或缺失值的位置变化，其计算精度也得到了保证。

Description

一种基于关联规则的事实证据链构建方法

技术领域

本发明属于诉讼服务研究领域的数据挖掘技术领域，更具体地说，涉及一种基于关联规则的事实证据链构建方法。

背景技术

当事人负有对自己的诉讼主张提供适当证据予以证明的责任，如果未能及时提供证据或提供的证据不能足以支持其所主张的事实，那么将要承担该主张不能成立的风险。以民间借贷为例，通过调研案例，目前民间借贷纠纷中大多采用借条或借款合同的形式，但是问题仍有很多，如未表明借款条据的性质、债务人借款目的、实际收款方式，借款金额及期限仅用阿拉伯数字表示，送达地址不明确等，这些未标明或不明确的瑕疵造成债权人在维权的过程中，需要提供相应的证据，才能相互印证，形成完整的证据链。

证据链的构建对于案件事实的证明极为重要，它并不是证据的简单叠加，而是对证据的逻辑排列，证明案件事实的证据不仅需要互相印证，还需以一定的形式形成一个证据锁链来共同证明案件事实。

目前已有的相似技术，主要面向裁判文书基于对证据链的提取与分析，研究遵循法言法语及文书说理的自然语言处理技术，抽取裁判文书说理的相关语段，逆向构建证据链和文书说理逻辑关系，并通过计算机程序绘制可视化的证据链与文书说理逻辑图。

在实际应用中，该技术除极少数直接证据之外，绝大多数证据不可能与事实直接关联，意味着组合使用才能形成稳定牢固“链接”关系的两个及以上证据无法进行相互排列组合。

发明内容

针对现有技术存在的不足，本发明的目的在于提供了一种基于关联规则的事实证据链构建方法，设计合理，采用的是自动提取证据强规则、过滤弱规则的方法，最终建立一种基于关联规则的事实证据链构建方法，克服了现有证据链构建中两个及以上关系的“链接”无法进行逻辑组合的缺陷。

为实现上述目的，本发明提供了如下技术方案：

一种基于关联规则的事实证据链构建方法，其特征在于：包含以下步骤：

步骤1)，基于证据链的缺失值归算算法，挖掘每个数据元组中缺失值的所有相关证据，然后结合这些相关证据构建证据链，进一步估计缺失值；

步骤2)，在置信度和支持度的基础上使用关联规则算法，建立证据关联强规则；包括建立条件小训练集，每条规则主体通过选取条件小训练集进行属性连接，最后用实例覆盖小训练集的每个实例，构建高质量分类器。

作为一种优化的技术方案，步骤1)的具体步骤是：

步骤1.1)，为数据集D为每个数据元组D_j确定唯一的标识I_k(1≤k≤m)，然后给出每个不完整数据元组的缺失数据的位置M_h(1≤h≤n)，以确定元组中哪个数据丢失，并输出标记的数据集。输出数据格式为(I_k，M_h，D_j)；

步骤1.2)，扫描步骤1.1创建的结果文件，以计算不完整数据元组Z_j(1≤j≤m) 中的完整数据R_j的组合集合S_j，其结果将用作为估计缺失数据的证据链；输出数据格式为(I_k，M_h，S_j)；

步骤1.3)，根据完整数据元组和输出数据计算每个缺失元组中缺失值P的可能值的概率P(p)；

在公式(1)中，K()表示计数，K(p)表示缺失值p的可能值在每个数据元组中相同缺失位置的出现次数，m表示数据元组的数量；

步骤1.4)，对整个数据集中的每个数据元组计算完整数据组合C(y,u)的数据集的数量O_j，并将在以下步骤中用于丢失数据值估计的概率查询中；输出数据格式是(C(y,u),O_j)；

步骤1.5)，计算同一数据元组中不完整数据元组Z_j(1≤j≤m)中的完整数据集 S_j和缺失数据的数量，即T_j；输出格式是(S_j，M_h，V_j(A_i)，T_j)

T_j＝K(V_j(A_i)(1≤j≤m,1≤i≤n)∪S_j(2)

步骤1.6)，将步骤1.2中创建的估计缺失数据的证据链(I_k，M_h，S_j)与步骤1.3中输出的缺失数据的可能值(P，P(p))相关联；每个不完整数据元组Z_j(1≤j≤m) 中的缺失数据的相关属性值组合C(y,u)和每个可能的填充值p在整个数据集中同时出现的概率P(p)；输出数据格式是(C(y,u)，M_h，p，P(p))；

步骤1.7)，计算不完整数据元组Z_j(1≤j≤m)中的相关属性值组合数量O_j，其中缺失数据V_j(A_i)＝'？'(1≤j≤m,1≤i≤n)根据步骤1.4的结果文件；根据步骤1.5结果文件中的C(y,u)和p，在整个数据集中找到关联属性值组合和缺失数据可能值 p同时出现的次数T_j；根据可信度计算公式，得出缺失数据的证据链来估算缺失数据的插补值计算为：可以得出不完整数据元组Z_j(1≤j≤m)中所有缺失数据的估值在相关属性值组合的集合S_i的条件下取值的概率，选择置可信度最大的估计值作为最终插补值；

步骤1.8)，根据步骤1.7中估算出的缺失数据可能取值，插补到原缺失数据集D中，得到完整缺失数据集。如图1所示。

作为一种优化的技术方案，步骤2)的具体步骤是：

步骤2.1)，选取满足支持度的属性值对，构建每个属性值对的小训练集，

事实事实链X→Y的支持度公式：S(X→Y)＝P(X,Y)/P(I)＝Num(X∪Y)/Num(I)

其中，I表示总的证据事实集合。num()表示求证据集里特定证据集出现的次数。

步骤2.2)，从每个训练集里提取好规则,表达式为；

其中|P|和|N|分别表示与当前规则匹配的正实例数和负实例数。当一个属性值加入当前规则后，|P^*|和|N^*|分别表示与规则匹配的正实例数和负实例数。

步骤2.3)，采用实例覆盖技术覆盖小训练集的每个实例，构建具有较高质量的分类器。

由于采用了上述技术方案，与现有技术相比，本发明基于证据链的缺失值归算算法具有较高的计算精度，并且随着缺失值的增加或缺失值的位置变化，其计算精度也得到了保证。

附图说明

图1为本发明一种实施例中的算法时序图。

具体实施方式

实施例

一种基于关联规则的事实证据链构建方法，包含以下步骤：

步骤1)，基于证据链的缺失值归算算法，挖掘每个数据元组中缺失值的所有相关证据，然后结合这些相关证据构建证据链，进一步估计缺失值。

如图1所示，步骤1)的具体步骤是：

T_j＝K(V_j(A_i)(1≤j≤m,1≤i≤n)∪S_j (2)

步骤1.8)，根据步骤1.7中估算出的缺失数据可能取值，插补到原缺失数据集D中，得到完整缺失数据集。

步骤2)的具体步骤是：

步骤2.2)，从每个训练集里提取好规则,表达式为；

具体的流程是：

输入：训练集D＝P∪N(P和N分别表示训练集中的正实例集和负实例集)；

输出：由一系列规则组成的分类器R。

1 分类器

2 从D里选出支持度为1％的所有属性值对；

3 while对每个属性值对P

4 从训练集创建P的小训练集(P1和N1)；

5 规则r←p；

6 while|P1|＞1

7 N2←N1；

8 P2←P1；

9 while|N2|＞0 and r.length＜attribute.length

10 从P2中找出最好的P1；||根据公式：(1)

11 r←p1；

12 从P2和N2中删除与r不匹配的实例；

13 End

14 If con f(r)＜0.5or与前期提取规则重复

15 r被剪枝掉；

16 R←R∪r；

17 从P1中删除与r匹配的实例；

18 End

19 End

20 return R

步骤2.1在具体流程中为：第2行～第4行，为每个属性值对创建小训练集，该训练集由正实例P1和负实例N1组成。

步骤2.2在具体流程中为：第9～13行，在该小训练集里提取出最好的规则。

步骤2.3在具体流程中为：第14～17行，减掉置信度不高和重复的规则，将提取到的规则加入分类器中，并删除规则覆盖的实例。

本发明基于证据链的缺失值归算算法具有较高的计算精度，并且随着缺失值的增加或缺失值的位置变化，其计算精度也得到了保证。

本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于关联规则的事实证据链构建方法，其特征在于：包含以下步骤：

2.根据权利要求1所述的一种基于关联规则的事实证据链构建方法，其特征在于：

步骤1)的具体步骤是：

步骤1.2)，扫描步骤1.1创建的结果文件，以计算不完整数据元组Z_j(1≤j≤m)中的完整数据R_j的组合集合S_j，其结果将用作为估计缺失数据的证据链；输出数据格式为(I_k，M_h，S_j)；

步骤1.5)，计算同一数据元组中不完整数据元组Z_j(1≤j≤m)中的完整数据集S_j和缺失数据的数量，即T_j；输出格式是(S_j，M_h，V_j(A_i)，T_j)

T_j＝K(V_j(A_i)(1≤j≤m,1≤i≤n)∪S_j(2)

步骤1.6)，将步骤1.2中创建的估计缺失数据的证据链(I_k，M_h，S_j)与步骤1.3中输出的缺失数据的可能值(P，P(p))相关联；每个不完整数据元组Z_j(1≤j≤m)中的缺失数据的相关属性值组合C(y,u)和每个可能的填充值p在整个数据集中同时出现的概率P(p)；输出数据格式是(C(y,u)，M_h，p，P(p))；

步骤1.7)，计算不完整数据元组Z_j(1≤j≤m)中的相关属性值组合数量O_j，其中缺失数据V_j(A_i)＝'？'(1≤j≤m,1≤i≤n)根据步骤1.4的结果文件；根据步骤1.5结果文件中的C(y,u)和p，在整个数据集中找到关联属性值组合和缺失数据可能值p同时出现的次数T_j；根据可信度计算公式，得出缺失数据的证据链来估算缺失数据的插补值计算为：可以得出不完整数据元组Z_j(1≤j≤m)中所有缺失数据的估值在相关属性值组合的集合S_i的条件下取值的概率，选择置可信度最大的估计值作为最终插补值；

3.根据权利要求1所述的一种基于关联规则的事实证据链构建方法，其特征在于：

步骤2)的具体步骤是：

步骤2.2)，从每个训练集里提取好规则,表达式为；