CN104346419A

CN104346419A - 数据库分析装置及方法

Info

Publication number: CN104346419A
Application number: CN201410264683.1A
Authority: CN
Inventors: 桥本康范; 三部良太; 吉村健太郎; 团野博文; 大岛敬志; 石川贞裕; 山口洁
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-07-25
Filing date: 2014-06-13
Publication date: 2015-02-11
Anticipated expiration: 2034-06-13
Also published as: US20150032708A1; JP6158623B2; JP2015026188A; CN104346419B

Abstract

本发明提供一种数据库分析装置及方法，提供一种在生成关于某数据库的属性值的相关规则时，与在期待的有效的相关规则中求出的可信度等特征一致地，将属性值种类化的方法。所述数据库分析装置，具有相关规则分析单元，其着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏，根据各表格栏所保持的数据同时出现的倾向，来自动地分析表格栏间存在的依存关系或制约条件，所述数据库分析装置具有：数据种类计算单元，其根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法；以及相关规则再构成单元，其基于所述种类化结果来再构成相关规则，由此，生成最佳粒度的相关规则。

Description

数据库分析装置及方法

技术领域

本发明涉及数据库分析装置及方法。特别地，涉及无需人工，自动生成由多个属性值构成的种类之间的相关规则的方法。

背景技术

作为本技术领域的背景技术，有日本特开2000-259612号公报(专利文献1)。在该公报中记载了，“针对生成的规则中包含的包含有项目组的事务，关于属性值，高效率地生成统计值，同时在求出相关规则时除了支持和可信度，还能够缩小关于属性值的统计值的范围。”(参照摘要)。

现有技术文献

专利文献

[专利文献1]日本特开2000-259612号公报

发明内容

发明要解决的课题

专利文献1中记载了，用于根据数据库中存储的交易表格所保持的表格栏的属性值组，来生成关于这些属性值的相关规则的机制。其中，能够通过仅提取可信度高的相关规则来推测表格栏间存在的依存关系、制约条件。通过将推测的信息提供给用户，能够支援用户理解数据库的方法。

但是，所述文献的技术中并未描述表格栏所保持的属性值组的种类化方法。即，无法得到将属性值进行种类区分之后的相关规则。或者，虽然需要另外准备种类化方法，但是这种情况下的种类化方法无法与相关规则生成手段协作。

例如，如果是仅含数值的属性值的表格栏，则通过以“5以上”、“不足5”等的特定范围来划分属性值组，能够将属性值组种类化。此外，在仅含时刻的情况下也能够同样地进行处理。然而，也存在字符串等无法一概地决定种类划分的边界的属性值。此外，在存在大量的表格栏的状况下，在由人来指定这些全部的种类划分方法时，操作工时大，因此不现实。此外，即使与相关规则无关地、利用不考虑表格栏间的关系的方法来决定种类化方法，也无法保证能够通过该种类化方法生成有效的相关规则。

因此，本发明的目的在于，提供一种在生成关于某数据库的属性值的相关规则时，与在期待的有效的相关规则求出的可信度等特征一致，并将属性值种类化的方法。由此，例如，除了现有技术也能够提取的具体的1个属性值间的相关规则外，也能够无需人工而自动地生成由多个属性值构成的种类间的相关规则，并向发明的利用者提供。

用于解决课题的手段

为了实现上述目的，采用了例如下述的结构。

一种数据库分析装置，其具有相关规则分析单元，所述相关规则分析单元用于着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏，根据各表格栏所保持的数据同时出现的倾向，来分析表格栏间存在的依存关系或制约条件，即表格栏的数据同时发生的概率，所述数据库分析装置具有数据种类计算单元，其根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法；相关规则再构成单元，其基于所述种类化结果，来再构成相关规则，由此，生成最佳粒度的相关规则，即，为了使同时发生的概率为约100％而再构成规则。

其结果，在本发明中，将各个相关规则进行组合来提取同时发生的概率为100％的相关规则。

发明效果

根据本发明，没有关于数据库的知识也能够分析该数据库所保持的数据，并生成表格栏间的相关规则，而不限于1个属性值间的相关规则。由此，例如，本发明的利用者能够取得关于表格栏间存在的多个属性值间的依存关系或制约条件的信息。

附图说明

图1是表示数据库分析装置的结构图的例子的图。

图2是表示说明数据库分析装置的处理的流程图的例子的图。

图3是表示说明从数据库读入的表格数据的图表的例子的图。

图4A是说明根据表格数据生成相关规则的处理的前半部分的图表的例子。

图4B是说明根据表格数据生成相关规则的处理的前半部分的图表的例子。

图5是表示说明根据表格数据生成相关规则的处理的后半部分的图表的例子的图。

图6是表示嵌入了支持度和可信度的相关规则表的图表的例子的图。

图7是表示对根据计算完的相关规则来计算属性值的相似性的处理进行说明的图表的例子的图。

图8是表示对将相似性高的属性值归结为同一种类的处理进行说明的图表的例子的图。

图9是表示对将相似性高的属性值归结为同一种类后的结果进行说明的图表的例子的图。

图10是表示对再构成相关规则的处理进行说明的图表的例子的图。

图11是表示对选定可信度高的相关规则的处理进行说明的图表的例子的图。

图12是表示对将数据模式高可信度相关规则转换为视觉上容易理解的形式的处理进行说明的图表的例子的图。

符号说明

100：数据库分析装置、101：CPU、102：存储器、103：输入装置、104：输出装置、105：外部存储装置、106：表格数据存储部、107：暂定相关规则存储部、108：数据种类存储部、109：高可信度相关规则存储部、110：处理程序、111：相关规则生成处理部、112：数据种类计算处理部、113：相关规则再构成处理部、114：不必要规则去除处理部、115：相关规则视觉化处理部具体实施方式

以下，利用附图来说明实施例。

[实施例1]

本实施例中，说明数据库分析装置的例子。

图1是本实施例的数据库分析装置的结构图的例子。

数据库分析装置100具有：CPU101、存储器102、输入装置103、输出装置104、外部存储装置105。外部存储装置105保存有表格数据存储部106、暂定相关规则存储部107、数据种类存储部108、高可信度相关规则存储部109，并且保存有处理程序110。处理程序110保存有：相关规则生成处理部111、数据种类计算处理部112、相关规则再构成梳理部113、不必要规则去除处理部114、相关规则视觉化处理部115。

处理程序110在实行时被读入到存储器102中，并通过CPU101来执行。

经由输入装置103从外部输入的数据库的表格数据，被写入到表格数据存储部106中。相关规则生成处理部111通过一边参照从表格数据存储部106读出的数据库的数据，一边计数各数据(及其组合)的出现次数，并进行算术处理，来生成相关规则并写入到暂定相关规则存储部107中。数据种类计算处理部112参照从暂定相关规则存储部107读出的相关规则，决定构成相关规则的属性值的种类化方法，并写入到数据种类存储部108中。相关规则再构成处理部113从暂定相关规则存储部107中读出相关规则，并一边参照从数据种类存储部108读出的属性值种类化方法，一边对相关规则进行再计算，并写入到暂定相关规则存储部107中。不必要规则去除处理部114从暂定相关规则存储部107读出相关规则，仅选定可信度比阈值高的相关规则，并写入到高可信度相关规则存储部109中。相关规则视觉化处理部115从高可信度相关规则存储部109读出相关规则，并在转换为视觉上容易理解的形式之后，输出到输出装置104。

图2是说明本实施例的数据库分析装置的处理的流程图的例子。以下，根据图2的流程图来说明图1各部的动作。

步骤200，是输入数据库的表格数据作为向数据库分析装置的输入信息的步骤。输入操作由装置的利用者实施。在步骤200中，将从输入装置103输入的数据库的表格写入到表格数据存储部106中。

图3是说明从本实施例的数据库读入的表格数据的图表的例子。这里，关于分析对象的表格数据300，作为表格栏标识符301，存储有用户ID302、支付方法303以及用户类别304。此外，保持有共计25件具有与表格栏标识符301的各要素对应的信息的单位信息记录305。

以下步骤201至204，是以输入信息为基础的机械处理，是无需人工而仅由数据库分析装置就能够实施的处理。

在步骤201中，相关规则生成处理部111一边参照从表格数据存储部106读出的数据库的数据，一边生成相关规则，并写入到暂定相关规则存储部107中。

图4A是说明根据本实施例的表格数据生成相关规则的处理的前半部分的图表的例子。

首先，相关规则生成处理部111从表格数据存储部106读出数据300，并取得表格栏标识符301。选择取得的表格栏标识符301的要素中还未提取相关规则的表格栏的组合中的一个。这里，选择支付方法303和用户类别304。此外，在表格栏组合的提取时，考虑关联源401和关联目的地402的差异。例如，在设支付方法303为关联源401，并设用户类别304为关联目的地402的情况下，以及在设用户类别304为关联源401，设支付方法303为关联目的地402的情况下，判断为是不同的组合。

此外，相关规则生成处理部111，如图4B所示，生成与所决定的所述组合对应的相关规则表400。由相关规则表所保持的各相关规则具有关联源401、关联目的地402、支持度403、可信度404的信息。针对关联源401和关联目的地402，分别对应构成所述组合的支付方法303、用户类别304。此外，作为相关规则表的数据，输入网罗了表格数据300中的支付方法303和用户类别304的组合的模式。在表格数据300中，支付方法303如“信用卡”、“转账”、“电子货币”3种，此外，用户类别304如“访客”、“一般”、“高级”3种，由此，相关规则400的数据准备了如3×3＝9的模式。

在生成相关规则的处理的前半部分中，关于支持度403和可信度404，可以是未输入的状态。

此外，在本步骤的执行开始的时刻，在针对全部表格栏的组合已经生成了相关规则的情况下，不进行相关规则的生成，并转移至步骤115。

图5是说明根据本实施例的表格数据生成相关规则的处理的后半部分的图表的例子。

首先，相关规则生成处理部111从表400中选择未输入支持度和可信度的先关规则500。之后，从表格数据300中找出具有将选择出的相关规则500的关联源401中记载的值作为关联源401中设定的表格栏的值的记录。在本例中，提取了支付方法303为“信用卡”的记录组501。此外，相关规则生成处理部111从所述提取的记录组501中找出具有将选择中的相关规则500的关联目的地402中记载的值作为关联目的地402中设定的表格栏的值的记录。在本例中，提取了用户类别304为“访客”的记录组502。

之后，相关规则生成处理部111通过对各所述记录组中包含的记录的数进行算术处理，来计算表示关联目的地数据的多少的指标即支持度403、以及成对的关联源和目的地的多少的指标即可信度404。关于支持度403，通过计算表格数据300所具有的记录数中提取出的记录组502(关联目的地和关联源成为特定值的数据)的比例来决定。在本例中是全部25件中的6件，因此是(6/25)×100＝24.00％。此外，关于可信度404，通过计算提取出的记录组501中的提取出的记录组502(特定的关联源数据)的比例来决定。在本例中是11件中的6件，因此是(6/11)×100≒54.54％。

关于所述相关规则生成处理部111计算支持度和可信度的处理，针对相关规则表400所具有的全部相关规则来实施，并将结果存储在暂定相关规则存储部107中，由此结束步骤201。

图6是嵌入了本实施例的支持度和可信度的相关规则表的图表的例子。在本实施例的步骤201结束之后，关于相关规则表400所具有的全部相关规则，成为记载了全部项目的状态。

此外，在一般的相关规则计算算法中，省略了“支持度”、“可信度”低于预定的值的相关规则的提取，因此，有时会实现计算处理的高速化。作为步骤201的代替手段，在使用这样的算法时，在图6中考虑了未嵌入“支持度”、“可信度”的情况。这时，例如，以“0.00％”的值补全了未记入“支持度”、“可信度”的栏，并前进至以后的步骤。

在步骤202中，数据种类计算处理部112参照从暂定相关规则存储部107读出的相关规则，决定构成相关规则的属性值的种类化方法，并写入数据种类存储部108中。

在本实施例中，基于对各属性值进行说明的相关规则的相似性，计算属性值的种类。以将表示相似的倾向的属性值归结于同一种类为目的。

图7是说明根据本实施例计算完的相关规则来计算属性值的相似性的处理的图表的例子。

首先，数据种类计算处理部112从暂定规则存储部107读出相关规则表400，生成分别将其关联源401的值作为行标签701，另外将关联目的地402的值作为列标签702，来保持的可信度行列700。进而，数据种类计算处理部112读出构成相关规则表400的相关规则，并将其可信度的值写入到相关规则表400对应的位置。例如，在相关规则表400中，将关联源401的值为“信用卡”、关联目的地402的值为“访客”的相关规则所具有的可信度404的值“54.54％”，写入到可信度行列700中行标签为“信用卡”、列标签为“访客”的位置。

通过对相关规则表400所具有的全部相关规则进行所述处理，数据种类计算处理部112完成了可信度行列700。

之后，数据种类计算处理部112，生成具有将可信度行列700的列(关联目的地)的标签702为行(关联源)的标签704和列的标签705的可信度距离行列703。可信度距离行列703的各值通过比较可信度行列700的每列的值来进行计算。这里，在以“平均0，方差1”来使可信度行列700的各行的值标准化之后，通过计算列之间的差的二次方和的平方根(欧式距离)，来计算列之间的距离。

利用上段表的各值来计算图7的下段表的各值。例如，在关联目的地为“访客”、关联源为“一般”的情况下，通过使用上段表的值计算((1)-(2))²+((4)-(5))²+((7)-(8))²，得到“2.9506975”。此外，()内的号码是赋予上段表的各数据的号码。

通过针对全部属性值之间求出这样的距离，完成了可信度距离行列703，并结束了计算属性值的相似性的处理。表示了可信度距离行列703的对应的值越小，相似性越高的属性。

图8是说明将本实施例的相似性高的属性值归结为同一种类的处理的图表的例子。

首先，数据种类计算处理部112根据可信度距离行列703来构成阶层集群800。这里，根据可信度距离行列703所保持的属性值间的距离信息，并基于组平均法，构成集群。即，“高级”和“一般”是以距离约0.8连接，“高级”、“一般”与“访客”是以距离约2.9连接的结构。组平均法是通过某组中包含的各点与组内未包含的点之间距离的平均值，来评价某组与点的距离的方法。在组平均法中，相互距离小的彼此之间形成集群，其余的利用距离的平均值置换。

此外，数据种类计算处理部112计算对阶层集群800进行分割的距离的值801。这里，进行分割的距离的值801的计算方法是作为“阶层集群800中的最大距离的2分之一”进行计算的方法。本例中，值801为约1.5。

之后，数据种类计算处理部112根据值801来分割阶层集群800。在本例中，由于值801约为1.5，因此，以其以下的距离连接的“高级”、“一般”被归结为同一种类802。由于不存在与“访客”以值801以下而连接的属性值，因此，“访客”为以单独的属性值构成的种类803。

图9是说明将本实施例相似性高的属性值归结为同一种类后的结果的图表的例子。

数据种类计算处理部112将所述导出的种类作为属性值种类化方法900写入到数据种类存储部108中。所述种类802与属性值种类化方法900所具有的种类1的信息901对应，所述种类803与种类2的信息902对应。

此外，在开始步骤202的阶段，在划分种类的对象即属性值的数为2以下时，生成将各属性值分别分类为其他种类的属性值种类化方法900，并写入到数据种类存储部108中，由此结束步骤202。

在步骤203中，相关规则再构成处理部113从暂定相关规则存储部107中读出相关规则，并一边参照从数据种类存储部108中读出的属性值种类化方法，一边对相关规则进行再计算，并写入到暂定相关规则存储部107中。

图10是说明本实施例的再构成相关规则的处理的图表的例子。

相关规则再构成处理部113从暂定相关规则存储部107读出图6的相关规则表400，以将关联源401和关联目的地402的值复制为关联源1001和关联目的地1002的值的方式，生成相关规则表1000。但是，在从数据种类存储部108读出的属性值种类化方法900中，对于同一种类中包含的属性值，归结为一个相关规则。

此外，相关规则再构成处理部113根据从暂定相关规则存储部107中读出的相关规则表400中记载的支持度403和可信度404的值，来计算相关规则表1000的相关规则的支持度1003和可信度1004的值。在本例中，将关联目的地402作为多个属性值而归结于关联目的地1002中，因此，关于相关规则表1000的相关规则，通过分别计算相关规则表400的对应的相关规则中的支持度43和可信度404的和，能够分别计算支持度1003和可信度1004。通过将计算结果的相关规则表1000写入到暂定相关规则存储部107中，结束步骤203。

此外，在本例的步骤202和203中，仅对相关规则中关联目的地的属性值进行了种类划分，但是，对于关联源的属性值，也可以使用相同方法或其他方法来进行种类划分。

在步骤204中，不必要规则去除处理部114从暂定相关规则存储部107读出相关规则，仅选出可信度比阈值高的相关规则，并写入到高可信度相关规则存储部109中。

图11是说明本实施例的选定可信度高的相关规则的处理的图表的例子。

不必要规则去除处理部114从暂定相关规则存储部107中读出相关规则1000，并提取其中具有高于阈值的可信度的相关规则组1100，由此，生成高可信度相关规则表1101。在本例中，设可信度的阈值为95％。通过将生成的高可信度相关规则表1101追加地写入到高可信度相关规则存储部109中，结束步骤204。

在步骤204结束的时刻，对于表格数据存储部所存储的表格数据的全部表格栏组合，在结束了高可信度相关规则的提取时，前进到步骤205。在还剩余未结束高可信度相关规则的提取的组合时，再次返回到步骤201，对剩余的组合进行同样的处理。

步骤205是开发者经由输出装置104而取得数据库分析装置100的数据分析结果的步骤。相关规则视觉化处理部115从高可信度相关规则存储部109读出相关规则，并在转换为视觉上容易理解的形式之后，输出到输出装置104。此外，关于输出，为了能够利用计算机处理可以输出为文本数据或二进制数据，为了使开发者能够阅读可以在监视器中显示为文字或图形。

通过以上叙述的处理，将图10上部所示各个相关规则进行组合，如图11下部所示，提取了同时发生的概率约为100％的相关规则。

图12是说明本实施例的将数据模式高可信度相关规则转换为视觉上容易理解的形式的处理的图表的例子。相关规则视觉化处理部115读出高可信度相关规则存储部109所存储的一个高可信度相关规则表。此外，将读出的高可信度相关规则表1200所存储的各相关规则的关联源标签1201、关联源属性值1202、关联目的地标签1203、关联目的地属性值1204，分别作为关联源名称1205、关联源属性值1206、关联目的地名称1207、关联目的地属性值1208来输出。

通过对高可信度相关规则存储部109所保持的全部高可信度相关规则表进行前述处理，结束步骤205。

通过本实施例的相关规则再构成，新的相关规则的可信度约为100％，因此，利用者一边参照支持度，一边从这些再构成的相关规则中选择合适者。即，支持度用于是否要重新对相关规则进行分类的判断。

Claims

1.一种数据库分析装置，其用于着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏，根据各表格栏所保持的数据同时出现的倾向，来自动地分析表格栏间存在的依存关系或制约条件，所述数据库分析装置的特征在于，

具有：

数据种类计算单元，其根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法；以及

相关规则再构成单元，其基于所述种类化结果来再构成相关规则，由此，生成最佳粒度的相关规则。

2.根据权利要求1所述的数据库分析装置，其特征在于，

所述数据种类计算单元是基于构成要素中包含表格栏所保持的各数据的相关规则组的、可信度的分布的相似性的计算单元。

3.根据权利要求1所述的数据库分析装置，其特征在于，

所述数据库分析装置具有用于计算各数据种类的妥当性的指标的数据种类妥当性计算单元。

4.根据权利要求1所述的数据库分析装置，其特征在于，

所述数据库分析装置具有当针对数据的各个组合未得到用作输入的相关规则时，以适当值来补全未得到的相关规则的可信度或支持度的相关规则补全单元。

5.根据权利要求1所述的数据库分析装置，其特征在于，

所述数据库分析装置具有：

相关规则选择提取单元，其提取相关规则中可信度高于预定值的相关规则；以及

相关规则视觉化单元，其将所述提取出的相关规则作为表格栏间存在的依存关系或制约条件转换为视觉上容易理解的形式。

6.根据权利要求5所述的数据库分析装置，其特征在于，

所述数据库分析装置具有：在分析相关规则时，一并进行该相关规则的反例的提取的相关规则分析单元，

所述相关规则视觉化单元是将相关规则的反例的信息也一并转换为视觉上容易理解的形式的单元。

7.一种数据库分析方法，其使用计算机，着眼于数据库所保持的多个表格中的构成表格的2个以上的表格栏，根据各表格栏所保持的数据同时出现的倾向，来自动地分析表格栏间存在的依存关系或制约条件，所述数据库分析方法的特征在于，

具有：

根据由多个表格栏的数据组生成的相关规则来计算数据组的种类化方法的数据种类计算步骤；以及

基于所述种类化结果来再构成相关规则，由此生成最佳粒度的相关规则的相关规则再构成步骤。

8.根据权利要求7所述的数据库分析方法，其特征在于，

所述数据种类计算步骤是基于构成要素中包含表格栏所保持的各数据的相关规则组的、可信度的分布的相似性的计算步骤。

9.根据权利要求7所述的数据库分析方法，其特征在于，

所述数据库分析方法具有用于计算各数据种类的妥当性的指标的数据种类妥当性计算步骤。

10.根据权利要求7所述的数据库分析方法，其特征在于，

所述数据库分析方法具有当针对数据的各个组合未得到用作输入的相关规则时，以适当值来补全未得到的相关规则的可信度或支持度的相关规则补全步骤。

11.根据权利要求7所述的数据库分析方法，其特征在于，

所述数据库分析方法具有：

用于提取相关规则中可信度高于一定值的相关规则的相关规则选择提取步骤；以及

用于将所述提取出的相关规则作为表格栏间存在的依存关系或制约条件转换为视觉上容易理解的形式的相关规则视觉化步骤。

12.根据权利要求11所述的数据库分析方法，其特征在于，

所述数据库分析方法具有：在分析相关规则时，一并进行该相关规则的反例的提取的相关规则分析步骤，

所述相关规则视觉化步骤是将相关规则的反例的信息一并转换为视觉上容易理解的形式的步骤。