CN105320720A - 相关规则分析装置以及相关规则分析方法 - Google Patents
相关规则分析装置以及相关规则分析方法 Download PDFInfo
- Publication number
- CN105320720A CN105320720A CN201510064731.7A CN201510064731A CN105320720A CN 105320720 A CN105320720 A CN 105320720A CN 201510064731 A CN201510064731 A CN 201510064731A CN 105320720 A CN105320720 A CN 105320720A
- Authority
- CN
- China
- Prior art keywords
- dependency rule
- value
- dependency
- row
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种相关规则分析装置以及相关规则分析方法。从作为RDB的标准的观点出发,对从RDB的数据中提取出的相关规则进行评分。由此能够提供例如在本发明的利用者分析RDB的标准时,用于一边适当进行排名或过滤一边确认作为表示该标准的信息的相关规则的附加信息。相关规则分析装置从存储在数据库中的数据中提取出该数据库的DB列的数据依存关系、制约条件等,其特征在于,具备:相关规则提取单元,其从输入的DB表数据中提取多个列之间的数据的同时出现关系的信息作为相关规则;相关规则汇总单元,其根据特定的共通性汇总所提取出的相关规则;汇总结果妥当性判定单元,其根据汇总后的各相关规则的出现频度和组合,计算作为数据依存关系和制约条件的有用性指标。
Description
技术领域
本发明涉及一种用于为了信息系统(system)的开发等而对用于掌握在作为对象的信息系统中利用的DB(Database:数据库)的标准的相关规则进行分析的技术。
背景技术
作为本技术领域的背景技术,有日本特开平11-259567(专利文献1)。在该公报中记载了为了分析相关规则,“提供一种技术,其能够提取竞争的事件的数据集(dataset),能够搜索即使发生比例低而关联性也强的数据集”(参照摘要)。
发明内容
在信息系统(system)的开发、维护中,理解DB(数据库)的标准是重要的。DB的标准有时明确地记载在说明书中,但也有时被隐含地规定。为了理解隐含的标准,从DB的数据(data)中提取特征的技术是有效的。具体地说,通过使用购物篮(basket)分析,能够根据数据的同时出现关系的原则(相关规则)找到DB所保存的数据应该满足的依存关系/制约条件(标准的一个方面)。此外,在本发明中,作为DB特别设想RDB(RelationalDatabase:相关数据库)。这时,通过购物篮分析,能够找到存在于列(column)之间的数据依存关系/制约条件。
例如在某RDB的表(table)中,如果通过购物篮分析能够发现“在‘删除标志(flag)’的值为‘1’时,‘删除年月日’的值一定不是NULL(空)”这样的相关规则,则能够推测存在“在‘删除标志’为‘1’时,‘删除年月日’的值是必需的”这样的标准。
一般,在购物篮分析中,大多输出大量的相关规则。因此,必须进行用于削减人进行确认时的麻烦的处理。采用以下的手段,即(1)通过汇总所提取出的相关规则来减少相关规则的总数,另外,(2)通过机械地进行评分(scoring),使得能够进行过滤/排名(filtering/ranking)(排序:sort)。
对于其中的(2)评分,大多使用作为相关规则的指标值的支持度(Support)、准确度(Confidence)、提升值(Lift)这样的值。另外,在上述专利文献1中说明了根据“期待关联指数”、“关联强度指数”等指标,将“虽然在现有的购物篮分析中为低的评价但是有用的规则”反映到得分(Score)中的方法。
但是,通过这些现有的方法进行数值化的指标只是作为各个相关规则的有用性,并不是表示作为存在于列之间的标准的有用性的指标。存在于列之间的标准由多个相关规则构成,因此存在只有这样的指标是不充分的问题。
另外,通过现有的方法数值化了的指标值,是对所有的相关规则进行统一处理的指标值,不是依据作为标准的特性的指标值。具体地说,在表示数据的对应关系的相关规则(例如在“年休标志”为“1”时“代休标志”是“0”)、表示数据的大小关系的相关规则(例如在“售价”为“105”时“材料费”是“30”)中,通过相同的方法计算评价值。因此,存在无法计算出适当地表示相关规则的有用性的评价值的问题(具体地在实施例中说明)。
因此,本发明提供一种结构,其综合多个相关规则,另外输出依据数据的特性的观点下的评价值,由此,对作为存在于RDB表的列之间的标准的有用性进行数值化。由此,其目的在于从作为RDB的标准的观点出发,适当地对相关规则进行评分。
为了解决上述问题,在本发明中,作为上述评分,使用与数据有关的条件的出现比例、满足制约的比例的比率。能够将其结果用于相关规则的汇总。更详细地说,采用以下的结构。作为一种相关规则分析装置,其从存储在数据库中的数据中至少提取该数据库的DB列的数据依存关系、制约条件等的任意一个,具备:相关规则提取单元,其从存储了作为分析对象的数据的DB表数据中,提取多个列之间的数据的同时出现关系的信息作为相关规则;相关规则汇总单元,其根据特定的共通性汇总所提取的相关规则;汇总结果妥当性判定单元,其根据汇总后的各相关规则的出现频度和组合,计算包含数据依存关系和制约条件的至少一方的有用性指标。在此,在本申请说明书中,“同时出现关系”表示在一方出现时另一方也出现,也可以不一定在时间上一致地出现。此外,在本发明中也包含用于实现方法、上述装置的计算机程序(computerprogram)。
根据本发明,从作为RDB的标准的观点出发,能够对从RDB的数据中提取的相关规则进行评分。由此,能够提供例如在本发明的利用者分析RDB的标准时,用于一边适当地进行排名(ranking)或进行过滤(filtering)一边确认作为表示该标准的信息的相关规则的附加信息。因此,能够使RDB的标准的分析作业高效。
附图说明
图1是本发明的一个实施例的相关规则分析装置的结构图的例子。
图2是说明本发明的一个实施例的相关规则分析装置的处理的流程图的例子。
图3是说明本发明的一个实施例的从数据库读入的表的数据的影像图的例子。
图4是说明本发明的一个实施例的计数列值的出现次数的处理的影像图的例子。
图5是说明本发明的一个实施例的列特性判定原则的影像图的例子。
图6是说明本发明的一个实施例的制作列特性信息的处理的影像图的例子。
图7是说明本发明的一个实施例的计数列值的组的出现次数的处理的影像图的例子。
图8是说明本发明的一个实施例的相关规则汇总原则的影像(image)图的例子。
图9是说明本发明的一个实施例的选择相关规则汇总原则的处理的影像图的例子。
图10是说明本发明的一个实施例的导出相关规则汇总名的处理的影像图的例子。
图11是说明本发明的一个实施例的重构相关规则的处理的影像图的例子。
图12是说明本发明的一个实施例的补充重构后的相关规则的原因侧件数信息的处理的影像图的例子。
图13是说明本发明的一个实施例的补充重构后的相关规则的结果侧件数信息的处理的影像图的例子。
图14是说明本发明的一个实施例的为了高效地进行补充相关规则的信息的处理而使用的列值出现次数的影像图的例子。
图15是说明本发明的一个实施例的根据相关规则的信息计算并更新指标值的处理的影像图的例子。
图16是说明本发明的一个实施例的汇总相关规则的处理的影像图的例子。
图17是针对本发明的一个实施例的相关规则汇总结果说明基于提升(Lift)的差异的影像图的例子。
图18是说明本发明的一个实施例的补充相关规则汇总结果的信息的原则的影像图的例子。
图19是说明本发明的一个实施例的补充相关规则汇总结果的信息的处理的影像图的例子。
图20是说明本发明的一个实施例的将相关规则汇总结果变换为在视觉上容易理解的形式的处理的影像图的例子。
具体实施方式
以下,使用附图说明本发明的一个实施例。
在本实施例中,说明相关规则分析装置的例子。
图1是本实施例的相关规则分析装置的结构图的例子。本相关规则分析装置100具备CPU101、存储器(memory)102、输入装置103、输出装置104、外部存储装置105。即,通过所谓的计算机(computer)实现。外部存储装置105保存分析对象表数据存储部106、列值出现次数存储部121、列特性判定原则存储部107、列特性存储部108、相关规则汇总原则存储部109、相关规则存储部110、相关规则汇总结果存储部111、汇总后相关规则评价原则存储部112,进而保存处理程序113。处理程序(program)113保存列值出现次数计数(count)处理部122、列特性判定部114、相关规则汇总原则判定部115、相关规则提取处理部116、相关规则汇总前处理部117、相关规则汇总处理部118、汇总结果妥当性判定部119、汇总结果视觉化处理部120。
处理程序113在执行时被读入到存储器102,通过CPU101执行。此外,使用流程图在后面说明其处理内容。
列特性判定原则存储部107、相关规则汇总原则存储部109、汇总后相关规则评价原则存储部112中分别预先输入列特性判定原则、相关规则汇总原则、汇总后相关规则评价原则。在将后面说明列特性判定原则、相关规则汇总原则、汇总后相关规则评价原则的细节。
将经由输入装置103从外部输入的DB表的数据写入到分析对象表数据(tabledata)存储部106中。
列值出现次数计数处理部122一边参照从分析对象表数据存储部106读出的列的数据,一边计数各列的数据的出现次数,将结果写入到列值出现次数存储部121中。
列特性判定部114一边参照从列值出现次数存储部121读出的列值的出现次数,一边使用从列特性判定原则存储部107读出的列特性判定原则制作列特性信息,并写入到列特性存储部108中。
相关规则提取处理部116一边参照从分析对象表数据存储部106读出的列的数据,一边计数各列的值的组的出现次数,将结果写入到相关规则存储部110中。
列特性汇总原则判定部115一边参照从列特性存储部108读出的列特性信息,一边使用从相关规则汇总原则存储部109读出的相关规则汇总原则选择相关规则汇总原则,写入到相关规则存储部110保存的相关规则的信息中。另外,列特性汇总原则判定部115使用选择出的相关规则汇总原则,导出与已提取的各相关规则对应的相关规则汇总名,写入到相关规则存储部110所保存的相关规则的信息中。
相关规则汇总前处理部117对从相关规则存储部110读出的相关规则进行重构,更新相关规则存储部110的信息。另外,相关规则汇总前处理部117从相关规则存储部110读出相关规则,参照从列值出现次数存储部121读出的列值出现次数、以及从相关规则汇总原则存储部109读出的相关规则汇总原则计算必要的数值,由此在补充信息后,再次作为相关规则存储部110的相关规则而写入。进而,相关规则汇总前处理部117使用从相关规则存储部110读出的相关规则的信息,计算相关规则的指标值,在更新了相关规则的信息后,再次作为相关规则存储部110的相关规则而写入。
相关规则汇总处理部118在根据相关规则的汇总名的共通性对从相关规则存储部110读出的相关规则的信息进行汇总后,作为汇总后相关规则写入到相关规则汇总结果存储部111中。
汇总结果妥当性判定部119在参照从相关规则汇总结果存储部111读出的汇总后相关规则的信息,使用从汇总后相关规则评价原则存储部112读出的汇总后相关规则评价原则的信息进行补充后,再次写入到相关规则汇总结果存储部111中。
汇总结果视觉化处理部120依照装置的利用者的指示,从相关规则汇总结果存储部111读出相关规则汇总结果,在变换为在视觉上容易理解的形式后,输出到输出装置104。
图2是说明本实施例的相关规则分析装置的处理的流程图的例子。以后,根据图2的流程说明图1的各部的动作。
步骤201是输入RDB表的数据作为向相关规则分析装置的输入信息的步骤。由装置的利用者实施输入操作。在步骤201中,将从输入装置103输入的RDB的数据中的与一个表对应的数据写入到分析对象表数据存储部106中。
图3是说明本实施例的从数据库读入的表的数据的影像图的例子。输入数据300保存共10行的记录,各记录(record)具有4个列“更新年月日”301、“批准年月日”302、“制作者出生年月日”303、“批准者出生年月日”304的数据。另外,假定对表头(header)行305赋予了用于确定各列的标识符。此外,与表头行305对应的信息作为输入信息并不是必需的。在没有作为向分析装置的输入信息而给出该信息的情况下,在分析装置100内机械地对每列赋予唯一(unique)的ID,作为表头行305用的代替信息,并进行以下的步骤(step)即可。
步骤202是选择分析对象的列的组作为向相关规则分析装置的输入信息的步骤。由装置的利用者实施选择操作。
列的组的信息由“原因侧列”、“结果侧列”的组构成。对于“原因侧列”、“结果侧列”,在本实施例的步骤205的说明以及此后的步骤的说明中记载。在本实施例中,以下只要没有特别的说明,则设想装置的利用者选择“更新年月日”301作为“原因侧列”,另外选择“批准年月日”302作为结果侧列名的情况来进行说明。此外,也可以省略本步骤,将各列的组合分别作为分析对象。
以下的步骤203到209是基于输入信息的机械的处理,是能够不经由人手而只通过数据库分析装置实施的处理。
在步骤203中,列值出现次数计数处理部122一边参照从分析对象表数据存储部106读出的列的数据,一边计数各列的数据的出现次数,将结果写入到列值出现次数存储部121中。
图4是说明本实施例的计数列值的出现次数的处理的影像图的例子。列值出现次数计数处理部122针对输入数据300所保存的列中的在步骤202中选择出的列的组所包含的各列,分别制作列值出现次数信息。图4记载的列值出现次数信息400与图3记载的“更新年月日”列301对应。列值出现次数信息400保存列值401和出现数402。列值特性信息判定部106在排除了重复的“更新年月日”列301的值的基础上,将其保存为列值401的信息。另外,列值特性信息判定部106通过参照“更新年月日”列301来计数“更新年月日”列的列值401的各值的出现次数,登记为出现数402的信息。
图4是与“更新年月日”301有关的处理的说明,但关于包含在步骤S202中选择出的列的组中的“批准年月日”302也进行同样的处理。
在步骤204中,列特性判定部114一边参照从列值出现次数存储部121读出的列值的出现次数,一边使用从列特性判定原则存储部107读出的列特性判定原则来制作列特性信息,写入到列特性存储部108中。
图5是说明本实施例的列特性判定原则的影像图的例子。列特性判定原则500具有列特性名501、匹配(match)条件502。列特性名501是确定列特性的唯一的ID。匹配条件502表示用于判定为某值具有该列特性的条件,在图5中用正规表现来表示。它表示在某列的出现值为一定比例以上,是与上述正规表现匹配的字符串的情况下判定为是该列特性。在本实施例中,上述“一定的比例”是与列特性无关的阈值,设为80%。此外,该阈值也可以使用对每个列特性都不同的值。
另外,如本实施例那样,在用字符串给出列的值的情况下,作为用于将它变换为数量值的函数,也可以具有变换逻辑(logic)503。在本实施例的以后,在没有特别禁止的情况下,在按照偏序关系处理列值的情况下,也在通过这样的变换逻辑进行了变换后进行评价/处理。
图6是说明本实施例的制作列特性信息的处理的影像图的例子。列特性信息600具有列名601和列特性名602。列特性判定部114将与列值出现次数信息400对应的列名记录为列名601。另外,为了列特性名602的判定,列特性判定部114针对各列计算满足与各列特性对应的匹配条件502的数据的比例。在本实施例中,对于“更新年月日”的列值401,在列特性名“年月日”的情况下,各数据匹配,为100%。由于该匹配比例超过阈值80%,因此判定为“更新年月日”的列特性是“年月日”,将判定结果的列特性名501记录为列特性信息600的列特性名602。此外,在上述比例的计算中,既可以根据出现实际数量计算,也可以根据出现种数计算。
另外,关于上述比例对于多个列特性达到一定以上的情况,通过选择上述比例最高的列特性等来决定一个即可。或者,也可以由一个列具有多个列特性而采用各个列特性。在本实施例中,为了简便,假设一个列具有一个列特性来说明以后的步骤。
在步骤205中,相关规则提取处理部116一边参照从分析对象表数据存储部106读出的列的数据,一边计数各列的值的组的出现次数,将结果写入到相关规则存储部110中。
图7是说明本实施例的计数列值的组的出现次数的处理的影像图的例子。列间相关规则信息700保存原因侧列名701、结果侧列名702、原因侧值704、结果侧值705、件数706、汇总原则707、原因侧件数708、结果侧件数709、提升值710。其中,在步骤205中进行原因侧列名701、结果侧列名702、原因侧值704、结果侧值705、件数706的信息的登记。
相关规则提取处理部116将在步骤202中选择出的“原因侧列”、“结果侧列”的列名分别登记为原因侧列名701、结果侧列名702。进而,相关规则提取处理部116针对输入信息300中的分别作为原因侧列/结果侧列的“更新年月日”301和“批准年月日”302,在排除了组合的重复的基础上保存为原因侧值704、结果侧值705的值的组。另外,相关规则提取处理部116通过参照“更新年月日”301和“批准年月日”302的值来计数上述值的组的出现次数,登记为件数706的信息。
在步骤206中,列特性汇总原则判定部115一边参照从列特性存储部108读出的列特性信息,一边使用从相关规则汇总原则存储部109读出的相关规则汇总原则选择相关规则汇总原则,写入到相关规则存储部110所保存的相关规则的信息中。
进而,列特性汇总原则判定部115使用选择出的相关规则汇总原则,导出与已提取的各相关规则对应的相关规则汇总名,写入到相关规则存储部110所保存的相关规则的信息中。
图8是说明本实施例的相关规则汇总原则的影像(image)图的例子。相关规则汇总原则800具有汇总原则名801、与之对应的原因侧列特性名802、结果侧列特性名803。另外,对于一个汇总原则名801,具有多个汇总名804以及汇总对象相关规则判定逻辑805。汇总对象相关规则判定逻辑805所记载的信息都是取得2个输入值而返回真伪值的函数的信息。
图9是说明本实施例的选择相关规则汇总原则的处理的影像图的例子。列特性汇总原则判定部115从列特性信息600的列名601中搜索出相同的列名,由此提取与列间相关规则信息700所保存的原因侧列名701、结果侧列名702对应的信息。进而,列特性汇总原则判定部115提取与上述列名601对应的列特性名602。然后,从相关规则汇总原则800中搜索出作为原因侧列特性名802、结果侧列名803而具有所提取的列特性名的汇总原则。在图9中明确地表示出上述搜索的结果,因此将汇总原则名801记载为列间相关规则信息700的汇总原则707的附加信息712。
图10是说明本实施例的导出相关规则汇总名的处理的影像图的例子。
列特性汇总原则判定部115选择列间相关规则信息700所保存的相关规则1001中的一个。然后,将选择出的相关规则的原因值704、结果值704作为输入参数(parameter),顺序地执行上述搜索出的汇总对象相关规则判定逻辑805的函数。在通过执行而得到了“真”的结果的情况下,将该汇总名804登记为正在选择中的相关规则的汇总原则707。在通过执行而得到了“伪”的结果的情况下,直到得到“真”为止重复进行本处理。在对于各个函数都为“伪”的情况下,汇总原则706可以保持为空栏。对于列间相关规则信息700所保存的各相关规则1001进行同样的处理,由此结束步骤206。
在步骤207中,相关规则汇总前处理部117对从相关规则存储部110读出的相关规则进行重构,更新相关规则存储部110的信息。进而,相关规则汇总前处理部117从相关规则存储部110读出相关规则,参照从列值出现次数存储部121读出的列值出现次数、以及从相关规则汇总原则存储部109读出的相关规则汇总原则计算必要的数值,由此在补充信息后,再次作为相关规则存储部110的相关规则而写入。
然后,相关规则汇总前处理部117使用从相关规则存储部110读出的相关规则的信息,计算相关规则的指标值,在更新了相关规则的信息后,再次作为相关规则存储部110的相关规则而写入。
图11是说明本实施例的重构相关规则的处理的影像图的例子。相关规则汇总前处理部117提取列间相关规则信息700所保存的相关规则1001中的、具有相同的原因侧值704/相同的汇总原则707的相关规则的组合。将提取出的相关规则汇总为一个,由此重构相关规则。在重构时,对于结果侧值705列举了汇总前的规则所保存的结果侧值,件数706设为汇总前的规则所保存的件数的和。另外,对于原因侧值704和汇总原则707,使用汇总前的规则所保存的值即可。直到没有具有相同的原因侧值704/相同的汇总原则707的相关规则为止实施这样的处理,由此制作重构后的列间相关规则信息。
图12是说明本实施例的补充重构后的相关规则的原因侧件数信息的处理的影像图的例子。相关规则汇总前处理部117从列值出现次数存储部121读出与列间相关规则信息700所保存的原因侧列名701对应的列值出现次数信息400。然后,针对相关规则信息700所保存的重构后的各个相关规则1201,从上述读出的列值出现次数信息400的列值401中搜索出与该原因侧值704对应的信息,将与搜索出的结果对应的出现次数402记录为该相关规则1201的原因侧件数707。针对列间相关规则700所保存的各相关规则1201实施这样的处理,由此补充原因侧件数708的信息。
图13是说明本实施例的补充重构后的相关规则的结果侧件数信息的处理的影像图的例子。相关规则汇总前处理部117从列值出现次数存储部121读出与列间相关规则信息700所保存的结果侧列名702对应的列值出现次数信息400。然后,相关规则汇总前处理部117选择列间相关规则信息700所保存的重构后的相关规则1201中的一个,搜索出从相关规则汇总原则存储部109读出的相关规则汇总原则800中的具有相同汇总名804的汇总原则,由此提取与该汇总原则707对应的汇总对象相关规则判定逻辑805。进而,相关规则汇总前处理部117将作为正在选择中的重构后的相关规则的原因侧值704作为第一输入参数,将上述读出的列值出现次数信息400的各列值作为第二自变量,执行上述提取出的汇总对象相关规则判定逻辑805。将与执行结果为“真”的列值对应的出现次数402的和作为正在选择中的重构后的相关规则的结果侧件数709而写入。通过对列间相关规则信息700所保存的各重构后的相关规则1201执行这样的操作,来补充结果侧件数709的信息。
图14是说明本实施例的为了高效地进行补充相关规则的信息的处理而使用的列值出现次数的影像图的例子。在图13中说明的处理,如图14所记载的列值出现次数400那样,基于偏序关系计数与各范围对应的值的个数,由此能够省略汇总对象相关规则判定逻辑805的每次执行,因此能够使处理高效。具体地说,首先,针对与列间相关规则信息700的结果侧列702对应的列值出现次数信息400,计算与出现次数402对应的范围的值的和,由此计算该列值701之前的日期的出现数1401、之后的日期的出现数1402。相关规则汇总前处理部117参照原因侧值704与列值401的对应关系、汇总原则707的内容,从列值出现次数400中搜索出对应的位置,由此发现并补充与重构后的相关规则1201对应的结果侧件数709的信息。
图15是说明本实施例的根据相关规则的信息计算并更新指标值的处理的影像图的例子。相关规则汇总前处理部117针对列间相关规则信息700所保存的各重构后的相关规则1201计算以下的值,由此计算各个相关规则的提升值。
(该相关规则的件数/原因侧件数)/(结果侧件数/相关规则的件数的合计)
将计算出的值作为各相关规则的提升值710写入到列间相关规则信息700中。通过根据写入的结果的列间相关规则信息700更新相关规则存储部110的信息,来结束本步骤。
此外,在此只计算提升值作为相关规则的指标值,但也可以通过本处理同时计算出作为相关规则的其他指标值的支持值、准确值等。在步骤208中,相关规则汇总处理部118在根据相关规则的汇总名的共通性汇总了从相关规则存储部110读出的相关规则的信息后,作为汇总后相关规则写入到相关规则汇总结果存储部111中。
图16是说明本实施例的汇总相关规则的处理的影像图的例子。相关规则汇总处理部118制作与从相关规则存储部110读出的列间相关规则信息700对应的汇总后相关规则1600。汇总后相关规则1600具有原因侧列名1601、结果侧列名1602、有效性1603、汇总原则1604、原因侧值1605、结果侧值1606、件数1607、提升值1608、支持值1609。相关规则汇总处理部118将读出的列间相关规则信息700的原因侧列名701登记为汇总后相关规则1600的原因侧列名1601,另外将结果侧列名702登记为汇总后相关规则1600的结果侧列名1602。然后,相关规则汇总处理部118将列间相关规则信息700所保存的重构后的相关规则1201分别分割为汇总原则707相同的组。进而,相关规则汇总处理部118对上述分割的每个组,向汇总后相关规则1600追加汇总原则1604、原因侧值1605、结果侧值1606、件数1607、提升值1608、支持值1609的信息。在汇总原则1604的信息中,记载该组的相关规则1201所共通的汇总原则707的值。在原因侧值1605的信息中,记载为在该组的相关规则1201中出现的原因侧值704的偏序关系上的上限值/下限值。在结果侧值1606的信息中,记载为在该组的相关规则1201中出现的结果侧值705的偏序关系上的上限值/下限值。在件数1607中记载该组的相关规则1201的件数706的合计值。在提升值1608中记载该组的相关规则1201的提升值710的调和平均。在支持值1609中记载将该组的相关规则1201的件数706的合计除以成为对象的全部相关规则1201的件数706的合计所得的值。
此外,也可以在针对上述分割后的全部组完成件数1607、提升值1608、支持值1609的计算后,计算作为汇总后相关规则1600的统计评价值1610的件数1607、提升值1608、支持值1609。在该情况下,对于件数1607,计算并记载成为对象的全部组的件数1607的合计值。对于提升值1608,计算并记载成为对象的全部组的提升值1608的调和平均。对于支持值1609,计算并记载成为对象的全部组的支持值1609的合计值。
图17是说明本实施例的基于相关规则汇总结果的提升值的差异的影像图的例子。汇总后相关规则1701是在本实施例中作为例题的汇总后相关规则,将图3的输入信息300中的“更新年月日”301导出为原因侧列1601,并且将“批准年月日”302导出为结果侧列1602。另外,汇总后相关规则1702,使用与导出上述汇总后相关规则1701的方法相同的方法,将“批准者出生年月日”304导出为原因侧列1601,并且将“批准年月日”302导出为结果侧列1602。
这些汇总后相关规则,支持值1609都是100%,时间的前后关系始终成立,因此如果只从支持值的观点出发进行判断,则认为是作为标准而有效的规则。但是,在相关规则1702中,提升值1608为1.0的低值,表示出作为标准的有用性低。
此外,提升值是表示由于“原因侧值”将“结果侧值”可取的范围缩小的程度的值,是通过将没有规定“原因侧值”的情况作为基准值(1.0)的倍率来表示的值。在值是1.0的情况下,未根据“原因侧值”特别施加制约条件,因此能够判断为作为相关规则的有用性低。在图17的事例的前后关系的情况下,在完全没有原因侧列1601和结果侧列1602的数据分布区域之间的重叠的情况下,在本方法中计算出的提升值1608为1.0。通过参照提升值,能够发现数据区域本来没有重叠而在标准上难以认为“结果侧列”1602的值由于“原因侧列”1601的特定的出现值而受到影响的情况。
在步骤209中,汇总结果妥当性判定部119在参照从相关规则汇总结果存储部111读出的汇总后相关规则的信息,使用从汇总后相关规则评价原则存储部112读出的汇总后相关规则评价原则的信息进行补充后,再次写入到汇总后相关规则存储部111中。
图18是说明本实施例的补充相关规则汇总结果的信息的原则的影像图的例子。汇总后相关规则评价原则1800由一个以上的汇总后相关规则有效性判定条件1801构成,各个汇总后相关规则有效性判定条件1801具有有效性信息1802。另外,汇总后相关规则有效性判定条件1801保存对象汇总原则1803和支持值条件1804的一个以上的组。此外,对象汇总原则1803所记载的值是作为相关规则汇总原则800所记载的汇总名804而使用的值的任意一个。另外,支持值条件1804所记载的内容表示数值的制约条件。
图19是说明本实施例的补充相关规则汇总结果的信息的处理的影像图的例子。汇总结果妥当性判定部119针对从相关规则汇总结果存储部111读出的汇总后相关规则1600,提取对应的汇总后相关规则判定条件1801。具体地说,从汇总后相关规则评价原则1800的开头开始判定汇总后相关规则判定条件1801,提取最初符合条件的汇总后相关规则判定条件1801。
在提取汇总后相关规则判定条件1801时,针对该汇总后相关规则判定条件所保存的对象汇总原则1803和支持值条件1804的全部组,判定后述的条件。在针对全部的情况(case)满足条件的情况下,判定为符合条件,提取该汇总后相关规则判定条件1801。
在判定对象汇总原则1803和支持值条件1804的组所示的条件时,首先从汇总后相关规则1600中搜索出具有与对象汇总原则1803相同的值的汇总原则1604,提取与之对应的支持值1609的值。在没有找到具有与对象汇总原则1803相同的值的汇总原则1604的情况下,看作支持值为0%。然后,判定提取出的支持值是否满足支持值条件1804的制约条件。
此外,在未从汇总后相关规则评价原则1800中提取出与汇总后相关规则1600对应的汇总后相关规则判定条件1801的情况下,可以将汇总后相关规则1600的有效性1603保持为空栏,结束步骤209。空栏的状态表示汇总后相关规则1600的内容不是设想为标准的规则结构,表示是作为标准的有用度低的信息。
步骤210是本发明的利用者通过输出装置104取得相关规则分析装置100对数据的分析结果的步骤。汇总结果视觉化处理部120依照装置的利用者的指示,从相关规则汇总结果存储部111读出相关规则汇总结果,在变换为视觉上容易理解的形式后,输出到输出装置104。此外,输出既可以输出为文本数据(textdata)或二进制数据(binarydata)使得能够通过计算机处理,也可以在监视器上显示文字或图形(graphic)使得开发者能够阅览。
图20是说明本实施例的将相关规则汇总结果变换为在视觉上容易理解的形式的处理的影像图的例子。相关规则视觉化处理部120从相关规则汇总结果存储部111读出汇总后相关规则。进而,在确定并提取出所读出的汇总后相关规则中的、由装置的利用者指定的有用度高的部分(在此,是有效性1603为“高”并且提升值1608为“1.05以上”的部分)后,输出到输出装置104。
Claims (9)
1.一种相关规则分析装置,其从存储在数据库中的数据中提取该数据库的DB列的数据依存关系以及制约条件的至少一方,该相关规则分析装置的特征在于,具备:
相关规则提取单元,其从存储了作为分析对象的数据的DB表数据中,提取多个列之间的数据的同时出现关系的信息作为相关规则;
相关规则汇总单元,其根据特定的共通性汇总所提取出的上述相关规则;以及
汇总结果妥当性判定单元,其根据汇总后的各个上述相关规则的出现频度和组合,计算作为数据依存关系或制约条件的有用性指标。
2.根据权利要求1所述的相关规则分析装置,其特征在于,
在上述特定的共通性中包含在上述相关规则的条件部的值和结论部的值之间成立的偏序关系的同一性。
3.根据权利要求2所述的相关规则分析装置,其特征在于,还具备:
列特性判定处理单元,其根据该数据判定上述数据库的数据的特征;以及
相关规则汇总原则判定单元,其根据数据库的数据的特征决定为了进行相关规则的汇总而应用的共通性的架构。
4.根据权利要求2所述的相关规则分析装置,其特征在于,还具备:
相关规则汇总前处理单元,其在根据上述偏序关系的同一性来汇总上述相关规则的情况下,依据该偏序关系的内容来计算汇总前的相关规则的提升值。
5.根据权利要求4所述的相关规则分析装置,其特征在于,
上述相关规则汇总前处理单元在计算上述提升值时,利用对结论部的值的出现次数进行计数而得的已排序表作为暂时数据,执行提升值计算。
6.根据权利要求1所述的相关规则分析装置,其特征在于,
上述相关规则汇总处理单元,计算汇总后的相关规则的提升值,作为汇总前的相关规则的提升值的调合平均。
7.根据权利要求2所述的相关规则分析装置,其特征在于,
在上述偏序关系中包含作为日期的值的前后关系。
8.根据权利要求2所述的相关规则分析装置,其特征在于,
在上述偏序关系中包含数值的大小关系。
9.根据权利要求1所述的相关规则分析装置,其特征在于,还具备:
汇总结果视觉化处理单元,其在输出汇总后的相关规则的情况下,根据由汇总结果妥当性判定单元判定出的有用性的指标值决定顺序、范围。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014135511A JP6244274B2 (ja) | 2014-07-01 | 2014-07-01 | 相関ルール分析装置および相関ルール分析方法 |
JP2014-135511 | 2014-07-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105320720A true CN105320720A (zh) | 2016-02-10 |
CN105320720B CN105320720B (zh) | 2018-11-09 |
Family
ID=55017229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510064731.7A Active CN105320720B (zh) | 2014-07-01 | 2015-02-06 | 相关规则分析装置以及相关规则分析方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160004968A1 (zh) |
JP (1) | JP6244274B2 (zh) |
CN (1) | CN105320720B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078352A1 (en) * | 2014-09-11 | 2016-03-17 | Paul Pallath | Automated generation of insights for events of interest |
US10685011B2 (en) | 2017-02-02 | 2020-06-16 | International Business Machines Corporation | Judgement of data consistency in a database |
WO2018146716A1 (ja) * | 2017-02-07 | 2018-08-16 | 株式会社日立製作所 | データ管理方法及び計算機 |
JP2019086887A (ja) * | 2017-11-02 | 2019-06-06 | 株式会社エヌ・ティ・ティ・データ | 情報処理装置、情報処理方法及びコンピュータプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6651049B1 (en) * | 1999-10-22 | 2003-11-18 | International Business Machines Corporation | Interactive mining of most interesting rules |
US20090287685A1 (en) * | 2002-02-04 | 2009-11-19 | Cataphora, Inc. | Method and apparatus for sociological data analysis |
US20140122445A1 (en) * | 2012-10-25 | 2014-05-01 | Hitachi, Ltd. | Database analyzer and database analysis method |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115842A (ja) * | 1997-06-24 | 1999-01-22 | Mitsubishi Electric Corp | データマイニング装置 |
JP2000353163A (ja) * | 1999-06-11 | 2000-12-19 | Just Syst Corp | データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体 |
US6651048B1 (en) * | 1999-10-22 | 2003-11-18 | International Business Machines Corporation | Interactive mining of most interesting rules with population constraints |
US8401986B1 (en) * | 2004-08-05 | 2013-03-19 | Versata Development Group, Inc. | System and method for efficiently generating association rules |
US8401987B2 (en) * | 2007-07-17 | 2013-03-19 | International Business Machines Corporation | Managing validation models and rules to apply to data sets |
US20120137367A1 (en) * | 2009-11-06 | 2012-05-31 | Cataphora, Inc. | Continuous anomaly detection based on behavior modeling and heterogeneous information analysis |
CN102402757A (zh) * | 2010-09-15 | 2012-04-04 | 阿里巴巴集团控股有限公司 | 信息提供方法及装置、综合关联度确定方法及装置 |
WO2013046435A1 (ja) * | 2011-09-30 | 2013-04-04 | 富士通株式会社 | 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法 |
US8755409B2 (en) * | 2011-10-14 | 2014-06-17 | Alcatel Lucent | Processing messages with incomplete primary identification information |
US9275333B2 (en) * | 2012-05-10 | 2016-03-01 | Eugene S. Santos | Augmented knowledge base and reasoning with uncertainties and/or incompleteness |
US20140180811A1 (en) * | 2012-12-22 | 2014-06-26 | Coupons.Com Incorporated | Automatic recommendation of electronic offers to an offer provider based on historical transaction data and offer data |
US10061822B2 (en) * | 2013-07-26 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | System and method for discovering and exploring concepts and root causes of events |
-
2014
- 2014-07-01 JP JP2014135511A patent/JP6244274B2/ja active Active
-
2015
- 2015-02-04 US US14/614,006 patent/US20160004968A1/en not_active Abandoned
- 2015-02-06 CN CN201510064731.7A patent/CN105320720B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6651049B1 (en) * | 1999-10-22 | 2003-11-18 | International Business Machines Corporation | Interactive mining of most interesting rules |
US20090287685A1 (en) * | 2002-02-04 | 2009-11-19 | Cataphora, Inc. | Method and apparatus for sociological data analysis |
US20140122445A1 (en) * | 2012-10-25 | 2014-05-01 | Hitachi, Ltd. | Database analyzer and database analysis method |
CN103778179A (zh) * | 2012-10-25 | 2014-05-07 | 株式会社日立制作所 | 数据库分析装置和数据库分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6244274B2 (ja) | 2017-12-06 |
CN105320720B (zh) | 2018-11-09 |
US20160004968A1 (en) | 2016-01-07 |
JP2016014944A (ja) | 2016-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200349467A1 (en) | Preparing Structured Data Sets for Machine Learning | |
CN105320720A (zh) | 相关规则分析装置以及相关规则分析方法 | |
CN112163553B (zh) | 物料价格核算方法、装置、存储介质和计算机设备 | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN105912645A (zh) | 一种智能问答方法及装置 | |
CN111783818B (zh) | 一种基于Xgboost和DBSCAN的精准营销方法 | |
CN107292666A (zh) | 销售潜力判断方法及装置 | |
CN111899090A (zh) | 企业关联风险预警方法及系统 | |
CN105184078A (zh) | 基于专利相对量分析的技术成熟度评价方法 | |
CN108459965B (zh) | 一种结合用户反馈和代码依赖的软件可追踪生成方法 | |
CN110910991A (zh) | 一种医用自动图像处理系统 | |
CN107977504B (zh) | 一种非对称堆芯燃料管理计算方法、装置及终端设备 | |
CN115730605A (zh) | 基于多维信息的数据分析方法 | |
CN112214557B (zh) | 数据匹配分类方法及装置 | |
US20240177077A1 (en) | Attribution analysis method, electronic device, and storage medium | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN106874286B (zh) | 一种筛选用户特征的方法及装置 | |
CN116578677A (zh) | 一种针对医疗检验信息的检索系统和方法 | |
CN116561291A (zh) | 基于自然语言智能转化模型的智能推荐方法和系统 | |
CN114302227B (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
CN103207871A (zh) | 对搜索系统的查询串改写效果进行评测的方法和装置 | |
CN115167965A (zh) | 交易进度条的处理方法及装置 | |
CN112418652B (zh) | 一种风险识别方法及相关装置 | |
CN110502731B (zh) | 一种基于精化单元格聚类的电子表格缺陷检测方法 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |