CN103778179A - 数据库分析装置和数据库分析方法 - Google Patents

数据库分析装置和数据库分析方法 Download PDF

Info

Publication number
CN103778179A
CN103778179A CN201310511560.9A CN201310511560A CN103778179A CN 103778179 A CN103778179 A CN 103778179A CN 201310511560 A CN201310511560 A CN 201310511560A CN 103778179 A CN103778179 A CN 103778179A
Authority
CN
China
Prior art keywords
data
data pattern
mentioned
pattern
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310511560.9A
Other languages
English (en)
Other versions
CN103778179B (zh
Inventor
桥本康范
三部良太
吉村健太郎
团野博文
石川贞裕
山口洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN103778179A publication Critical patent/CN103778179A/zh
Application granted granted Critical
Publication of CN103778179B publication Critical patent/CN103778179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供数据库分析装置和数据库分析方法。提供完整地分析数据库而根据表栏单位的特征对该数据库的数据群进行分类所得的数据模式。所述数据库分析装置具备:数据整理部,其根据表栏的数据值整理从分析对象的数据库中取得的数据群,作为分析对象数据存储在存储部中;数据模式生成处理部,其根据数据值的差异,对每个数据值生成组,将汇总组所得的数据模式存储在存储部中;数据模式判定处理部,其判定数据模式的妥当性;数据模式变形处理部,其在妥当性的判定中得到了否定结果的情况下,针对包含在数据模式中的各组的构成要素,依照将概念上类似的构成要素变换为相同的构成要素那样的预定的变换规则,对各组进行变形而重构并存储在存储部中。

Description

数据库分析装置和数据库分析方法
技术领域
本发明涉及一种数据库分析装置和数据库分析方法,适合于应用于对保存在数据库中的数据群进行分析的数据库分析装置和数据库分析方法。
背景技术
近年来,保存大量的数据的数据库的利用正在变得活跃,在数据库的开发中,必须对在数据库内分配的资源的大小等与数据库有关的各种参数进行调整(数据库的调整)。为了适当地进行数据库的调整,一般有以下的方法,即进行用虚拟的测试数据对数据库施加负荷的测试,来评价数据库的状况。
在生成这样的测试数据时,可以使用市场销售的测试数据生成工具,但必须由用户对数据值的范围、出现频度等设定所生成的数据的特性。为此,可靠地掌握在分析对象的数据库中存储有具有怎样的特征的数据是重要的。
例如在专利文献1中,记载有以下的测试数据生成装置,其根据存储在现存的数据库中的数据生成虚拟的测试数据。专利文献1所记载的测试数据生成装置根据存储在实际正在运转的现存的数据库中的数据计算数据的特征,灵活运用计算出的特征而生成开发对象的数据库所需要的测试数据,由此能够生成适合于实际情况的虚拟的测试数据。
专利文献1:日本特开2001-256076号公报
发明内容
但是,在专利文献1所记载的测试数据生成装置中,针对成为分析对象的数据群,着眼于数据的表栏之间的特征而取得数据的特征,但无法取得表栏单位的数据的特征,因此存在难以根据表栏单位的特征生成保证完整性的适量的测试数据的问题。
以下,列举具体例子进行说明。例如考虑以下的情况,即如果在某数据库内的数据群中,将数据栏的数据分为“空值”、“半角字符串”、“全角字符串”3种数据群,则针对处理上述3种信息的情况分别生成测试数据来实施测试,由此能够保证对数据库的测试的完整性。但是,在专利文献1所记载的测试数据生成装置的情况下,无法按照表栏单位取得数据的特征,因此必须选择以下的方法,即根据由测试数据生成装置生成的全部测试数据实施测试、还是根据从由测试数据生成装置生成的全部测试数据中随机地选择出的数据实施测试。这时,在使用全部测试数据的情况下,为了确保测试的完整性,有可能使用本来需要的测试量以上的测试数据,在测试费用和测试时间效率方面存在问题。另外,在使用随机地选择出的数据的情况下,存在无法保证完整性的问题。即,在专利文献1所记载的测试数据生成装置中,难以根据数据栏单位的特征生成适当的测试数据。
本发明就是考虑到以上的点而提出的,提出一种数据库分析装置和数据库分析方法,其完整地对数据库进行分析,能够提供根据表栏单位的特征对该数据库的数据群进行分类所得的数据模式。
为了解决上述问题,在本发明中,提供一种数据库分析装置,着眼于存储在分析对象的数据库中的数据群的数据内的指定的表栏来分析上述数据群,该数据库分析装置具备:存储部,其存储数据;数据整理部,其根据上述表栏的数据值对从上述分析对象的数据库中取得的数据群进行整理,作为分析对象数据存储在上述存储部中;数据模式生成处理部,其根据上述分析对象数据中的数据值的差异,对每个上述数据值生成组,将汇总上述组所得的数据模式存储在上述存储部中;数据模式判定处理部,其根据第一判定基准判定存储在上述存储部中的数据模式的妥当性;数据模式变形处理部,其当在上述数据模式判定处理部进行的妥当性的判定中得到了否定结果时,对上述数据模式进行变形而重构,将重构后的上述数据模式存储在上述存储部中,其中,上述数据模式变形处理部针对包含在上述数据模式中的各组的构成要素,依照将概念上类似的构成要素变换为相同的构成要素那样的预定的变换规则,对上述各组进行变形而重构上述数据模式。
另外,为了解决上述问题,在本发明中,提供一种数据库分析方法,在着眼于存储在分析对象的数据库中的数据群的数据内的指定的表栏来分析上述数据群的数据库分析装置的数据库分析方法中,上述数据分析装置具备存储数据的存储部,包括:上述数据分析装置根据上述表栏的数据值对从上述分析对象的数据库中取得的数据群进行整理,作为分析对象数据存储在上述存储部中的数据整理步骤;上述数据分析装置根据上述分析对象数据中的数据值的差异,对每个上述数据值生成组,将汇总上述组所得的数据模式存储在上述存储部中的数据模式生成处理步骤;上述数据分析装置根据第一判定基准判定存储在上述存储部中的数据模式的妥当性的数据模式判定步骤;上述数据分析装置当在上述数据模式判定处理部进行的妥当性的判定中得到了否定结果时,针对包含在上述数据模式中的各组的构成要素,依照将概念上类似的构成要素变换为相同的构成要素那样的预定的变换规则,对上述各组进行变形而重构上述数据模式,将重构后的上述数据模式存储在上述存储部中的数据模式重构步骤。
根据本发明,能够提供一种完整地分析数据库并根据表栏单位的特征对该数据库的数据群进行分类所得的数据模式。
附图说明
图1是表示第一实施方式的数据库分析装置的结构例子的框图。
图2是表示分析数据库的数据群的数据库分析的处理步骤的流程图。
图3是用于说明分析对象数据的概要图。
图4是用于说明生成初始数据模式的处理的概要图(之一)。
图5是用于说明生成初始数据模式的处理的概要图(之二)。
图6是用于说明生成初始数据模式的处理的概要图(之三)。
图7是表示数据模式评价基准的一个例子的表。
图8是用于说明评价数据模式的妥当性的处理的概要图。
图9是表示数据模式变形规则的一个例子的表。
图10是用于说明对数据模式进行变形的处理的概要图(之一)。
图11是用于说明对数据模式进行变形的处理的概要图(之二)。
图12是用于说明对数据模式进行变形的处理的概要图(之三)。
图13是用于说明从变形处理后的数据模式中决定重构后的数据模式的处理的概要图。
图14是用于说明对重构后的数据模式的妥当性评价的概要图。
图15是用于说明输出数据模式的处理的一个例子的概要图。
图16是表示第二实施方式的数据库分析装置的结构例子的框图。
图17是用于说明第二实施方式的初始数据模式的生成处理的概要图(之一)。
图18是用于说明第二实施方式的初始数据模式的生成处理的概要图(之二)。
图19是表示第二实施方式的数据模式评价基准的一个例子的表。
图20是用于说明第二实施方式的数据模式的妥当性评价的概要图。
图21是表示第二实施方式的数据模式变形规则的一个例子的表。
图22是用于说明第二实施方式的基于数据模式排除规则的例外模式的判定处理的概要图。
图23是用于说明第二实施方式的例外模式的排除处理的概要图。
图24是用于说明第二实施方式的对最终重构后的数据模式评价妥当性的处理的概要图。
图25是用于说明第二实施方式的输出数据模式的处理的一个例子的概要图。
附图标记说明
10、20:数据库分析装置;101:CPU;102:存储器;103:输入装置;104:输出装置;105、201:外部存储装置;106:数据存储部;108:数据模式存储部;110:处理程序;111:数据模式生成处理部;112:数据模式判定处理部;113:数据模式数值化处理部;114、214:数据模式变形处理部;115、215:数据模式视觉化处理部;202:数据模式例外存储部;30:数据库;31:网络。具体实施方式
(1)第一实施方式
第一实施方式的数据库分析装置的特征在于:着眼于指定的表栏进行数据库的分析,对该数据库的数据群进行分类,生成并输出根据表栏单位的特征对该数据库的数据群进行分类所得的数据模式。
(1-1)数据库分析装置的结构
首先,说明本实施方式的数据库分析装置的结构。图1是表示第一实施方式的数据库分析装置的结构例子的框图。数据库分析装置10经由网络31与存储有成为分析对象的数据的数据库30连接,例如能够使用具有一般结构的计算机。如图1所示,数据库分析装置10构成为具备网络接口(I/F)100、CPU(中央处理单元)101、存储器102、输入装置103、输出装置104以及外部存储装置105。
网络I/F100是用于经由网络31与数据库分析装置10的外部能够通信地连接,而在与数据库分析装置10的外部之间进行数据的输入输出和信号的收发的接口。例如,经由网络31和网络I/F100将存储在数据库30中的数据输入到数据库分析装置10。
CPU101负责数据库分析装置10的整体控制。例如,在执行保存在外部存储装置105中的处理程序110的情况下,CPU101将从外部存储装置105读出的处理程序110读入到存储器102,执行读入到存储器102的处理程序110。存储器102是暂时存储数据、程序的存储设备,例如可以使用DRAM(动态随机存取存储器)、SRAM(静态RAM)。
输入装置103是键盘或鼠标等输入设备,将与用户的输入操作对应的信号发送到CPU101。例如,如果从用户向输入装置103进行规定的输入操作,则依照接收到与该输入操作对应的信号的CPU101的控制,经由网络31和网络I/F100将保存在数据库30中的数据输入到数据库分析装置10,写入到外部存储装置105。
输出装置104是显示器或打印机等输出设备,依照CPU101的控制,输出数据、信号。例如,输出装置104在后述的数据库的分析处理后,依照CPU101的控制,将表示数据库的分析结果的图像显示在显示器上,或者从打印机输出表示数据库的分析结果的文本数据。另外,在将数据库的分析结果输出到与数据库分析装置10连接的外部设备的情况下,CPU101经由网络I/F100使该外部设备输出数据库的分析结果即可。
外部存储装置105是在内部存储数据和程序的存储设备,例如可以使用HDD(硬盘驱动器)、CD-R(可写光盘)等。此外,也可以代替外部存储装置105,而使用例如如USB(通用串行总线)存储器那样与数据库分析装置10连接的辅助存储装置。如图1所示,外部存储装置105保存用于进行数据库的分析处理的处理程序110。另外,外部存储装置105具有数据存储部106、数据模式判定基准存储部107、数据模式存储部108以及数据模式变形规则存储部109的各存储部。
数据存储部106存储从外部经由网络I/F100输入的数据。例如在图1中,将数据库30的数据存储在数据存储部106中。另外,数据模式存储部108存储表示保存在分析对象的数据库中的数据群的分组方法的信息即数据模式。通过执行处理程序110而生成与存储在数据存储部106中的数据群对应的数据模式,存储在数据模式存储部108中。
另外,数据模式判定基准存储部107预先保存表示数据模式判定基准的数据,数据模式变形规则存储部109预先保存表示数据模式变形规则的数据。将在后述的数据库分析处理中,说明数据模式、数据模式判定基准和数据模式变形规则的细节。
处理程序110是通过由CPU101读入到存储器102中并执行,而实现数据模式生成处理部111、数据模式判定处理部112、数据模式数值化处理部113、数据模式变形处理部114、数据模式视觉化处理部115、数据整理部116的程序。
数据模式生成处理部111参照存储在数据存储部106中的数据,根据数据的差异生成组,由此生成初始数据模式,写入到数据模式存储部108中。将在后面参照图4~图6说明初始数据模式的细节。
数据模式判定处理部112针对存储在数据模式存储部108中的数据模式,利用数据模式数值化处理部113进行评分,根据从数据模式判定基准存储部107读出的数据模式判定基准,判定数据模式的恰当性是否达到必要的水准。数据模式数值化处理部113进行以下的处理,即与数据模式的特征对应地进行评分,由此对数据模式进行数值化。
数据模式变形处理部114进行以下的处理,即根据从数据模式变形规则存储部109读出的数据模式变形规则,对从数据模式存储部108读出的数据模式进行变形。进而,数据模式变形处理部114利用数据模式数值化处理部113对变形后的数据模式进行评分,将分数最高的数据模式写入到数据模式存储部108中。
数据模式视觉化处理部115读出存储在数据模式存储部108中的数据模式,变换为用户能够在视觉上容易识别的预定的形式而输出到输出装置104。对数据模式进行变换的预定的形式例如是指图像形式、表形式、图表形式、文本数据形式等。此外,数据模式视觉化处理部115也可以将数据模式变换为计算机可读取的预定的形式而输出。在该情况下,预定的形式例如是指文本数据形式、二进制数据形式等。
数据整理部116进行以下的处理,即依照预定的规则对输入到数据库分析装置10的数据进行整理,作为分析对象数据存储在数据存储部106中。此外,优先于处理程序110内的其他处理111~115的处理地执行基于数据整理部116的数据的整理。
数据库分析装置10通过上述的各处理部111~116的动作,针对保存在数据库30中的数据群,着眼于同一表栏内的数据值对特征进行分析,与特征对应地生成用于对该数据群进行分组的数据模式,根据最终决定的数据模式对数据群进行分类,由此按照表栏单位对数据库的数据群进行分析。
(1-2)数据库分析处理
图2是表示分析数据库的数据群的数据库分析的处理步骤的流程图。一边参照图2,一边说明数据库分析装置10的数据库分析处理的概要,根据需要参照其他图说明细节。
(1-2-1)分析对象数据的输入
首先,如果在输入装置103中,由用户进行了指示数据库分析开始的预定的输入操作,则将存储在数据库30中的数据群的副本数据经由网络31和网络I/F100输入到数据库分析装置10(图2的步骤S101)。在指示数据库分析开始的预定的输入操作时,指定成为分析对象的数据群、在分析时着眼的表栏(分析对象栏)。该分析对象栏是在作为分析对象的数据群中构成表数据的栏的一个,例如在后述的图3的“商品”表301中,“商品ID”、“商品名”相当于栏。
此外,从数据库30输入到数据库分析装置10的数据也可以是存储在数据库30中的数据群的全部副本数据,但如果考虑到处理速度的提高、存储区域的使用效率,则优选是存储在数据库30中的数据群中的被指定为分析对象的数据群的副本数据。以后,假设将被指定为分析对象的数据群的副本数据输入到数据库分析装置10而进行说明。
然后,在步骤S101中,针对从数据库30输入到数据库分析装置10的数据,由数据整理部116着眼于所指定的分析对象栏而对该数据进行整理,将整理结果的数据作为分析对象数据而存储在数据存储部106中。
图3是用于说明分析对象数据的概要图。图3所示的“商品”表301是存储在数据库30中的数据群的一部分,是在指示数据库分析开始的预定的输入操作时被指定为分析对象的数据群的一个例子。“商品”表301是收集与“商品”相关联的信息所得的表形式的数据,由记载商品名的商品名栏、记载与商品名对应地预先赋予的商品ID的商品ID栏302等构成。
在此,假设在指示数据库分析开始的预定的输入操作时,将商品ID302指定为分析对象栏。这时,数据整理部116对包含在商品ID栏302中的数据进行整理,作为分析对象数据303存储在数据存储部106中。数据整理部116针对存储在“商品”表301中的商品ID栏302内的多个数据,计数相同的数据值的出现次数。然后,数据整理部116将商品ID的数据值304和该数据值304的出现次数305作为组(对),生成分析对象数据303。在图3所示的分析对象数据303中,对306表示存在“8”个表示“123456”这样的数据值304的商品ID,对307表示存在“2”个表示“123568”这样的数据值304的商品ID。
此外,数据整理部116在生成分析对象数据303时,不只是汇总数据值304和出现次数305的对,还可以进行处理而对商品ID的数据值304或出现次数305进行升序排序,或进行对计算数据模式有效的排序处理等。
另外,在第一实施方式中,作为一个例子,假设包含在一个栏中的数据全部是相同长度的字符串而进行说明,但包含在栏中的数据的字符串长度也可以不相同。在栏中包含由不同长度的字符串构成的数据的情况下,在由数据整理部116预先按照每个字符串长度对数据群进行分开的处理后,进行后述的处理即可。
(1-2-2)初始数据模式的生成
如果在步骤S101中将分析对象数据303输入到数据存储部106,则数据模式生成处理部111从数据存储部106中参照分析对象数据303。然后,数据模式生成处理部111从分析对象数据303中根据数据的差异生成组,汇总所生成的组而生成最初的数据模式(初始数据模式),将生成的初始数据模式写入到数据模式存储部108中(图2的步骤S102)。在此,数据的差异相当于作为分析对象数据303而整理的栏的字符串(相对于数据值304),数据模式生成处理部111对每个数据值将栏的字符串设为树构造而生成初始数据模式。
图4~图6是用于说明生成初始数据模式的处理的概要图。首先,数据模式生成处理部111如图4所示生成成为树的根的节点400。进而,数据模式生成处理部111参照存储在数据存储部106中的分析对象数据303而选择一个对(例如对306),生成与选择出的对306对应的树。该树由节点401~407构成,构成为将值具有数据值304的开头的文字(在对306的情况下为“1”)的节点401作为根,将值具有数据值304的第k(k是2以上的自然数)个文字的节点402~406保存为值具有第(k-1)个文字的节点401~405的子节点,并且构成为将值具有出现次数305(在对306的情况下为“8”)的节点407保存为值具有数据值304的末尾的字符(在对306的情况下为“6”)的节点406的子节点。接着,数据模式生成处理部111通过将节点401作为子节点而追加到节点400来合成树,生成树410。因此,图4所示的树410是与对306对应地生成的树。
接着,如图5所示,数据模式生成处理部111选择分析对象数据303中的还没有被选择的对(例如对307),通过与图4同样的生成方法,生成与选择出的对307对应的树500。然后,数据模式生成处理部111针对以节点400为根的已经生成的树410,追加树500的跟即节点501作为节点400的子节点,将树500与树410合成。在将树500与树410合成时,数据模式生成处理部111对处于树的相同深度并且值具有相同字符的节点进行合成使其成为同一节点。例如在图5中,树500中的节点501、502、503、树410中的节点401、402、403分别处于相同的深度并且值具有相同的字符,因此在合成后的树510中,成为同一节点(节点511~513)。
接着,数据模式生成处理部111针对保存在数据存储部106中的分析对象数据303的全部对,执行处理而按照图4~图5所示那样的方法生成树,与将节点400作为根的树合成。在图6中,表示出由10组对构成的分析对象数据600、根据分析对象数据600生成的树601。树601是将节点400作为根而对与分析对象数据600的全部对对应地生成的10棵树进行合成所得的树。数据模式生成处理部111在步骤S102的最后,将树601作为基于分析对象数据600的初始数据模式写入到数据模式存储部108中。
(1-2-3)数据模式的妥当性评价
如果在步骤S102中将初始数据模式(树601)写入到数据模式存储部108中,则数据模式判定处理部112对保存在数据模式存储部108中的数据模式的妥当性进行评价(图2的步骤S103)。此外,数据模式判定处理部112在接着步骤S102而进行步骤S103的处理的情况下,对初始数据模式评价妥当性,但在接着步骤S105~S106的处理(后述)进行步骤S103的处理的情况下,对在之前的步骤S105~S106中重构后的数据模式评价妥当性。
在步骤S103中,首先由数据模式判定处理部112读出保存在数据模式存储部108中的数据模式,利用数据模式数值化处理部113进行评分。数据模式数值化处理部113进行用于对数据模式的特征进行数值化的预定的处理,例如在数据模式是树601的情况下,通过对构成树601的叶的个数进行计数来计算组数。在图6所示的树601中,叶的个数是10,因此将数据模式评分为组数10。
数据模式判定处理部112针对利用数据模式数值化处理部113进行评分后的数据模式,根据保存在数据模式判定基准存储部107中的预定的基准(数据模式评价基准),判定该数据模式是否满足适当的水准这样的妥当性。
图7是表示数据模式评价基准的一个例子的表。数据模式评价基准700是预先规定并存储在数据模式判定基准存储部107中的评价基准用的表数据,构成为具有记载评价基准的项目的评价项目栏701、记载该评价基准的项目值的项目值栏702。在图7所示的数据模式评价基准700中,将“把组数的上限设为5为止”设定为评价基准。此外,数据模式评价基准并不限于组数的上限数,既可以是更细致地规定了组数的范围的基准,除此以外,例如也可以是根据出现次数规定的基准等。在任意的情况下,数据模式数值化处理部113进行设定使得对该数据模式进行评分,从而能够由数据模式判定处理部112根据数据模式评价基准判定数据模式的妥当性。
图8是用于说明评价数据模式的妥当性的处理(妥当性评价)的概要图。在图8中,表示出表示从数据模式存储部108读出的数据模式的树601、保存在数据模式评价基准存储部107中的数据模式评价基准700。这时,数据模式判定处理部112对利用数据模式数值化处理部113计算出的组数800、在数据模式评价基准700的项目值栏702中规定的组数的上限“5”进行比较(图2的步骤S104)。在步骤S104中,组数800是树601中的组数、即“10”,因此不满足“5”以下这样的条件,数据模式判定处理部112判定为该数据模式不妥当,转移到步骤S105的处理。在步骤S104中判定为妥当的情况下,转移到步骤S107的处理。
(1-2-4)数据模式的重构
在图2的步骤S105中,数据模式变形处理部114一边参照从数据模式变形规则存储部109读出的数据模式变形规则,一边对从数据模式存储部108读出的数据模式进行变形。进而,在步骤S105中,数据模式变形处理部114针对变形处理后的数据模式,利用数据模式数值化处理部113进行预定的处理的评分,根据评分的结果决定成为重构后的数据模式的数据模式,写入到数据模式存储部108中。
图9是表示数据模式变形规则的一个例子的表。数据模式变形规则是为了进行变更数据模式所保存的数据分类而对数据模式进行变形的处理,对数据模式的信息(构成数据模式的节点的节点值)进行改写的规则相关的信息,事先被存储在数据模式变形规则存储部109中。图9所示的数据模式变形规则900将记载成为改写的对象的信息(节点值)的变形前栏901、记载对该信息进行改写后的信息(节点值)的变形后栏902作为组而构成。例如,根据数据模式变形规则900,将“a”这样的信息改写为[a~z],将[0~9]这样的信息改写为“¥w”。此外,也可以对在变形前栏901中没有记载的信息不进行改写。
以下,参照图10~图12,说明数据模式变形处理部114使用图9所示的数据模式变形规则900对图6所示的数据模式(树601)进行变形的处理。
图10~图12是用于说明对数据模式进行变形的处理的概要图。首先,如图10所示,数据模式变形处理部114从数据模式存储部108中读出数据模式(树601),在构成树601的节点中搜索具有多个子节点的节点。在图10的树601中,具有多个子节点的节点是节点1000~1006。例如节点1001具有子节点为节点值“C”的节点和节点值“D”的节点。接着,数据模式变形处理部114针对搜索出的节点1000~1006分别进行根据数据模式变形规则90对该节点的子节点进行改写的处理,生成改写后的树1007~1013。此外,在树601中,在不存在具有多个子节点的节点的情况下,数据模式变形处理部114在图2的步骤S106中判断为不能进行数据模式的变形(否),转移到步骤S107的处理。
在图11~图12中,作为改写具有多个子节点的节点的子节点的处理的一个例子,说明数据模式变形处理部114根据数据模式变形规则900改写图10的节点1002的子节点,生成树1009而作为变形后的数据模式的最终形式的处理。
首先,数据模式变形处理部114如图11所示那样,复制数据模式601生成数据模式1100。这时,针对节点1002的全部子节点、即节点1101、1102,依照数据模式变形规则的改写规则,进行节点值的改写。即,数据模式变形处理部114将具有节点值“4”的节点1101改写为具有节点值[0~9]的节点1103,将具有节点值“5”的节点1102改写为具有节点值[0~9]的节点1104。
接着,数据模式变形处理部114针对树1100,将相同深度并具有相同节点值而都是节点1002的子节点的节点1103和节点1104汇总为1个节点1200。这时,树1100变形为图12所示的树1201。进而,数据模式变形处理部114着眼于合成后的节点1200的子节点的节点1202~1205,将具有相同节点值“5”的节点1202和节点1204汇总为1个节点1206,将具有相同节点值“8”的节点1203和节点1205汇总为1个节点1207。这时,树1201变形为树1208。然后,进而数据模式变形处理部114针对合成后的节点1206、1207,也分别同样地将具有相同节点值的子节点汇总为一个。具体地说,将节点1209和节点1210合成为节点1213,将节点1211和节点1212合成为节点1214。其结果是树1208变形为树1215。
在此,树1215是直到表示数据值304的字符串的末尾的节点为止变形处理完成了的状态,在节点1213、节点1214中作为子节点的节点存在表示出现次数305的多个节点。对于这样的表示出现次数305的节点,数据模式变形处理部114不是如表示数据值304的字符串的节点那样将具有相同节点值的节点汇总为一个,而是将该节点所具有的节点值相加而汇总为一个。具体地说,数据模式变形处理部114针对作为节点1213的子节点的节点1216、1217,将具有节点值“8”的节点1216和具有节点值“1”的节点1217汇总成为具有节点值“9”的节点1220。同样,数据模式变形处理部114针对作为节点1214的子节点的节点1218、1219,将具有节点值“6”的节点1218和具有节点值“2”的节点1219汇总成为具有节点值“8”的节点1221。其结果是树1215成为树1009,生成对节点1002的子节点进行改写而变形后的最终形式的数据模式。
数据模式变形处理部114通过对在树601中具有多个子节点的节点1000~1006分别进行与上述的对节点1002的处理同样的变形处理,能够生成表示变形处理后的数据模式的树1007~1013。
图13是用于说明从变形处理后的数据模式中决定重构后的数据模式的处理的概要图。首先,数据模式变形处理部114针对作为变形处理后的数据模式的树1007~1013,利用数据模式数值化处理部113对各个树的叶的个数进行计数,计算组数。在图13中,表示出针对树1007~1013的各个计算出的组数1300~1306。接着,数据模式变形处理部114在组数1300~1306中选择组数最少的一个数据模式。在此,选择与具有“8”的组数1302对应的树1009。然后,数据模式变形处理部114将选择出的树1009决定为重构后的数据模式,写入到数据模式存储部108中。此外,在如图13中的树1009和树1012那样,具有与最少的组数对应的多个数据模式的情况下,数据模式变形处理部114在该多个数据模式中任意选择一个,决定为重构后的数据模式。
接着,在步骤S106中,数据模式变形处理部114判定重构后的数据模式是否能够变形。具体地说,例如在表示重构后的数据模式的树1400中,存在具有多个子节点的节点的情况下,判定为能够进行进一步的变形,返回到步骤S103的处理。另外,在表示重构后的数据模式的树1400中,不存在具有多个子节点的节点的情况下,判定为不能进行进一步的变形,转移到步骤S107的处理。另外,在步骤S106中,重构后的数据模式(树1400)与重构前的数据模式(树600)完全相同的情况下,数据模式变形处理部114判定为不能进行数据模式的变形,转移到步骤S107的处理。
(1-2-5)重构后的数据模式的妥当性评价
在图2的步骤S106处理后的步骤S103中,数据模式判定处理部112针对重构后的数据模式评价数据模式的妥当性。
图14是用于说明对重构后的数据模式的妥当性评价的概要图。对重构后的数据模式的妥当性评价与上述的对初始数据模式的妥当性评价的处理同样,由数据模式判定处理部112进行。即,数据模式判定处理部112读出保存在数据模式存储部108中的重构后的数据模式,利用数据模式数值化处理部113进行评分,根据评分的结果、保存在数据模式评价基准存储部107中的数据模式评价基准700,判定重构后的数据模式是否满足适当的水准这样的妥当性。
在图14中,针对表示重构后的数据模式的树1400,作为组数1401而评分“5”。组数1401满足数据模式评价基准700所示的“组数上限为5以下”这样的条件,因此数据模式判定处理部112判定为树1400是妥当的,转移到步骤S107的处理。
(1-2-6)数据模式的输出
如上述那样,在数据模式在图2的步骤S103中不满足数据模式评价基准700而得到否定判定的情况下,在步骤S104中重构数据模式,如果能够对重构后的数据模式进行变形,则再次重复进行在步骤S103中进行妥当性的评价的处理。然后,在任意阶段中的妥当性的评价中得到肯定判定、或在妥当性的评价中得到否定判定而重构了数据模式,而无法进一步对数据模式进行变形的情况下(步骤S106的否),在步骤S107中进行数据模式的输出。
在步骤S107中,数据模式视觉化处理部115读出最后存储在数据模式存储部108中的数据模式,变换为预定的形式而输出到输出装置104。此外,步骤S107中的数据模式的输出也既可以在步骤S101从用户向输入装置103指示了数据库分析开始时,指定输出方法(输出目的地和输出形式),在数据库分析处理结束后自动地与该输出方法对应地输出到输出装置104,也可以在数据库分析处理结束后,以从用户向输入装置103进行了指示数据模式的输出的预定的输入操作为时机而执行。另外,数据模式的输出目的地可以选择显示器、打印机、或文件等一般的输出目的地,数据模式的输出形式可以选择基于文字、图形的图像显示、文本数据或二进制数据等一般的输出形式。
图15是用于说明输出数据模式的处理的一个例子的概要图。在图15中,表示出将数据模式汇总为输出表1510而输出的处理。输出表1510由记载数据模式所保存的树中的路径结构的组1511、记载该路径结构所表示的数据的出现次数的出现次数1512成组(对)地构成。
数据模式视觉化处理部115首先从数据模式存储部108中读出最后存储的数据模式。因此,在存储有对初始数据模式进行变形而重构后的数据模式的情况下,从数据模式存储部108中读出重构后的数据模式。接着,数据模式视觉化处理部115从读出的数据模式所保存的树1400中,取得从根到各个叶的路径1500~1504。然后,数据模式视觉化处理部115将包含在所取得的路径1500~1504中的叶以外的节点的值设为输出表1510的组1511的值,将叶的节点值设为与该组1510成对的出现次数1512的值。在图15所示的输出表1510的组1511中,在字符串的开头附加“^”,在字符串的结尾附加“$”。其结果是例如在输出表1510的对1513中表示出现了“4”次用“5F3C2[A~Z]”这样的字符串表示的组,在对1514中表示出现了“1”次用“5F3D43”这样的字符串表示的组。另外,数据模式视觉化处理部115依照被用户指定的输出方式,将输出表1510输出到输出装置104。
(1-3)本实施方式的效果
根据这样的数据库分析装置10,在对数据库所保存的数据群进行分析的情况下,能够着眼于由用户指定的表栏,根据同一栏内的数据值对该数据群的特征进行分析,基于该数据群的特征进行分组(分类)。另外,这样的数据库分析装置10能够通过数据模式表示出着眼于同一栏内的数据值对分析对象的数据群进行分组的方法并输出,因此能够完整地对数据库进行分析,而自动地提供根据表栏单位的特征对该数据库的数据群进行分类所得的数据模式。这样,通过在用户生成对分析对象的数据库的测试数据的情况下,根据该数据模式生成测试数据,能够期待以下的效果,即有助于一边保证对该数据库内的数据群的完整性,一边根据数据的特征高效地生成测试数据。
另外,在这样的数据库分析装置10中,能够依照由用户指定的各种输出方法(输出目的地和输出形式)输出数据模式,因此例如能够提供通过视觉上容易识别的输出、容易进行数据处理的输出等反应用户的要求的灵活的输出方法表示分析对象的数据库的特征的数据模式。更具体地说,例如能够用文本数据、二进制数据输出数据模式,直接利用输出数据作为向生成测试数据的工具的输入数据。
另外,在这样的数据库分析装置10中,在指示数据库分析开始时,为了提取特征,指定所着眼的数据项目(表栏、栏)即可,因此对于成为分析对象的数据群的具体的数据值、其特征,不要求用户事先掌握知识。因此,在这样的数据库分析装置10中,不需要与成为分析对象的数据库的数据群相关的用户的事先知识,就能够分析该数据库的特征而作为数据模式向用户提供。
另外,根据这样的数据库分析装置10,在输出数据模式的情况下,如图15的输出表1510的组1511所示那样,能够对输出内容进行抽象化(符号化),通过进行抽象化的输出,能够期待使外部人员难以理解数据库的数据内容的效果。
(2)第二实施方式
第二实施方式的数据库分析装置的特征在于:在如第一实施方式的数据库分析装置10那样着眼于指定的表栏进行数据库的分析而生成表示该数据库的数据群的特征的数据模式时,针对对数据群进行分类所得的模式组中的具有出现频度低或数据结构(文字模式)极端不同等例外特征的模式组,作为例外模式而从数据模式中排除,生成进一步对数据群的特征进行了汇总所得的数据模式。
(2-1)数据库分析装置的结构
图16是表示第二实施方式的数据库分析装置的结构例子的框图。如图16所示,数据库分析装置20除了在外部存储装置201内新追加了数据模式例外存储部202这一点以外,具备与图1所示的数据库分析装置10相同的结构,对共通的结构要素附加与图1相同的编号并省略说明。另外,处理程序20具备进行与数据模式变形处理部114不同的处理的数据模式变形处理部214、以及进行与数据模式视觉化处理部115不同的处理的数据模式视觉化处理部215。在后面参照图21~图23以及图25说明数据模式变形处理部214和数据模式视觉化处理部215的处理。
(2-2)数据库分析处理
以下,参照图2说明第二实施方式的数据库分析装置20对数据库的数据群进行分析的处理。数据库分析装置20的数据库分析处理与数据库分析装置10的处理相同,依照图2所示的流程图进行,因此对于进行与数据库分析装置10相同的处理的地方,省略详细的说明。
(2-2-1)分析对象数据的输入
首先,在图2的步骤S101中,以在输入装置103中进行了指示数据库分析开始的预定的输入操作为时机,将数据库30的数据群输入到数据库分析装置20,数据整理部116对该数据群进行整理,将分析对象栏303写入到数据存储部106中。
(2-2-2)初始数据模式的生成
接着,在步骤S102中,数据模式生成处理部111根据存储在数据存储部106中的分析对象数据303,生成初始数据模式,写入到数据模式存储部108中。
图17和图18是用于说明第二实施方式的初始数据模式的生成处理的概要图。在图17中,表示数据模式生成处理部111参照存储在数据存储部106中的分析对象数据303生成与分析对象数据303的对306对应的树1710的情况。生成树1710的基本处理步骤与图4所示的处理相同,因此省略说明。但是,树1710的叶节点1701不是出现次数305的值,其值具有包含在与叶节点1701对应的路径(节点401~406)中的数据的种类数。即,在图17所示的阶段中,在节点401~406所示的路径中,只包含对306所示的一种数据(数据值“123456”),因此叶节点1701具有节点值“1”。进而,数据模式生成处理部111针对分析对象数据303的全部对,进行与图17的生成树1701的处理相同的处理而生成树,将所生成的多个树合成为以节点1700为根的一个树。
在图18中,表示数据模式生成处理部111针对分析对象数据600的全部对生成树而合成为一个树所得的树1800。树1800的各个叶节点的值具有数据种类数“1”。另外,数据模式生成处理部111将树1800作为基于分析对象数据600的初始数据模式而写入到数据模式存储部108中。
(2-2-3)数据模式的妥当性评价
接着,在步骤S103~S104中,数据模式判定处理部112读出保存在数据模式存储部108中的数据模式(树1800),使用数据模式数值化处理部113进行评分,根据评分的结果和保存在数据模式判定基准存储部107中的数据模式评价基准1900,判定该数据模式是否满足适当的水准的妥当性。
图19是表示第二实施方式的数据模式评价基准的一个例子的表。在图19所示的数据模式评价基准1900中,在记载评价基准的项目的评价项目栏1901中记载“组数上限”,在记载该评价基准的项目值的项目值栏1902中记载“3”,因此设定“把组树的上限设为3为止”。此外,第二实施方式的数据模式评价基准并不如图19所示那样限于组数的上限数,既可以是更细致地规定组数的范围的基准,除此以外,例如也可以是根据出现次数规定的基准,或者还可以是基于后述的例外模式的出现比例的基准(例如例外模式的比例是整体的5%以下等)等。在任意的情况下,数据模式数值化处理部113都进行设定使得对该数据模式进行评分,从而能够由数据模式判定处理部112根据数据模式评价基准判定数据模式的妥当性。
图20是用于说明第二实施方式的数据模式的妥当性评价的概要图。如图20所示,数据模式判定处理部112读出树1800设为保存在数据模式存储部108中的数据模式,使用数据模式数值化处理部113计算树1800的组数2000。在此,树1800的组数2000为“10”。数据模式判定处理部112将组数“10”与“将组数的上限设为3为止”的数据模式评价基准1900进行比较,得到该数据模式不妥当这样的判定结果。在步骤S104中得到了否定结果(不妥当这样的判定)的情况下,转移到步骤S105的处理。此外,在步骤S104中得到了肯定结果(是妥当的判定)的情况下,转移到步骤S107的处理。
(2-2-4)数据模式的重构
在步骤S105中,数据模式变形处理部214参照存储在数据模式变形规则存储部109中的数据模式变形规则2100进行数据模式的重构。在此,作为第二实施方式的特征处理之一,在数据模式的重构处理中,在进行改写数据模式的信息而对数据模式进行变形的变形处理后,进行排除处理,即从数据模式中排除具有出现频度低或文字模式极端不同等的例外特征的例外模式。
图21是表示第二实施方式的数据模式变形规则的一个例子的表。图21所示的数据模式变形规则2100包含表示改写数据模式的信息(构成数据模式的节点的节点值)的规则的数据模式置换规则2110、表示用于决定从数据模式中排除的例外的数据模式(例外模式)的规则的数据模式排除规则2120,预先存储在数据模式变形规则存储部109中。数据模式置换规则2110相当于在第一实施方式中图9所示的数据模式变形规则900,将记载成为改写对象的信息(节点值)的变形前栏2111、记载对该信息的改写后的信息(节点值)的变形后栏2112作为组而构成。另外,数据模式排除规则2120将记载例外模式信息的判定项目的判定项目栏2121、记载该判定项目的排除条件的排除条件栏2122作为组而构成。例如,在数据模式排除规则2120中设定“对应种数≤(“最大”/4)”这样的排除规则,这表示“对应种数是数据模式中的对应种数的最大值的四分之一以下”。此外,“对应种数”是指数据模式的各路径的数据的种类数。
首先,在数据模式的变形处理中,数据模式变形处理部214参照数据模式变形规则2100,改写从数据模式存储部108中读出的数据模式(树1800),使用数据模式数值化处理部113对变形处理后的数据模式进行基于预定的处理的评分,根据评分的结果决定重构后的数据模式。这样的处理与在第一实施方式中参照图10~图13说明了的处理相同,因此省略说明。数据模式变形处理部214将决定的“重构后的数据模式”写入到数据模式存储部108中。
然后,数据模式变形处理部214针对重构后的数据模式判定是否满足数据模式排除规则2120,在存在满足数据模式排除规则2120的模式信息的情况下,进行排除处理,即将该模式信息作为例外模式从数据模式中排除。
图22是用于说明第二实施方式的基于数据模式排除规则的例外模式的判定处理的概要图。图22所示的树2200是通过对树1800的数据模式的变形处理而变形并决定为重构后的数据模式的树。根据数据模式排除规则2120,例外模式的判定规则为“树2200的各路径的数据的种类数(对应种数)是数据模式中的对应种数的最大值的四分之一以下”。在此,树2200中的各个叶节点2201~2205的节点值表示数据的种类数,因此参照节点2201~2205的节点值。其结果是数据模式变形处理部214从节点2203取得最大值“4”,判定是否存在具有节点2201~2205中的最大值的四分之一即“1”以下的节点值的节点。参照图22,节点2202、2205具有节点值“1”,符合上述的条件,因此选择在叶中具有节点2202、2205的路径结构作为例外模式。
接着,数据模式变形处理部214从数据模式中排除被选择为例外模式的路径结构。图23是用于说明第二实施方式的例外模式的排除处理的概要图。首先,数据模式变形处理部214选择被选择为例外模式的路径结构中的一个。在此,假设选择了以节点2202为叶的路径结构。接着,数据模式变形处理部214复制从树2200的根节点2300到该路径结构的叶节点2202为止连接的一连串的路径2301,作为例外模式追加到数据模式例外存储部202中。进而,数据模式变形处理部214从树2200中除去从节点2202到与节点2202最接近并且具有多个子节点的祖先节点2001为止的路径2302,生成树2303。然后,数据模式变形处理部214与节点2202的情况同样地,针对节点2205也将另外模式追加到数据模式例外存储部202中,从树2303中除去从节点2205到与节点2205最接近并且具有多个子节点的祖先节点为止的路径。数据模式变形处理部214针对被选择为例外模式的全部路径结构进行同样的处理,从数据模式中排除例外模式,将排除了例外模式所得的树设为“最终重构后的数据模式”。例如,树2200通过进行这样的排除处理而成为后述的图24所示的树2400。该树2400相当于“最终重构后的数据模式”,数据模式变形处理部214将树2400写入到数据模式存储部108中。
接着,在步骤S106中,数据模式变形处理部214判定是否能够对“最终重构后的数据模式”进行变形,在判定为能够进行变形的情况下,返回到步骤S103的处理。在不能对“最终重构后的数据模式”进行变形、或与重构前的数据模式完全相同的情况下,转移到步骤S107的处理。
(2-2-5)最终重构后的数据模式的妥当性评价
在步骤S106的处理后的步骤S103中,数据模式判定处理部112进行对“最终重构后的数据模式”的妥当性的评价。
图24是用于说明第二实施方式的对最终重构后的数据模式评价妥当性的处理的概要图。对最终重构后的数据模式的妥当性评价与上述的对初始数据模式的妥当性评价中的处理相同,由数据模式判定处理部112进行。即,数据模式判定处理部112读出保存在数据模式存储部108中的“最终重构后的数据模式”,使用数据模式数值化处理部113进行评分,根据评分的结果和保存在数据模式评价基准存储部107中的数据模式评价基准1900,判定重构后的数据模式是否满足适当的水准的妥当性。
在图24中,针对表示重构后的数据模式的树2400,作为组数2401而评分“3”。组数2401满足数据模式评价基准1900所示的“组数上限为3以下”这样的条件,因此数据模式判定处理部112判定为树2400是妥当的,转移到步骤S107的处理。
如上述那样,数据模式在图2的步骤S103中不能满足数据模式评价基准1900而得到否定判定的情况下,在步骤S104中对数据模式进行重构,如果能够对最终重构后的数据模式进行变形,则再次在步骤S103中重复进行妥当性的评价的处理。然后,在通过任意阶段中的妥当性的评价而得到肯定判定、或通过妥当性的评价得到否定判定而重构数据模式但无法对数据模式进一步进行变形的情况下(步骤S106的否),在步骤S107中进行数据模式的输出。
(2-2-6)数据模式的输出
在步骤S107中,数据模式视觉化处理部215读出最后存储在数据模式存储部108中的数据模式,变换为用户在视觉上能够容易地识别的预定的形式而输出到输出装置104。此外,数据模式视觉化处理部215也可以与数据模式视觉化处理部115同样地,将数据模式变换为计算机可读取的预定的形式而输出。另外,与第一实施方式的情况同样地,根据来自用户的指定来决定步骤S107中的数据模式的输出方法。
图25是用于说明第二实施方式的输出数据模式的处理的一个例子的概要图。在图25中,表示将数据模式汇总为输出表2510而输出的处理。输出表2510构成为具有记载数据模式所保存的树中的路径结构的组2511、记载该路径结构所示的数据的种类数的对应种数2512、记载该组的区分的区分2513。组2511的记载方法与参照图15说明了的组1511相同。另外,对应种数2512所记载的数据的种类数相当于该组的子节点的叶节点的节点值,例如在树2400的情况下,是节点2201、2203、2204的节点值。另外,在该组相当于例外模式的情况下,在区分2513中例如记载“例外”。
数据模式视觉化处理部215首先从数据模式存储部108中读出最后存储的数据模式。因此,在对初始数据模式进行变形而存储“最终重构后的数据模式”的情况下,如图25所示,从数据模式存储部108中读出相当于“最终重构后的数据模式”的树2400。接着,数据模式视觉化处理部215从读出的数据模式所保存的树2400,取得从根到各个叶为止的路径2500~2503。然后,数据模式视觉化处理部215将包含在所取得的路径2500~2503中的叶以外的节点的值设为输出表2510的组2511的值,将叶的节点值设为该组2510的对应种数2512的值。然后,数据模式视觉化处理部215,在是与从数据模式存储部108中读出的数据模式对应的输出的情况下,在区分2513中不进行任何记载。
进而,数据模式视觉化处理部215读出存储在数据模式例外存储部202中的例外模式,与从数据模式存储部108中读出的数据模式同样地,生成输出表2510。即,数据模式视觉化处理部215取得路径2503、2504,将包含在路径2503、2504中的叶以外的节点值设为组2511的值,将叶的节点值设为对应种数2512的值。然后,数据模式视觉化处理部215,在是与从数据模式例外存储部202读出的例外模式对应的输出的情况下,在区分2513中记载“例外”。
其结果是如图25所示,在列2514中,表示作为数据模式的一部分用“5F3C2[A~Z]”这样的字符串所示的组具有“2”个数据种数的情况。另外,在列2517中,表示用“######”这样的字符串所示的组具有“1”个数据种数,该组是例外模式的情况,但列2517的例外模式与其他模式组相比,是文字模式极端不同的模式组的一个例子。另外,在列2518中,表示用“5F3D43”这样的字符串所示的组具有“1”个数据种类数,该组是例外模式的情况,但列2518的例外模式与其他模式组相比是出现频率低的模式组的一个例子。最后,数据模式视觉化处理部215依照被用户指定的输出方式,将输出表2510输出到输出装置104。
(2-3)本实施方式的效果
在这样的数据库分析装置20中,不只是着眼于所指定的表栏根据同一栏内的数据值对分析对象的数据库内的数据群的特征进行分析,并基于该数据群的特征进行分组(分类),还针对具有数据的种类数比预定的基准少的模式组即出现频度低、或字符模式极端不同等例外特征的模式组,作为例外模式从数据模式中排除,生成和输出数据模式。其结果是除了第一实施方式的数据库分析装置10所起的效果以外,能够向用户提供将分析对象的数据库内的数据群汇总为比第一实施方式的情况更有代表性的特征所得的数据模式。这样,在用户根据数据库分析装置20的输出结果生成测试数据的情况下,能够有助于一边掌握代表性数据的特征一边生成测试数据。
另外,根据这样的数据库分析装置20,还将从数据模式中排除了的例外模式与数据模式区分地一起输出,因此能够不损害对分析对象的数据库内的数据群的完整性地,更细致地向用户提供数据群的特征。另外,在用户根据数据库分析装置20的输出结果生成测试数据的情况下,除了与数据模式对应的测试数据以外,还同时准备与作为例外模式输出的模式组对应的测试数据,由此能够一边注意出现频度、文字模式的倾向,一边生成覆盖了数据库的数据群的特征的测试数据。
另外,在这样的数据库分析装置20中,在数据库的分析处理中,一边排除例外模式一边重构数据模式,由此能够期待以下的效果,即缩短数据模式的重构的处理时间,缩短数据库的分析处理所需要的整体处理时间。
(3)其他实施方式
此外,在上述第一和第二实施方式的数据库分析装置10、20中,说明了对存储在数据库30中的数据群进行分析的情况,但本发明并不限于此,例如也可以构成为在存在经由网络31与数据库分析装置10、20连接的多个数据库的情况下,在用户进行指示数据库分析的开始的预定的输入操作时,通过指定成为分析对象的数据库,而从所指定的数据库向数据库分析装置10、20输入存储在该数据库中的数据群的副本数据。
另外,在上述第一和第二实施方式的数据库分析装置10、20中,外部存储装置105、201是存储部的一个例子,数据模式评价基准700、1900是用于判定数据模式的妥当性的第一判定基准的一个例子。另外,数据模式变形规则900或数据模式置换规则2110是针对包含在数据模式中的各组的构成要素将概念上类似的构成要素变换为相同的构成要素那样的预定的变换规则的一个例子。另外,数据模式排除规则2120是用于决定例外组的与包含在变形后的数据模式中的各组的出现频度或数据结构有关的第二判定基准的一个例子。另外,数据模式视觉化处理部115是将最后存储在存储部中的数据模式变换为预定的形式并使输出装置输出变换后的数据模式的第一数据模式输出处理部的一个例子。另外,数据模式视觉化处理部215是将最后存储在存储部中的数据模式和存储在存储部中的全部例外模式变换为预定的形式并使输出装置输出变换后的数据模式和变换后的例外模式的第二数据模式输出处理部的一个例子。
另外,本发明并不限于上述实施方式,包含各种变形例子。例如上述的实施方式为了容易理解地说明本发明而详细进行了说明,但并不限于一定具备所说明的全部结构。另外,可以将某实施方式的结构的一部分置换为其他实施方式的结构,另外也可以将其他实施方式的结构追加到某实施方式的结构中。另外,可以对各实施方式的结构的一部分进行其他结构的追加、删除、置换。
另外,对于上述的各结构、功能、处理部、处理单元等,可以通过例如用集成电路进行设计等而用硬件实现它们的一部分或全部。另外,也可以通过由处理器对实现各个功能的程序进行解释并执行而用软件实现上述的各结构、功能等。可以将实现各功能的程序、表、文件等信息放置在存储器、硬盘、SSD(固态驱动器)等存储装置、或IC卡、SD卡、DVD等记录介质中。
另外,控制线、信息线表示出为了说明上的需要而考虑到的部分,并不限于产品上一定表示出全部的控制线、信息线。在实施时也可以考虑将几乎全部的结构相互连接起来。

Claims (15)

1.一种数据库分析装置,着眼于存储在分析对象的数据库中的数据群的数据内的指定的表栏来分析上述数据群,其特征在于,具备:
存储部,其存储数据;
数据整理部,其根据上述表栏的数据值对从上述分析对象的数据库中取得的数据群进行整理,作为分析对象数据存储在上述存储部中;
数据模式生成处理部,其根据上述分析对象数据中的数据值的差异,对每个上述数据值生成组,将汇总上述组所得的数据模式存储在上述存储部中;
数据模式判定处理部,其根据第一判定基准判定存储在上述存储部中的数据模式的妥当性;
数据模式变形处理部,其当在通过上述数据模式判定处理部进行的妥当性的判定中得到了否定结果时,对上述数据模式进行变形而重构,将重构后的上述数据模式存储在上述存储部中,其中,
上述数据模式变形处理部针对包含在上述数据模式中的各组的构成要素,依照将概念上类似的构成要素变换为相同的构成要素那样的预定的变换规则,对上述各组进行变形而重构上述数据模式。
2.根据权利要求1所述的数据库分析装置,其特征在于,
还具备:数据模式数值化处理部,其依照预先设定的数值化方法,进行用于判定上述数据模式的恰当性的评分,
上述数据模式判定处理部通过将由上述数据模式数值化处理部对上述数据模式赋予的分数与上述第一判定基准进行比较,来判定上述数据模式的妥当性。
3.根据权利要求1所述的数据库分析装置,其特征在于,
上述数据模式变形处理部重复进行上述数据模式的重构,直到在通过上述数据模式判定处理部进行的妥当性的判定中得到肯定结果为止、或在得到否定结果的情况下直到依照上述预定的变换规则无法进一步对上述数据模式进行变形为止。
4.根据权利要求1所述的数据库分析装置,其特征在于,
上述数据模式的各组被构成为包含:表示上述分析对象数据中的表栏的数据值的构成要素、表示该数据值的出现次数或该数据的种类数的构成要素。
5.根据权利要求1所述的数据库分析装置,其特征在于,
上述数据变形处理部除了对上述数据模式进行变形的处理以外,还针对包含在变形后的数据模式中的组,根据与各组的出现频度或数据结构有关的第二判定基准来决定例外的组,将所决定的上述例外的组作为例外模式存储在上述存储部中,生成从上述变形后的数据模式排除了该例外模式所得的数据模式,作为重构后的数据模式存储在上述存储部中。
6.根据权利要求5所述的数据库分析装置,其特征在于,
在上述第二判定基准中,针对包含在上述数据模式中的各组,包含:该组的构成要素的值、或在该组中包含的数据的种类数。
7.根据权利要求1所述的数据库分析装置,其特征在于,还具备:
输出装置,其输出数据;
第一数据模式输出处理部,其将最后存储在上述存储部中的数据模式变换为预定的形式,使上述输出装置输出变换后的数据模式。
8.根据权利要求5所述的数据库分析装置,其特征在于,还具备:
输出装置,其输出数据;
第二数据模式输出处理部,其将最后存储在上述存储部中的数据模式和存储在上述存储部中的全部例外模式变换为预定的形式,使上述输出装置输出变换后的上述数据模式和变换后的上述例外模式。
9.一种数据库分析方法,是着眼于存储在分析对象的数据库中的数据群的数据内的指定的表栏来分析上述数据群的数据库分析装置的数据库分析方法,其特征在于,
上述数据分析装置具备存储数据的存储部,
上述数据库分析方法包括:
上述数据分析装置根据上述表栏的数据值对从上述分析对象的数据库中取得的数据群进行整理,作为分析对象数据存储在上述存储部中的数据整理步骤;
上述数据分析装置根据上述分析对象数据中的数据值的差异,对每个上述数据值生成组,将汇总上述组所得的数据模式存储在上述存储部中的数据模式生成步骤;
上述数据分析装置根据第一判定基准判定存储在上述存储部中的数据模式的妥当性的数据模式判定步骤;
上述数据分析装置当在通过上述数据模式判定处理部进行的妥当性的判定中得到了否定结果时,针对包含在上述数据模式中的各组的构成要素,依照将概念上类似的构成要素变换为相同的构成要素那样的预定的变换规则,对上述各组进行变形而重构上述数据模式,将重构后的上述数据模式存储在上述存储部中的数据模式重构步骤。
10.根据权利要求9所述的数据库分析方法,其特征在于,
在上述数据模式判定步骤中,上述数据分析装置依照预先设定的数值化方法,进行用于判定上述数据模式的恰当性的评分,将通过上述评分对上述数据模式赋予的分数与上述第一判定基准进行比较,来判定上述数据模式的妥当性。
11.根据权利要求9所述的数据库分析方法,其特征在于,
上述数据库分析装置重复进行上述数据模式重构,直到在上述数据模式判定步骤中的妥当性的判定中得到肯定结果为止、或在得到否定结果的情况下直到依照上述预定的变换规则无法进一步对上述数据模式进行变形为止。
12.根据权利要求9所述的数据库分析方法,其特征在于,
在上述数据模式重构步骤中,还包括:
上述数据库分析装置在对上述数据模式进行变形的处理后,针对包含在变形后的上述数据模式中的组,根据与各组的出现频度或数据结构有关的第二判定基准来决定例外的组的例外模式决定步骤;
上述数据库分析装置将在上述例外模式决定步骤中决定的例外的组作为例外模式存储在上述存储部中,生成从上述变形后的数据模式排除了该例外模式所得的数据模式的排除步骤,其中
上述数据库分析装置将通过上述排除步骤生成的数据模式作为重构后的数据模式存储在上述存储部中。
13.根据权利要求12所述的数据库分析方法,其特征在于,
在上述第二判定基准中,针对包含在上述数据模式中的各组,包含:该组的构成要素的值、或在该组中包含的数据的种类数。
14.根据权利要求9所述的数据库分析方法,其特征在于,
上述数据分析装置具备输出数据的输出装置,
上述数据库分析方法还包括:上述数据库分析装置将最后存储在上述存储部中的数据模式变换为预定的形式,使上述输出装置输出变换后的数据模式的第一数据模式输出步骤。
15.根据权利要求12所述的数据库分析方法,其特征在于,
上述数据分析装置具备输出数据的输出装置,
上述数据库分析方法还包括:上述数据分析装置将最后存储在上述存储部中的数据模式和存储在上述存储部中的全部例外模式变换为预定的形式,使上述输出装置输出变换后的上述数据模式和变换后的上述例外模式的第二数据模式输出步骤。
CN201310511560.9A 2012-10-25 2013-10-25 数据库分析装置和数据库分析方法 Active CN103778179B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-235686 2012-10-25
JP2012235686A JP5933410B2 (ja) 2012-10-25 2012-10-25 データベース分析装置及びデータベース分析方法

Publications (2)

Publication Number Publication Date
CN103778179A true CN103778179A (zh) 2014-05-07
CN103778179B CN103778179B (zh) 2017-04-12

Family

ID=50548358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310511560.9A Active CN103778179B (zh) 2012-10-25 2013-10-25 数据库分析装置和数据库分析方法

Country Status (3)

Country Link
US (1) US9436713B2 (zh)
JP (1) JP5933410B2 (zh)
CN (1) CN103778179B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320720A (zh) * 2014-07-01 2016-02-10 株式会社日立制作所 相关规则分析装置以及相关规则分析方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235496B2 (en) * 2013-10-17 2016-01-12 Informatica Llc Domain centric test data generation
CN106708815B (zh) * 2015-07-15 2021-09-17 中兴通讯股份有限公司 数据处理方法、装置和系统
JP6419667B2 (ja) * 2015-09-28 2018-11-07 株式会社日立製作所 テストdbデータ生成方法及び装置
CN109325218B (zh) * 2017-08-01 2024-09-06 珠海金山办公软件有限公司 一种数据筛选统计方法、装置、电子设备及存储介质
US11263338B2 (en) 2017-10-16 2022-03-01 Sentience Inc. Data security maintenance method for data analysis application
CN113761287A (zh) * 2021-01-29 2021-12-07 北京沃东天骏信息技术有限公司 一种基于广告业务的数据处理方法、系统、装置及介质
KR102685789B1 (ko) * 2023-11-02 2024-07-17 예스넷 주식회사 데이터 코드의 변환을 수행하는 시스템, 장치 및 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256076A (ja) 2000-03-08 2001-09-21 Ricoh Co Ltd テストデータ生成装置、テストデータ生成方法及び記録媒体
EP1637955A1 (de) * 2004-09-15 2006-03-22 Ubs Ag Erzeugung aktualisierbarer anonymisierter Datensätze für Test- und Entwicklungszwecke
EP1637956A1 (de) * 2004-09-15 2006-03-22 Ubs Ag Erzeugung anonymisierter Datensätze zum Testen und Entwickeln von Anwendungen
JP4720213B2 (ja) * 2005-02-28 2011-07-13 富士通株式会社 解析支援プログラム、装置及び方法
EP1994535B1 (en) * 2006-03-13 2009-07-01 Verigy (Singapore) Pte. Ltd. Format transformation of test data
US7702613B1 (en) * 2006-05-16 2010-04-20 Sprint Communications Company L.P. System and methods for validating and distributing test data
JP5241370B2 (ja) 2008-08-01 2013-07-17 三菱電機株式会社 テーブル分類装置、テーブル分類方法及びテーブル分類プログラム
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
KR101660853B1 (ko) * 2009-06-10 2016-09-28 아브 이니티오 테크놀로지 엘엘시 테스트 데이터의 생성
US8862557B2 (en) * 2009-12-23 2014-10-14 Adi, Llc System and method for rule-driven constraint-based generation of domain-specific data sets
EP2597573B1 (en) * 2011-11-28 2018-08-29 Tata Consultancy Services Limited Test data generation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320720A (zh) * 2014-07-01 2016-02-10 株式会社日立制作所 相关规则分析装置以及相关规则分析方法
CN105320720B (zh) * 2014-07-01 2018-11-09 株式会社日立制作所 相关规则分析装置以及相关规则分析方法

Also Published As

Publication number Publication date
US9436713B2 (en) 2016-09-06
CN103778179B (zh) 2017-04-12
JP2014085926A (ja) 2014-05-12
JP5933410B2 (ja) 2016-06-08
US20140122445A1 (en) 2014-05-01

Similar Documents

Publication Publication Date Title
CN103778179A (zh) 数据库分析装置和数据库分析方法
JP5940647B2 (ja) 文書の電子的調査
JP3323180B2 (ja) 決定木変更方法およびデータマイニング装置
CN110111888A (zh) 一种XGBoost疾病概率预测方法、系统及存储介质
CN110910982A (zh) 自编码模型训练方法、装置、设备及存储介质
CN105612515A (zh) 矛盾表现收集装置以及用于其的计算机程序
US11410055B2 (en) Learning of a feature based on betti sequences obtained from time series data
CN115344504B (zh) 基于需求规格说明书的软件测试用例自动生成方法及工具
CN105279144A (zh) 一种风洞试验数据文本文件的排版方法和装置
CN104077303A (zh) 用于呈现数据的方法和装置
CN108681505B (zh) 一种基于决策树的测试用例排序方法和装置
CN111506504A (zh) 基于软件开发过程度量的软件安全性缺陷预测方法及装置
CN108154191A (zh) 文档图像的识别方法和系统
CN108241662A (zh) 数据标注的优化方法及装置
AU2015204339B2 (en) Information processing apparatus and information processing program
Daou et al. A computational tool for automated large-scale analysis and measurement of bird-song syntax
US20210390623A1 (en) Data analysis method and data analysis device
CN108491487A (zh) 一种临床指南知识编码方法及系统
CN111651410B (zh) 一种样本数据的动态平衡方法及系统
CN109584091B (zh) 保险图像文件的生成方法与装置
CN108241652A (zh) 关键词聚类方法及装置
JP7527172B2 (ja) 判定装置、機械学習装置、判定方法、機械学習方法、プログラム、及び構造体の製造方法
JP7103134B2 (ja) 出力プログラム、および出力方法
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
JP5940968B2 (ja) テストケース生成システムおよび方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant