CN108885628A - 数据分析方法候选决定装置 - Google Patents

数据分析方法候选决定装置 Download PDF

Info

Publication number
CN108885628A
CN108885628A CN201780007854.4A CN201780007854A CN108885628A CN 108885628 A CN108885628 A CN 108885628A CN 201780007854 A CN201780007854 A CN 201780007854A CN 108885628 A CN108885628 A CN 108885628A
Authority
CN
China
Prior art keywords
analysis
data
determination device
method candidate
object data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780007854.4A
Other languages
English (en)
Inventor
青木敦子
坂上聪子
岩田雅史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN108885628A publication Critical patent/CN108885628A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

本发明的目的在于不论有无存在源代码或中间代码均可机器推荐分析对象数据的分析算法。本发明的数据分析方法候选决定装置是一种决定应进行数据分析的分析对象数据的分析方法候选的数据分析方法候选决定装置,具备:分析事例存储部(3),其将使在过去进行了数据分析的多个分析完成数据中的每一个关联数据属性及分析方法而成的数据存储为分析事例;分析对象数据存储部(2),其存储分析对象数据的数据属性的信息;以及分析方法候选决定部(4),其算出数据属性相似度,并基于数据属性相似度从分析完成数据的分析方法中决定至少一个分析方法作为分析对象数据的分析方法候选,所述数据属性相似度是分析对象数据的数据属性与分析完成数据的数据属性的相似度。

Description

数据分析方法候选决定装置
技术领域
本发明涉及决定数据分析方法候选的技术。
背景技术
为了分析数据,需要根据数据的特征、含义,选择适当的数据分析方法。目前,被称为数据科学家的精通数据分析方法的专业技术人员推荐数据分析方法。近年来,由于连接到互联网的设备的增加,经由互联网收集到的数据爆炸性地增加,所以对分析这些数据的数据分析技术人员的需求增加。然而,数据分析技术人员的培养未取得进展,存在许多虽然收集到但没有被有效活用的数据。
为了解决数据分析技术人员不足这样的课题,需要机器推荐数据分析方法的方案。作为相关领域的技术,在专利文献1中公开了如下软件分析装置:基于过去的软件产品的开发实际成绩及变更实际成绩,选择在开发派生产品时应同时再利用或变更的软件部件。在专利文献1的软件分析装置中,当由用户选择源代码化的某软件部件时,基于软件部件间距离提取可考虑与该软件部件同时利用的软件部件并出示。
另外,在专利文献2中公开了推荐源代码的信息处理装置。专利文献2的信息处理装置将开发中的程序的源代码转换为中间代码,从存储于数据库的中间代码提取与其相似的中间代码,并推荐相似的中间代码的源代码。
在先技术文献
专利文献
专利文献1:日本特开2010-113449号公报
专利文献2:日本特开2013-3664号公报
发明内容
发明要解决的课题
但是,专利文献1的技术存在如下问题:若不存在源代码化的软件部件,则无法利用。另外,存在如下问题:由于仅使用软件部件的部件间距离选定再利用的软件部件,所以无法以分析对象数据的相似性等为线索选定能够再利用的软件部件。
另外,在专利文献2中,存在如下问题:虽然不限源代码的语言类别,但若没有从源代码化的程序生成的中间代码,则无法进行源代码的推荐。
本发明鉴于上述问题而作出,其目的在于不管有无存在源代码或中间代码都能够决定分析对象数据的分析方法候选。
用于解决课题的方案
本发明的数据分析方法候选决定装置是一种决定应进行数据分析的分析对象数据的分析方法候选的数据分析方法候选决定装置,具备:分析事例存储部,所述分析事例存储部将使在过去进行了数据分析的多个分析完成数据中的每一个关联数据属性及分析方法而成的数据存储为分析事例;分析对象数据存储部,所述分析对象数据存储部存储所述分析对象数据的数据属性的信息;以及分析方法候选决定部,所述分析方法候选决定部算出数据属性相似度,并基于所述数据属性相似度从所述分析完成数据的分析方法中决定至少一个分析方法作为所述分析对象数据的分析方法候选,所述数据属性相似度是所述分析对象数据的数据属性与所述分析完成数据的数据属性的相似度。
发明的效果
本发明的数据分析方法候选决定装置是一种决定应进行数据分析的分析对象数据的分析方法候选的数据分析方法候选决定装置,具备:分析事例存储部,所述分析事例存储部将使在过去进行了数据分析的多个分析完成数据中的每一个关联数据属性及分析方法而成的数据存储为分析事例;分析对象数据存储部,所述分析对象数据存储部存储所述分析对象数据的数据属性的信息;以及分析方法候选决定部,所述分析方法候选决定部算出数据属性相似度,并基于所述数据属性相似度从所述分析完成数据的分析方法中决定至少一个分析方法作为所述分析对象数据的分析方法候选,所述数据属性相似度是所述分析对象数据的数据属性与所述分析完成数据的数据属性的相似度。由于基于数据属性相似度决定分析方法候选,所以即使没有各分析方法的源代码,也能够决定分析方法候选。
本发明的目的、特征、技术方案及优点通过以下的详细说明和附图而变得更为清楚。
附图说明
图1是示出实施方式1的数据分析方法候选决定装置的结构的框图。
图2是例示数据属性的图。
图3是示出实施方式1的数据分析方法候选决定装置的硬件结构的图。
图4是示出实施方式1的数据分析方法候选决定装置的动作的流程图。
图5是示出图4的步骤S15中的处理的流程图。
图6是示出距离评价轴的设定例的图。
图7是示出实施方式2的数据分析方法候选决定装置的结构的框图。
图8是示出实施方式2的数据分析方法候选决定装置的动作的流程图。
图9是示出评价取得部的动作的流程图。
图10是示出实施方式2的变形例的数据分析方法候选决定装置的结构的框图。
图11是示出实施方式2的变形例的数据分析方法候选决定装置的动作的流程图。
图12是示出实施方式3的数据分析方法候选决定装置的结构的框图。
图13是示出实施方式3的数据分析方法候选决定装置的动作的流程图。
图14是示出实施方式3的数据分析方法候选决定装置的动作的流程图。
图15是示出函数流程图A的图。
图16是示出函数流程图B的图。
图17是示出实施方式4的数据分析方法候选决定装置的结构的框图。
图18是示出实施方式4的数据分析方法候选决定装置的动作的流程图。
图19是示出图18的步骤S19中的已有数据活用提议部的动作的流程图。
图20是示出实施方式5的数据分析方法候选决定装置的结构的框图。
图21是示出实施方式5的数据分析方法候选决定装置的动作的流程图。
图22是示出图20的步骤S20中的分析方法重新确认提议部的动作的流程图。
具体实施方式
<A.实施方式1>
<A-1.结构>
图1是示出实施方式1的数据分析方法候选决定装置11的结构的框图。数据分析方法候选决定装置11是决定应进行数据分析的分析对象数据的分析方法候选并将其推荐给用户的装置。数据分析方法候选决定装置11具备分析对象数据存储部2、分析事例存储部3及分析方法候选决定部4。但是,这些数据分析方法候选决定装置11的构成要素不仅可以设置在一个装置内,也可以分散配置于多个装置,这些多个装置利用互联网等网络相互连接,并整体上构成作为一个系统的数据分析方法候选决定装置11。
数据分析方法候选决定装置11能够利用输入部5和输出部6。输入部5是用于向数据分析方法候选决定装置11输入来自用户的指令或检索条件等的输入接口。另外,输出部6是向用户输出利用分析方法候选决定部4决定的分析方法候选的决定结果的输出接口。在图1中,将输入部5和输出部6设为区别于数据分析方法候选决定装置11的另外的结构并示出,但也可以是,数据分析方法候选决定装置11具备输入部5和输出部6。
分析对象数据存储部2由HDD(Hard Disk Drive:硬盘驱动器)或SD等这样的记录介质构成,并存储应进行数据分析的分析对象数据和该分析对象数据的数据属性。数据分析方法候选决定装置11的分析对象数据包括:从传感器等直接测量到的温度、湿度、振动、速度、加速度、压力、日照量、距离、重量、电流、电压、电量、转速或数字等时序数据;或者设备的使用历史、访问日志、移动体的GPS数据、气象观测或气象预报等离散数据;或者报告、检查记录、作业历史、票单或企划书等文件数据;或者人口统计或白皮书等统计数据等。分析对象数据是此后应进行数据分析的数据,但除此以外,也可以在分析对象数据存储部2中存储在过去进行了数据分析的分析完成数据、和通过数据分析、预测或推定等新制成的数据分析结果。另外,在分析对象数据存储部2中,也可以包括虽然在过去未进行数据分析但能够利用的数据及该数据的数据属性。此外,分析对象数据存储部2存储分析对象数据的数据属性即可,可以不存储分析对象数据本身。作为分析对象数据本身不存储于分析对象数据存储部2的分析对象数据的例子,有自治团体等提供的开放数据、向SNS(Social NetworkSystem:社交网络系统)投稿的数据或分散保存于能够从数据分析方法候选决定装置11访问的云环境等的数据等。
图2是例示数据属性的图。图2示出数据A、数据B及数据C中的每一个的数据属性。数据属性表示数据的特征,例如有数据的取得间隔、数据的取得方法、是实际值还是预测值还是加工值的类别、数据类别、关联数据及关联设备等。除此以外,也可以将对数据的访问权限设为数据属性。
分析事例存储部3由HDD(Hard Disk Drive)或SD等这样的记录介质构成。在分析事例存储部3中,将使在过去进行数据分析了的分析完成数据关联数据属性和分析方法而成的数据作为分析事例进行存储。分析事例无需是利用数据分析方法候选决定装置11制作的分析事例,优选包括已有的分析事例、基于文献等的公知事例、研究阶段中的试应用事例、不采用事例或分析方法变更事例等。另外,分析事例也可以包括用户对分析方法的评价信息。在各分析事例中,分析方法既可以用源代码记载,也可以用程序能够执行的中间代码记载。或者,也可以像“回归分析”或“k-means法”等那样用名称记载。或者,也可以像“统计解析→聚类→k-means法”那样用由上位概念、中位概念及下位概念构成的层级构造记载。或者,也可以ID化地记载。
分析方法候选决定部4从过去的分析事例中使用的分析方法中,选择在分析对象数据的数据分析中应使用的分析方法,并将其决定为分析方法候选。在此决定的分析方法候选例如以文本形式从输出部6输出,并推荐给用户。或者,也可以是,以列表形式输出与代表过去事例匹配的分析方法候选,并推荐给用户。在该情况下,用户容易理解分析方法候选的实施例或特征。
图3是示出数据分析方法候选决定装置11的硬件结构的图。数据分析方法候选决定装置11构成为具备处理器20、存储器21及记录介质22。分析方法候选决定部4通过利用CPU(Central Processing Unit:中央处理单元)等处理器20执行存储于RAM(RandomAccess Memory:随机存取存储器)等存储器21的软件程序,从而实现作为该处理器20的功能。但是,这些也可以由多个处理器协作来实现。此外,分析方法候选决定部4可以利用信号处理电路实现该动作,所述信号处理电路用硬件的电路实现。作为将软件的分析方法候选决定部4和硬件的分析方法候选决定部4组合而成的概念,也能够使用“处理电路”这样的词来代替“部”这样的词。
<A-2.动作>
图4是示出数据分析方法候选决定装置11的动作的流程图。首先,用户经由输入部5选择分析对象数据及分析目的(步骤S11)。关于分析对象数据,例如可以是,显示已存储于分析对象数据存储部2的数据的一览而供用户从中选择,也可以是,用户能够通过电子文件等新输入分析对象数据。在新输入分析对象数据的情况下,该数据存储于分析对象数据存储部2。
关于分析目的,例如可以是,显示下拉菜单等的一览而供用户从中选择,也可以是,用户能够用字符串输入。在此用户选择的分析目的存储于分析对象数据存储部2。另外,分析目的不限定于一个,可以是多个。在此,将“电视的收看数据”、“收看者的收看喜好的分析”分别作为分析对象数据、分析目的的例子而继续说明。
接着,从分析对象数据存储部2向分析方法候选决定部4读入分析对象数据(步骤S12)。即,读入从各电视终端收集到的电视的收看数据作为分析对象数据。
接着,从分析对象数据存储部2向分析方法候选决定部4读入分析对象数据的数据属性及分析目的(步骤S13)。即,例如,读入数据取得间隔、数据取得设备的所在地及数据取得设备的所有者信息作为分析对象数据即“电视的收看数据”的数据属性,读入“收看者的收看喜好的分析”作为分析目的。
接着,从分析事例存储部3向分析方法候选决定部4读入数据属性与分析对象数据相同或相似、或者分析目的与分析对象数据相同或相似的分析事例(步骤S14)。例如,作为数据属性与分析对象数据“电视的收看数据”相似的分析事例,有“不同地域的电视收视率调查”、“不同地域的喜爱的演员分析”、“有人气的电影种类调查”、“电力使用状况调查”或“工厂中的生产效率分析”等。另外,作为分析目的相似的分析事例,有“互联网的浏览历史分析”、“商品购买状况分析”、“顺路去的店铺分析”、“积分卡的持有状况分析”、“公共交通工具的乘车历史”或“旅行时的访问设施分析”等。
接着,分析方法候选决定部4决定分析对象数据的分析方法候选(步骤S15)。将在后面说明步骤S15中的详细处理内容。
最后,向输出部6输出在步骤S15中制作的分析方法候选并推荐给用户(步骤S16),并结束处理。
图5是示出图4的步骤S15中的、由分析方法候选决定部4进行的分析方法候选的决定处理的流程图。首先,关于在图4的步骤S14中读入的分析事例,算出分析对象数据与分析完成数据的数据属性相似度(步骤S151)。将“公共交通工具的乘车历史”数据作为分析事例的分析完成数据的一例,具体地说明处理。关于作为用户指定的分析对象数据的“电视的收看数据”的数据属性、和在分析完成数据“公共交通工具的乘车历史”的分析中使用的“交通类IC卡的乘车历史”数据或“根据GPS数据推定的公共交通工具的乘车路径”数据等的数据属性,算出数据属性相似度Sz。数据属性相似度Sz例如利用以下公式算出。
[公式1]
其中,N设为登记为数据属性的项目数,Lmaxi设为第i个数据属性项目的最大距离,Li设为第i个数据属性项目的距离。例如,按数据属性项目设定距离评价轴,并使用该距离评价轴算出第i个数据属性项目的距离Li。
在图6中示出距离评价轴的设定例。例如,关于数据取得间隔,若分析对象数据和分析完成数据中的至少一方的数据取得间隔为不定期,则将距离设为10。另外,若分析完成数据的数据取得间隔比分析对象数据的数据取得间隔短,则将距离设为0。另外,若分析对象数据及分析完成数据中的一方的取得间隔为另一方的取得间隔的100倍以上,则将距离设为5。另外,关于数据取得方法,例如,若是同一方法则将距离设为0,若一方为日志而另一方为终端输入则将距离设为2,若双方均为传感器日志但传感器类别不同则将距离设为1。另外,关于实际值和预测值的类别,例如,若双方均为实际值则将距离设为0,若一方为实际值而另一方为预测值则将距离设为20,若双方均为预测值则将距离设为100。这样,距离评价轴既可以按数据属性项目用规则库设定,也可以用公式设定。另外,规则数可以不设置限制,距离的最大值可以按评价轴设置。将在按图6设定的距离评价轴中成为最大的距离设为最大距离。此外,在图6中,仅记载了距离为正的值的情形,但也可以有取负的值的距离,也可以取二维以上的值而不取一维值。
接着,对于在步骤S151中算出数据属性相似度的分析事例,算出与分析对象数据的分析目的相似度Sp(步骤S152)。例如,用字符串对分析对象数据的分析目的和分析完成数据的分析目的进行比较,算出其相似度作为分析目的相似度Sp。分析目的相似度Sp例如能够使用余弦相似度或编辑距离(levenshtein distance)等求出。例如,当用余弦相似度求分析对象数据的分析目的的字符串A与分析完成数据的分析目的的字符串B之间的分析目的相似度Sp时,用以下公式算出。
[公式2]
其中,A·B设为字符串A与字符串B的内积,|A|设为字符串A的距离,|B|设为字符串B的距离。
将分析对象数据的分析目的的字符串A设为“收看者的收看喜好的分析”,将分析完成数据的分析目的的字符串B设为“有人气的电影种类调查”,说明它们的分析目的相似度Sp的算出方法。当将字符串A分解为单词水平(level)并提取关键词时,得到“收看、者、喜好、分析”,同样地从字符串B得到“人气、电影、种类、调查”。此时,也可以像“喜好=人气”、“分析=调查”那样使相似词关联,并将字符串B的关键词设为“喜好、电影、种类、分析”。能够在分析对象数据存储部2或分析事例存储部3中设置定义有相似词的相似词数据库,并参照该相似词数据库而进行相似词的关联。
当用矢量表示字符串A、B时,A为:(收看,者,喜好,分析,电影,种类)=(2,1,1,1,0,0),B为:(收看,者,喜好,分析,电影,种类)=(0,0,1,1,1,1)。
另外,分析目的相似度Sp按以下方式算出。
[公式3]
A·B=(2×0+1×0+1×1+1×1+0×1+0×1)=2…(3)
作为其他例子,在用源代码或中间代码记载分析目的的情况下,可以用UML(Unified Modeling Language,统一建模语言)或函数流程图等方法整理源代码或中间代码所示的处理步骤,并根据处理步骤的相似度算出分析目的相似度Sp。以下,以图15所示的函数流程图A和图16所示的函数流程图B为例,说明分析目的相似度Sp的算出方法。
函数流程图A示出依次执行步骤S21至步骤S26。步骤S21是输入X的步骤,步骤S22是将X/5代入Y的步骤,步骤S23是输出Y的步骤,步骤S24是输入Z的步骤,步骤S25是将Y×Z代入A的步骤,步骤S26是输出Y的步骤。
函数流程图B示出依次执行步骤S31至步骤S33。步骤S31是输入X的步骤,步骤S32是与X相关的子例程的步骤,步骤S33是输出Y的步骤。与X相关的子例程的步骤S32是将X/5代入Y的步骤S34。
在这两个函数流程图A、B中的每一个中,用一致处理步骤数相对于全部处理步骤数来定义处理步骤的一致率。在仅将输入输出处理和运算处理作为处理步骤的计数对象的情况下,按以下方式算出一致率。
[公式4]
当在该一致率中加入一致处理步骤的连续数的大小时,分析目的相似度Sp例如能够用以下公式表示。
[公式5]
另外,在用由上位概念、中位概念及下位概念构成的层级构造记载分析目的的情况下,也可以用(6)式算出上位概念、中位概念及下位概念各自的分析目的相似度,并取其平均。或者,也可以对上位概念、中位概念及下位概念的选项中的每一个预先赋予考虑了方法的相似度的ID编号,并基于将ID编号组合而成的数字的差量,求出分析目的相似度Sp。
例如,当将ID编号的最大值设为“9-9-99”时,上位概念-中位概念-下位概念的ID编号用“1-0-01”表示的分析目的、与上位概念-中位概念-下位概念的ID编号用“1-0-02”表示的分析目的的分析目的相似度Sp能够按以下方式算出。
[公式6]
另外,相对于上位概念-中位概念-下位概念的ID编号用“1-0-01”表示的分析目的,与上位概念-中位概念-下位概念的ID编号用“5-0-01”表示的分析目的的分析目的相似度Sp能够按以下方式算出。
[公式7]
上述说明的分析目的相似度Sp的算出式仅为一例。因此,能够有如下变形例:对特定的条件进行加权,或在由于分析目的相似度的算出方法的不同而运算结果的平均值存在偏差等情况下进行倾斜等校正运算。
另外,在分析目的的记述方法不同的事例并存的情况下,也可以是,通过提取代表多个事例的事例,仅对代表事例赋予全部的分析目的记述方法中的分析目的,从而能够间接地进行分析目的的比较。
接着,基于数据属性相似度Sz和分析目的相似度Sp,算出分析对象数据与分析完成数据的综合相似度S(步骤S153)。综合相似度S例如利用以下公式算出。
[公式8]
接着,确认是否存在未算出综合相似度的其他分析完成数据(步骤S154)。若存在未算出综合相似度的分析完成数据,则返回到步骤S151,对该分析完成数据执行从步骤S151到步骤S153的处理。若对所有的分析完成数据完成相似度的算出,则进入步骤S155。
在步骤S155中,根据在图4的步骤S14中读入的全部的分析事例的综合相似度,按分析方法算出平均相似度。例如,在图4的步骤S14中读入的分析事例中,使用“回归分析”、“k-means法”、“行动模型库推导”、“行动模型库推导及排队模拟”及“神经网络”等分析方法。此时,对于“回归分析”的平均相似度Sav例如利用以下公式算出。
[公式9]
其中,N表示包括“回归分析”作为数据分析方法的事例数,ΣS表示包括“回归分析”作为数据分析方法的事例的综合相似度之和。在上述例子中使用算术平均,但也可以使用几何平均、调和平均及加权平均等其他各种平均来算出平均相似度。
当在一个事例中使用多种分析方法的情况下,也可以在保持多种分析方法的组合的状态下算出平均相似度。或者,也可以在算出作为单一方法的平均相似度后,对仅将平均相似度高的方法组合使用的数据分析方法再次算出平均相似度。
最后,决定对分析对象数据的分析方法候选(步骤S156)。在此,既可以将平均相似度最高的分析方法设为分析方法候选,也可以按平均相似度从高到低的顺序将多种分析方法设为分析方法候选。当在图4的步骤S16中输出分析方法候选时,除了分析方法候选之外,也可以一起输出其平均相似度、包括该分析方法候选的分析事例数或使用该分析方法候选的分析目的的出现频率等。
<A-3.效果>
实施方式1的数据分析方法候选决定装置11具备:分析事例存储部3,所述分析事例存储部3将使在过去进行了数据分析的多个分析完成数据中的每一个关联数据属性及分析方法而成的数据存储为分析事例;分析对象数据存储部2,所述分析对象数据存储部2存储分析对象数据的数据属性的信息;以及分析方法候选决定部4,所述分析方法候选决定部4算出数据属性相似度,并基于数据属性相似度从分析完成数据的分析方法中决定至少一个分析方法作为分析对象数据的分析方法候选,所述数据属性相似度是分析对象数据的数据属性与分析完成数据的数据属性的相似度。因此,即使没有各分析方法的源代码,也能够参考数据属性相似的分析事例来决定分析方法候选。
另外,分析事例存储部3存储多个分析完成数据中的每一个的分析目的的信息,分析对象数据存储部2存储分析对象数据的分析目的的信息,分析方法候选决定部4算出分析对象数据的分析目的与分析完成数据的分析目的的相似度作为分析目的相似度,基于分析目的相似度及数据属性相似度算出分析对象数据与分析完成数据的综合相似度,并基于综合相似度,从分析完成数据的分析方法中决定至少一个分析方法作为分析对象数据的分析方法候选。因此,即使没有各分析方法的源代码,也能够参考数据属性及分析目的相似的分析事例来决定分析方法候选。
另外,分析完成数据及分析对象数据的数据属性至少包括数据取得间隔、数据取得方法、是实际值还是预测值还是加工值的类别中的任意种。通过基于这些数据属性的相似度决定分析方法候选,从而即使没有各分析方法的源代码,也能够决定分析方法候选。
另外,分析方法候选决定部4基于分析对象数据的分析目的的字符串和分析完成数据的分析目的的字符串,算出分析目的相似度。通过对字符串彼此进行比较并算出分析目的相似度,基于该分析目的相似度决定分析方法候选,从而即使没有各分析方法的源代码,也能够决定分析方法候选。
另外,分析方法候选决定部4基于用层级构造记载的分析对象数据的分析目的和用层级构造记载的分析完成数据的分析目的,算出分析目的相似度。通过对按层级预先设定的分析目的彼此的相似性进行比较并算出分析目的相似度,基于该分析目的相似度决定分析方法候选,从而即使没有各分析方法的源代码,也能够决定分析方法候选。
另外,在用源代码或中间代码记载分析对象数据的分析目的及分析完成数据的分析目的的情况下,分析方法候选决定部4基于一致率或一致的处理步骤的连续性,算出分析对象数据的分析目的的源代码或中间代码所示的处理步骤与分析完成数据的分析目的的源代码或中间代码所示的处理步骤的相似度作为分析目的相似度。通过基于处理步骤的一致率或一致的处理步骤的连续性等算出分析目的相似度,基于该分析目的相似度决定分析方法候选,从而在用源代码或中间代码记载分析目的的情况下,也能够决定分析方法候选。
另外,分析方法候选决定部4按分析方法算出使用该分析方法得到的分析完成数据与分析对象数据的综合相似度的平均值,将基于综合相似度的平均值选择的分析方法决定为分析方法候选。因此,即使没有各分析方法的源代码,也能够决定分析方法候选。
<B.实施方式2>
<B-1.结构>
图7是示出实施方式2的数据分析方法候选决定装置12的结构的框图。数据分析方法候选决定装置12在实施方式1的数据分析方法候选决定装置11的结构的基础之上,新具备评价取得部7和推荐事例存储部8。
推荐事例存储部8由HDD(Hard Disk Drive)或SD等这样的记录介质构成,并存储推荐事例数据。推荐事例数据是指将在过去用分析方法候选决定部4决定的分析方法候选与分析对象数据及分析目的关联而成的数据。
评价取得部7取得用户经由输入部5输入的对分析方法候选的评价信息,将该评价信息追加到存储于推荐事例存储部8的对应的推荐事例。即,在推荐事例存储部8中,关联并存储由分析对象数据、分析目的及分析方法候选构成的推荐事例和对该推荐事例的评价信息。通过图3所示的处理器20执行存储于存储器21的软件程序,从而评价取得部7实现作为处理器20的功能。
<B-2.动作>
图8是示出数据分析方法候选决定装置12的动作的流程图。由于步骤S11~S16与实施方式1相同,且已经用图4说明,所以在此省略说明。分析方法候选决定部4决定分析方法候选(步骤S15),当向输出部6输出该分析方法候选时(步骤S16),将关联分析对象数据、分析目的及分析方法候选而成的数据(推荐事例)存储于推荐事例存储部8(步骤S17)。
图9是示出评价取得部7的动作的流程图。仅当在推荐事例存储部8中存储有推荐事例的情况下进行该流程。首先,评价取得部7决定应附加评价信息的推荐事例(步骤S71)。例如,可以显示画面,并供用户从该画面选择推荐事例,所述画面用列表显示存储于推荐事例存储部8的全部推荐事例。另外,也可以使用户输入分析对象数据或分析目的等条件,根据输入的条件确定或缩减推荐事例。另外,也可以从推荐事例存储部8提取尚未附加评价信息的推荐事例并向用户出示,并供用户选择。
接着,确定由在步骤S71中决定的推荐事例推荐的多种分析方法候选中的、用户实际使用的分析方法候选(步骤S72)。在用户使用多种分析方法候选的情况下,确定多种分析方法候选。在此,例如,显示多种分析方法候选的列表画面,从该列表画面选择用户实际使用的分析方法候选。
接着,取得用户对在步骤S72中确定的分析方法候选的评价信息(步骤S73)。通过使用户从输入部5输入,从而取得用户的评价信息。评价信息例如包括分析精度、用户的个人感觉、执行时间等补充信息。另外,也可以使用户从多种分析方法候选的列表画面选择得到最期望的结果的分析方法候选。或者,也可以是,按得到期望的结果的顺序对分析方法候选输入顺序,来代替选择最期望的一个分析方法候选。
另外,除了上述与好的评价相关的信息以外,也可以取得与差的评价相关的信息。例如,若有虽然用户使用过但由于存在某些课题等理由结果没有采用的分析方法候选,则也可以输入与该分析方法候选相关的课题。另外,关于课题,也能够输入用户实际未使用的分析方法候选。另外,课题等补充信息既可以从预先准备的选项中选择回答,也可以自由地输入。
评价取得部7将按这种方式取得的评价信息赋予给推荐事例,并将其存储于推荐事例存储部8(步骤S74)。
而且,评价取得部7将赋予有评价信息的推荐事例中的、与赋予有期望的评价信息的分析方法候选相关的推荐事例作为新的分析事例追加到分析事例存储部3(步骤S75)。例如,当在针对分析对象数据“电视的收看数据”、分析目的“收看者的收看喜好的分析”的分析方法候选“回归分析”、“k-means法”中,对于“回归分析”取得期望的评价信息,对于“k-means法”取得不期望的评价信息的情况下,将分析对象数据“电视的收看数据”、分析目的“收看者的收看喜好的分析”及分析方法“回归分析”作为新的分析事例追加到分析事例存储部3。在对于多种分析方法得到期望的评价信息的情况下,将得到期望的评价信息的全部分析方法如上所述追加到分析事例存储部3。这样,通过追加得到期望的评价信息的分析事例,并使用它进行分析方法候选的决定,从而分析方法候选的决定精度提高。
<B-3.变形例>
图10是示出实施方式2的变形例的数据分析方法候选决定装置13的结构的框图。数据分析方法候选决定装置13在数据分析方法候选决定装置12的结构的基础之上,具备属性追加部9。属性追加部9以外的数据分析方法候选决定装置13的结构与数据分析方法候选决定装置12相同。
属性追加部9对用评价取得部7取得的分析方法候选的不采用理由进行分析,将与不采用理由对应的数据属性作为在分析对象数据存储部2中存储有数据属性的全部分析对象数据的新的数据属性项目进行追加。此时,也可以是,属性追加部9通过输出部6向系统管理者等用户通知追加的数据属性项目,并催促输入与追加的数据属性项目相关的数据属性。另外,也可以是,与数据属性同样地,也向用户催促输入用于算出追加的数据属性项目的数据属性相似度的距离评价轴。用户能够通过输入部5,向数据分析方法候选决定装置13输入这些数据属性或距离评价轴。通过图6所示的处理器20执行存储于存储器21的软件程序,从而属性追加部9实现作为处理器20的功能。
图11是示出数据分析方法候选决定装置13中的属性追加部9的动作的流程图。当在推荐事例存储部8中存储有分析方法候选的不采用理由的情况下执行该流程。
首先,从推荐事例存储部8提取赋予有评价信息的推荐事例(步骤S81)。
接着,对于在步骤S81中提取的推荐事例的成为不采用的分析方法候选,提取其不采用理由(步骤S82)。
接着,分析在步骤S82中提取的不采用理由(步骤S83)。作为分析方法,能够使用基于关键词提取的频率解析或单纯统计等。
最后,将与分析得到的不采用理由对应的数据属性项目作为存储于分析对象数据存储部2的分析对象数据的数据属性的项目进行追加(步骤S84)。例如,在步骤S83中分析不采用理由后,若知晓“执行时间长”、“处理负担重”这样的关键词较多作为不采用理由,则将“计算量”、“每单位量的执行时间”等与计算负荷相关的项目追加到数据属性。
这样,根据数据分析方法候选决定装置13,通过追加与分析方法候选的不采用理由对应的数据属性,从而能够在分析方法候选决定部4决定分析方法候选时更精细地进行数据属性相似度的判断。因此,能够提高分析方法候选的决定精度。
<B-4.效果>
实施方式2的数据分析方法候选决定装置12在实施方式1的数据分析方法候选决定装置11的结构的基础之上,具备评价取得部7和推荐事例存储部8,所述评价取得部7取得用户对分析方法候选的评价信息,所述推荐事例存储部8将关联分析对象数据的数据属性、分析对象数据的分析方法候选及对分析方法候选的评价信息而成的数据存储为推荐事例。这样,若将分析方法候选的决定结果存储为推荐事例,则例如通过将得到期望的评价信息的推荐事例用作分析事例,从而能够提高分析方法候选的决定精度。
另外,实施方式2的变形例的数据分析方法候选决定装置13在实施方式2的数据分析方法候选决定装置12的结构的基础之上,具备属性追加部9,所述属性追加部9从评价取得部7取得的评价信息提取分析方法候选的不采用理由,并将与不采用理由对应的项目追加到数据属性的项目。因此,由于能够在分析方法候选决定部4决定分析方法候选时更精细地进行数据属性相似度的判断,所以能够提高分析方法候选的决定精度。
<C.实施方式3>
<C-1.结构>
图12是示出实施方式3的数据分析方法候选决定装置14的结构的框图。数据分析方法候选决定装置14在实施方式1的数据分析方法候选决定装置11的结构的基础之上,具备模型变更提议部10。
在用分析方法候选决定部4决定的分析方法候选包括物理模型库解析方法的情况下,模型变更提议部10提议物理模型的修正、追加这样的物理模型的变更。在此,物理模型库解析方法表示活用设备模型、故障模型、举动模型、相关模型或用户模型等基于数据或设计信息的物理模型的所有数据分析方法。物理模型可以用参数表这样的文件形式记载,也可以用FTA(Fault Tree Analysis:故障树分析)图、故障树或电路图等图表形式记载,也可以用运动方程式或浴缸曲线等公式记载,也可以用汇编语言或源代码这样的机器语言记载。通过图3所示的处理器20执行存储于存储器21的软件程序,从而模型变更提议部10实现作为处理器20的功能。
在分析事例存储部3中,存储有分析对象数据、该分析对象数据的分析目的及数据属性、分析方法作为分析事例。而且,在分析方法为物理模型库解析方法的情况下,物理模型的变更信息也存储为分析事例。具体而言,当在用户对某物理模型施加变更(追加、修正)后使用变更后的物理模型进行数据分析的情况下,不仅实际用于数据分析的变更后的物理模型作为变更信息存储于分析事例存储部3,变更前的物理模型也作为变更信息存储于分析事例存储部3。
以上说明的内容以外的数据分析方法候选决定装置14的结构与实施方式1的数据分析方法候选决定装置11的结构相同。
<C-2.动作>
图13是示出数据分析方法候选决定装置14的动作的流程图。步骤S11~15、S16与实施方式1相同,但与实施方式1不同的方面在于在步骤S15与步骤S16之间追加新的步骤S18。当用分析方法候选决定部4决定分析对象数据的分析方法候选时(步骤S15),在该分析方法候选包括物理模型库解析方法的情况下,模型变更提议部10提议物理模型的变更(步骤S18)。
图14是示出图13的步骤S18中的模型变更提议部10的动作的流程图。仅当在分析事例存储部3中存储有物理模型的变更信息的情况下执行该流程。
首先,判定在图13的步骤S15中分析方法候选决定部4决定的分析方法候选是否包括物理模型库解析方法(步骤S181)。若不包括物理模型库解析方法,则结束模型变更提议部10的处理。若包括物理模型库解析方法,则转移至步骤S182。
在步骤S182中,使用与分析方法候选包括的物理模型数据库解析方法相同的分析方法,从存储于分析事例存储部3的分析事例中提取记载有物理模型的变更信息的分析事例。
接着,判断在分析事例存储部3中是否存储有用变更信息示出的变更后的物理模型数据(步骤S183)。然后,若在分析事例存储部3中存在变更后的物理模型数据,则向用户提议活用该变更后的物理模型(步骤S184)。例如,当用户在过去对分析对象数据“公共交通工具的乘车历史”进行分析时,将使用乘客模型A作为物理模型的分析方法推荐为分析方法候选。与此相对,在用户利用对乘客模型A施加进行某些修正或追加新的乘客模型等变更而成的乘客模型B进行数据分析的情况下,在分析事例存储部3中,除了分析对象数据、分析目的、实际使用的分析方法(乘客模型B)之外,还记录有变更前的乘客模型A。之后,当在其他数据分析中分析方法候选决定部4将使用乘客模型A作为物理模型的分析方法决定为分析方法候选的情况下,向用户提议使用乘客模型B代替乘客模型A。
在步骤S183中,若在分析事例存储部3中不存在变更后的物理模型数据,则向用户提议用于进行物理模型的变更(修正或追加)的方法。例如,在针对“商品购买状况分析”这样的分析目的,使用购买顾客模型作为物理模型的分析方法为分析方法候选的情况下,提议用于修正适合于想分析购买顾客模型的商品种类的划分或者追加“父母代替孩子购买”这样的购买顾客模型的方法。
<C-3.效果>
在实施方式3的数据分析方法候选决定装置14中,存储于分析事例存储部3的分析事例数据包括:用户使用对某物理模型施加变更而成的物理模型进行数据解析的分析事例的变更前的物理模型的信息。并且,数据分析方法候选决定装置14在实施方式1的数据分析方法候选决定装置11的结构的基础之上,具备模型变更提议部10。在分析方法候选为使用物理模型的解析方法且在分析方法候选中使用的物理模型与分析事例中的变更前的物理模型相同的情况下,模型变更提议部10提议物理模型的变更。因此,能够提高与物理模型库解析方法相关的分析精度。
<D.实施方式4>
<D-1.结构>
图17是示出实施方式4的数据分析方法候选决定装置15的结构的框图。数据分析方法候选决定装置15在实施方式1的数据分析方法候选决定装置11的结构的基础之上,具备已有数据活用提议部101。
在用户选定的分析对象数据(第一分析对象数据)不具有执行分析方法候选决定部4决定的分析方法所需的数据属性的情况下,已有数据活用提议部101从保存于分析对象数据存储部2的过去的分析对象数据中,提取具有所需的数据属性的分析对象数据(第二分析对象数据),并向用户提议活用第二分析对象数据。通过图3所示的处理器20执行存储于存储器21的软件程序,从而已有数据活用提议部101实现作为处理器20的功能。
在分析事例存储部3中,存储有用户初期选定的分析对象数据、该分析对象数据的分析目的及数据属性、分析方法作为分析事例。另外,在分析事例存储部3中,通过由已有数据活用提议部101提议而用户追加选定的分析对象数据也存储为分析事例。也可以按选定定时对分析对象数据附加标志并将其保存于分析事例存储部3。
以上说明的内容以外的数据分析方法候选决定装置15的结构与实施方式1的数据分析方法候选决定装置11的结构相同。
<D-2.动作>
图18是示出数据分析方法候选决定装置15的动作的流程图。在图18的流程图中,步骤S11~15、S16与实施方式1相同,但与实施方式1不同的方面在于在步骤S15与步骤S16之间追加新的步骤S19。当用分析方法候选决定部4决定分析对象数据的分析方法候选时(步骤S15),当在步骤S13中取得的分析对象数据的数据属性不足以作为执行该分析方法候选所需的数据属性的情况下,已有数据活用提议部101提议分析对象数据的追加(步骤S19)。
图19是示出图18的步骤S19中的已有数据活用提议部101的动作的流程图。
首先,已有数据活用提议部101判断在图18的步骤S11中选择的分析对象数据(第一分析对象数据)是否具有执行在步骤S15中决定的分析方法候选所需的数据属性(步骤S191)。在此,作为分析对象数据不具有所需的数据属性的情况,例示以下三种情况。第一种是分析对象数据本身缺失的情况。第二种是分析对象数据的取得间隔相对于规定为所需的数据属性的数据的取得间隔较大而不能得到充分的分析结果的情况。第三种是分析对象数据的取得方法不适合于规定为所需的数据属性的数据的取得方法而不能得到充分的分析结果的情况。例如,尽管要求用传感器等直接测量到的数据但分析对象数据为加工值等情况对应于第三种情形。
在分析对象数据(第一分析对象数据)具有执行分析方法候选所需的数据属性的情况下,已有数据活用提议部101结束处理。另一方面,在分析对象数据(第一分析对象数据)不具有执行分析方法候选所需的数据属性的情况下,已有数据活用提议部101转移至步骤S192的处理。
在步骤S192中,已有数据活用提议部101使用与分析方法候选相同或包括分析方法候选的分析方法,从存储于分析事例存储部3的分析事例中提取分析目的相同或相似的分析事例。
接着,已有数据活用提议部101对提取的分析事例中的分析完成数据的数据属性与用户当前选定的分析对象数据的数据属性进行比较,从分析完成数据的数据属性提取执行分析方法候选所需的数据属性(步骤S193)。此时,作为数据属性设定有对数据的访问权限且用户没有访问权限的数据,或者,作为数据属性设定有数据的活用条件且根据与数据来源的契约而数据的沿用存在限制的数据等的数据属性可以从提取除外。另外,在该情况下,可以赋予与访问权限或数据的沿用相关的限制信息并仅出示数据属性。
然后,若拥有在步骤S193中提取的数据属性的分析对象数据存在于分析对象数据存储部2,则已有数据活用提议部101向用户提议活用拥有该提取的数据属性的分析对象数据(第二分析对象数据),即,将第二分析对象数据追加到当前已选择的分析对象数据(第一分析对象数据)并进行分析(步骤S194)。例如,在用户将分析对象数据“存在于A县B市C街D巷的一般家庭的消耗电量”追加到分析对象数据“分析对象期间的工作日/休息日划分”并进行分析时,出示“k-means法”作为分析方法候选,用户决定使用该分析方法候选。此时,在分析事例存储部3中存在如下事例:其他用户使用“k-means法”,将分析对象数据“大厦的消耗电量”追加到分析对象数据“分析对象期间的工作日/休息日划分”、“分析对象期间的气象观测数据”及“分析对象期间的工作人员的大厦内进出历史”并进行分析。其中,在分析对象数据“分析对象期间的工作人员的大厦内进出历史”中,作为数据属性,示出不能进行数据的二次利用。在该情况下,在步骤S194中,已有数据活用提议部101可以向用户提议追加利用分析对象数据“分析对象期间的气象观测数据”。此时,已有数据活用提议部101可以向用户出示:虽然期望追加利用分析对象数据“分析对象期间的气象观测数据”、分析对象数据“分析对象期间的工作人员的大厦内进出历史”,但作为分析对象数据“分析对象期间的工作人员的大厦内进出历史”的数据属性,示出不能进行数据的二次利用。
此外,在上述说明中,作为分析对象数据不具有应用分析方法候选所需的数据属性的情况,例示三种情况,并说明了在这种情况下提议追加分析对象数据。但是,即使在分析对象数据具有应用分析方法候选所需的数据属性的情况下,在以下情况下也可以提议追加分析对象数据。第一种是如下情况:虽然具有所需的数据属性,但选择了不能得到最佳结果的条件的分析对象数据。第二种是如下情况:虽然当前选择的分析对象数据也能够进行分析,但通过追加新的分析对象数据,能够得到更准确的分析结果。
<D-3.效果>
实施方式4的数据分析方法候选决定装置15具备已有数据活用提议部101,所述已有数据活用提议部101在第一分析对象数据不具有分析方法候选决定部4针对第一分析对象数据决定的分析方法所需的数据属性的情况下,提议活用具有所需的数据属性的第二分析对象数据。这样,通过提议追加具有实施分析方法候选所需的数据属性的其他分析对象数据,从而能够提高执行分析方法候选的情况下的分析精度。
另外,第二分析对象数据具有与数据的沿用可否相关的数据属性,已有数据活用提议部101在向用户提议活用第二分析对象数据时,向用户提供与分析完成数据的沿用可否相关的信息。因此,在已有数据活用提议部101提议的第二分析对象数据为不可沿用的数据的情况下,用户能够研究可沿用的代替数据的获取,通过追加代替数据,从而能够提高执行分析方法候选的情况下的分析精度。
<E.实施方式5>
<E-1.结构>
图20是示出实施方式5的数据分析方法候选决定装置16的结构的框图。数据分析方法候选决定装置16在实施方式1的数据分析方法候选决定装置11的结构的基础之上,具备分析方法重新确认提议部102。
分析方法重新确认提议部102在对存储于分析事例存储部3的分析事例追加分析目的相同或相似的事例时,运算每种分析方法的采用率,在检测到满足事先设定的分析方法重新确认条件的采用率的分析方法的情况下,向用户提议变更分析方法。通过图3所示的处理器20执行存储于存储器21的软件程序,从而分析方法重新确认提议部102实现作为处理器20的功能。
优选的是,在分析事例存储部3中,与分析事例一起存储有登记或更新分析事例的用户的信息、分析事例的查询负责人的信息、分析方法的开发者或提供者的信息、分析事例的当前的活用状况等。在分析事例的当前的活用状况中,除了产品应用完成、正在试行或中止等使用状况以外,还可以包括外部事例等。
以上说明的内容以外的数据分析方法候选决定装置16的结构与实施方式1的数据分析方法候选决定装置11的结构相同。
<E-2.动作>
图21是示出数据分析方法候选决定装置16的动作的流程图。步骤S11~16与实施方式1相同,与实施方式1不同的方面在于在步骤S16之后追加新的步骤S20。用分析方法候选决定部4决定分析对象数据的分析方法候选(步骤S15),当向用户出示分析方法候选时(步骤S16),向分析方法重新确认提议部102通知分析目的和每种分析方法的平均相似度,分析方法重新确认提议部102对存储于分析事例存储部3的过去的分析事例判定是否需要提议分析方法的重新确认(步骤S20)。
图22是示出图20的步骤S20中的分析方法重新确认提议部102的动作的流程图。
首先,分析方法重新确认提议部102接收分析目的和在图21的步骤S15中分析方法候选决定部4算出的每种分析方法的平均相似度(步骤S201)。接着,判定分析方法是否达到重新确认基准(步骤S202)。重新确认基准例如是平均相似度超过阈值或成为阈值以下。另外,也可以是,分析方法重新确认提议部102将每种分析方法的平均相似度的接收历史保持一定期间或一定接收件数等,在每种分析方法的接收率超过阈值的情况下,或者接收日期和时间与平均相似度的相关度在一定期间以上示出增加倾向或减少倾向等情况下,判断为达到重新确认基准。若分析方法没有达到重新确认基准,则分析方法重新确认提议部102结束处理。另一方面,若分析方法达到重新确认基准,则分析方法重新确认提议部102转移至步骤S203的处理。
在步骤S203中,分析方法重新确认提议部102从分析事例存储部3提取与在步骤S201中接收到的分析目的相同或相似的过去的分析事例。此时,也可以是,限定提取件数以便从登记日期和时间或更新日期和时间较新的事例中提取N件(例如N=1000)。另外,也可以是,限定提取期间以便仅提取登记日期和时间或更新日期和时间为最近的N年(例如N=5)的分析事例。
接着,算出在提取的分析事例中使用的分析方法的采用率(步骤S204)。采用率P例如能够根据P=Nx/N算出。其中,N:提取件数,Nx:方法X的采用数。此时,当在分析事例存储部中存储有分析事例的当前的活用状况的情况下,可以根据活用状况对分析事例进行加权。即,对于产品应用完成的分析事例增大权重,对于成为产品化中止的分析事例等减小权重。或者,也可以根据分析事例的登记日期和时间或更新日期和时间进行加权。即,登记日期和时间或更新日期和时间越新的分析事例越增大权重,登记日期和时间或更新日期和时间越早的分析事例越减小权重。
接着,若有采用率与分析方法重新确认条件对应的分析方法,则分析方法重新确认提议部102提议重新确认分析事例(步骤S205)。例如,在聚类方法中,在k-means法的采用率超过阈值的情况下,向未使用k-means法的分析事例的登记、更新用户、负责人、分析方法的开发者或提供者等(以下,仅称为“用户等”)提议将分析方法重新确认为k-means法。或者,在聚类方法中,当k-means法的采用率低于基准值时,向使用k-means法的分析事例的用户等提议将分析方法重新确认为与k-means法不同的方法。在该情况下,也可以向用户等出示与采用率一起按采用率从高到低的顺序示出分析方法的列表。
<E-3.效果>
在实施方式5的数据分析方法候选决定装置16中,具备分析方法重新确认提议部102,所述分析方法重新确认提议部102对分析目的与利用分析方法候选决定部4决定分析方法的分析对象数据相同或相似的分析事例提议分析方法的重新确认。这样,通过算出过去的分析事例中的每种分析方法的采用率,并基于采用率提议分析方法的重新确认,从而能够对过去的分析事例也实施新的分析方法候选等的提议,能够提高执行分析方法的情况下的分析精度。
此外,本发明能够在其发明的范围内将各实施方式自由地组合,或者对各实施方式适当地进行变形、省略。
详细地说明了本发明,但上述说明在全部的技术方案中为例示,本发明不限定于此。应理解为,能够在不脱离本发明的范围的情况下设想到未被示例的无数个变形例。
附图标记的说明
2分析对象数据存储部,3分析事例存储部,4分析方法候选决定部,5输入部,6输出部,7评价取得部,8推荐事例存储部,9属性追加部,10模型变更提议部,11、12、13、14、15、16数据分析方法候选决定装置,20处理器,21存储器,22记录介质,101已有数据活用提议部,102分析方法重新确认提议部。

Claims (13)

1.一种数据分析方法候选决定装置,所述数据分析方法候选决定装置是决定应进行数据分析的分析对象数据的分析方法候选的数据分析方法候选决定装置,其中,所述数据分析方法候选决定装置具备:
分析事例存储部(3),所述分析事例存储部(3)将使在过去进行了数据分析的多个分析完成数据中的每一个关联数据属性及分析方法而成的数据存储为分析事例;
分析对象数据存储部(2),所述分析对象数据存储部(2)存储所述分析对象数据的数据属性的信息;以及
分析方法候选决定部(4),所述分析方法候选决定部(4)算出数据属性相似度,并基于所述数据属性相似度从所述分析完成数据的分析方法中决定至少一个分析方法作为所述分析对象数据的分析方法候选,所述数据属性相似度是所述分析对象数据的数据属性与所述分析完成数据的数据属性的相似度。
2.根据权利要求1所述的数据分析方法候选决定装置,其中,
所述分析事例存储部(3)存储所述多个分析完成数据中的每一个的分析目的的信息,
所述分析对象数据存储部(2)存储所述分析对象数据的分析目的的信息,
所述分析方法候选决定部(4)算出所述分析对象数据的分析目的与所述分析完成数据的分析目的的相似度作为分析目的相似度,基于所述分析目的相似度及所述数据属性相似度算出所述分析对象数据与所述分析完成数据的综合相似度,基于所述综合相似度,从所述分析完成数据的分析方法中决定至少一个分析方法作为所述分析对象数据的分析方法候选。
3.根据权利要求1或2所述的数据分析方法候选决定装置,其中,
所述分析完成数据及所述分析对象数据的数据属性至少包括数据取得间隔、数据取得方法、是实际值还是预测值还是加工值的类别中的任意种。
4.根据权利要求2所述的数据分析方法候选决定装置,其中,
所述分析方法候选决定部(4)基于所述分析对象数据的分析目的的字符串和所述分析完成数据的分析目的的字符串,算出所述分析目的相似度。
5.根据权利要求2所述的数据分析方法候选决定装置,其中,
所述分析方法候选决定部(4)基于用层级构造记载的分析对象数据的分析目的和用层级构造记载的分析完成数据的分析目的,算出分析目的相似度。
6.根据权利要求2所述的数据分析方法候选决定装置,其中,
在用源代码或中间代码记载所述分析对象数据的分析目的及所述分析完成数据的分析目的的情况下,
所述分析方法候选决定部(4)基于一致率或一致的处理步骤的连续性,算出所述分析对象数据的分析目的的所述源代码或所述中间代码所示的处理步骤与所述分析完成数据的分析目的的所述源代码或所述中间代码所示的处理步骤的相似度作为所述分析目的相似度。
7.根据权利要求2、4至6中任一项所述的数据分析方法候选决定装置,其中,
所述分析方法候选决定部(4)按分析方法算出使用该分析方法得到的所述分析完成数据与所述分析对象数据的所述综合相似度的平均值,并将基于所述综合相似度的平均值选择的分析方法决定为所述分析方法候选。
8.根据权利要求1至7中任一项所述的数据分析方法候选决定装置,其中,所述数据分析方法候选决定装置还具备:
评价取得部(7),所述评价取得部(7)取得用户对所述分析方法候选的评价信息;以及
推荐事例存储部(8),所述推荐事例存储部(8)将关联所述分析对象数据的数据属性、所述分析对象数据的所述分析方法候选及对所述分析方法候选的所述评价信息而成的数据存储为推荐事例。
9.根据权利要求8所述的数据分析方法候选决定装置,其中,
所述数据分析方法候选决定装置还具备属性追加部(9),所述属性追加部(9)从所述评价取得部(7)取得的所述评价信息提取所述分析方法候选的不采用理由,并将与所述不采用理由对应的项目追加到所述数据属性的项目。
10.根据权利要求1至9中任一项所述的数据分析方法候选决定装置,其中,
所述分析事例存储部(3)存储用户使用对某物理模型施加变更而成的物理模型进行数据解析的分析事例的变更前的物理模型的信息,
所述数据分析方法候选决定装置还具备模型变更提议部(10),所述模型变更提议部(10)在所述分析方法候选为使用物理模型的解析方法且在所述分析方法候选中使用的物理模型与所述分析事例中的变更前的物理模型相同的情况下提议变更所述物理模型。
11.根据权利要求1至10中任一项所述的数据分析方法候选决定装置,其中,
所述数据分析方法候选决定装置还具备已有数据活用提议部(101),所述已有数据活用提议部(101)在所述分析对象数据中的第一分析对象数据不具有所述分析方法候选决定部(4)对所述第一分析对象数据决定的分析方法所需的数据属性的情况下,向用户提议活用所述分析对象数据中的具有所述所需的数据属性的第二分析对象数据。
12.根据权利要求11所述的数据分析方法候选决定装置,其中,
所述第二分析对象数据具有与数据的沿用可否相关的数据属性,
所述已有数据活用提议部(101)在向用户提议活用所述第二分析对象数据时,向用户提供与所述第二分析对象数据的沿用可否相关的信息。
13.根据权利要求1至12中任一项所述的数据分析方法候选决定装置,其中,
所述数据分析方法候选决定装置还具备分析方法重新确认提议部(102),所述分析方法重新确认提议部(102)对分析目的与利用所述分析方法候选决定部(4)决定分析方法候选的所述分析对象数据相同或相似的所述分析事例提议分析方法的重新确认。
CN201780007854.4A 2016-03-28 2017-01-17 数据分析方法候选决定装置 Pending CN108885628A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016063215 2016-03-28
JP2016-063215 2016-03-28
PCT/JP2017/001371 WO2017168967A1 (ja) 2016-03-28 2017-01-17 データ分析手法候補決定装置

Publications (1)

Publication Number Publication Date
CN108885628A true CN108885628A (zh) 2018-11-23

Family

ID=59964054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780007854.4A Pending CN108885628A (zh) 2016-03-28 2017-01-17 数据分析方法候选决定装置

Country Status (3)

Country Link
JP (1) JP6472573B2 (zh)
CN (1) CN108885628A (zh)
WO (1) WO2017168967A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080128A (zh) * 2019-12-17 2020-04-28 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种火电站金属设备大数据分析和可靠性评价管理系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6842405B2 (ja) * 2017-12-18 2021-03-17 株式会社日立製作所 分析支援方法、分析支援サーバ及び記憶媒体
US11042786B2 (en) 2018-03-30 2021-06-22 Mitsubishi Electric Corporation Learning processing device, data analysis device, analytical procedure selection method, and recording medium
CN113961556A (zh) * 2020-07-21 2022-01-21 日本电气株式会社 用于信息处理的方法、装置、设备和存储介质
JP7469730B2 (ja) 2021-02-16 2024-04-17 日本電信電話株式会社 データ分析方法選択装置、方法及びプログラム
JP7369320B1 (ja) 2023-07-14 2023-10-25 コリニア株式会社 情報処理装置、方法、プログラム、およびシステム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157896A (ja) * 2003-11-27 2005-06-16 Mitsubishi Electric Corp データ分析支援システム
JP2010205218A (ja) * 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
US20150082219A1 (en) * 2013-09-19 2015-03-19 Oracle International Corporation Contextualized report building
CN104603779A (zh) * 2012-08-31 2015-05-06 日本电气株式会社 文本挖掘设备、文本挖掘方法和计算机可读记录介质
CN104714998A (zh) * 2013-12-17 2015-06-17 国际商业机器公司 用于基于上下文在数据分析中处理推荐的方法和系统
CN104919458A (zh) * 2013-01-11 2015-09-16 日本电气株式会社 文本挖掘设备、文本挖掘系统、文本挖掘方法和记录介质
JP2016029516A (ja) * 2014-07-25 2016-03-03 株式会社日立製作所 データ分析方法、及びデータ分析システム
CN106469202A (zh) * 2016-08-31 2017-03-01 杭州探索文化传媒有限公司 一种影视大数据平台的数据分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204991A (ja) * 1992-01-30 1993-08-13 Hitachi Ltd 時系列データ検索方法およびこれを用いた検索システム
JPH07198789A (ja) * 1993-12-28 1995-08-01 Mitsubishi Denki Semiconductor Software Kk 特性解析装置およびこの特性解析装置において用いられる特性解析方法
JPH11161498A (ja) * 1997-11-26 1999-06-18 Hitachi Ltd 知識情報の分析方法及び知識情報処理システム及び記憶媒体
JP2014202718A (ja) * 2013-04-09 2014-10-27 株式会社日立ハイテクノロジーズ クロマトグラフデータ処理装置、それを用いた方法、液体クロマトグラフ装置、および、プログラム
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157896A (ja) * 2003-11-27 2005-06-16 Mitsubishi Electric Corp データ分析支援システム
JP2010205218A (ja) * 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
CN104603779A (zh) * 2012-08-31 2015-05-06 日本电气株式会社 文本挖掘设备、文本挖掘方法和计算机可读记录介质
CN104919458A (zh) * 2013-01-11 2015-09-16 日本电气株式会社 文本挖掘设备、文本挖掘系统、文本挖掘方法和记录介质
US20150082219A1 (en) * 2013-09-19 2015-03-19 Oracle International Corporation Contextualized report building
CN104714998A (zh) * 2013-12-17 2015-06-17 国际商业机器公司 用于基于上下文在数据分析中处理推荐的方法和系统
JP2016029516A (ja) * 2014-07-25 2016-03-03 株式会社日立製作所 データ分析方法、及びデータ分析システム
CN106469202A (zh) * 2016-08-31 2017-03-01 杭州探索文化传媒有限公司 一种影视大数据平台的数据分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨清华: ""探讨统计数据分析体系中统计分析方法的选择与比较"", 《企业导报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080128A (zh) * 2019-12-17 2020-04-28 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种火电站金属设备大数据分析和可靠性评价管理系统

Also Published As

Publication number Publication date
JP6472573B2 (ja) 2019-02-20
WO2017168967A1 (ja) 2017-10-05
JPWO2017168967A1 (ja) 2018-07-19

Similar Documents

Publication Publication Date Title
CN108885628A (zh) 数据分析方法候选决定装置
CN109902708A (zh) 一种推荐模型训练方法及相关装置
CN109345302A (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
Kaisler et al. Advanced Analytics--Issues and Challenges in a Global Environment
EP4083857A1 (en) Information prediction model training method and apparatus, information prediction method and apparatus, storage medium, and device
Verdhan Supervised learning with python
Amr Hands-On Machine Learning with scikit-learn and Scientific Python Toolkits: A practical guide to implementing supervised and unsupervised machine learning algorithms in Python
Evans Uncertainty and error
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
Tawosi et al. Investigating the effectiveness of clustering for story point estimation
CN114219562A (zh) 模型的训练方法、企业信用评估方法和装置、设备、介质
CN112214531B (zh) 跨数据、信息、知识多模态的特征挖掘方法及组件
Lasso et al. Towards an alert system for coffee diseases and pests in a smart farming approach based on semi-supervised learning and graph similarity
KR102406375B1 (ko) 원천 기술의 평가 방법을 포함하는 전자 장치
CN112070559A (zh) 状态获取方法和装置、电子设备和存储介质
Németh et al. Visualization of movie features in collaborative filtering
WO2023051085A1 (zh) 对象识别方法、装置、设备、存储介质和程序产品
Shukla et al. Total Revenue Prediction of A Sports Management Application: Grook Using Machine Learning Models
KR20210126473A (ko) 소비 데이터와 소셜 데이터를 이용한 소비동향 예측 지수 생성 방법과 이를 적용한 소비동향 예측 지수 생성 시스템 및 이를 위한 컴퓨터 프로그램
Thanh Trieu et al. Interpretable Machine Learning for Meteorological Data
Niture Predictive analysis of YouTube trending videos using Machine Learning
CN112632275A (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
Kilinc et al. Do machine learning and business analytics approaches answer the question of ‘will your Kickstarter project be successful?
Haidn Flight recommender system using implicit feedback

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181123