CN110362303A - 数据探索方法和系统 - Google Patents

数据探索方法和系统 Download PDF

Info

Publication number
CN110362303A
CN110362303A CN201910636826.XA CN201910636826A CN110362303A CN 110362303 A CN110362303 A CN 110362303A CN 201910636826 A CN201910636826 A CN 201910636826A CN 110362303 A CN110362303 A CN 110362303A
Authority
CN
China
Prior art keywords
research
program code
output program
variable
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910636826.XA
Other languages
English (en)
Other versions
CN110362303B (zh
Inventor
林宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yu Technology Co Ltd
Original Assignee
Shenzhen Yu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yu Technology Co Ltd filed Critical Shenzhen Yu Technology Co Ltd
Priority to CN201910636826.XA priority Critical patent/CN110362303B/zh
Publication of CN110362303A publication Critical patent/CN110362303A/zh
Priority to US16/672,439 priority patent/US11354333B2/en
Application granted granted Critical
Publication of CN110362303B publication Critical patent/CN110362303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/35Creation or generation of source code model driven

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

本申请涉及一种数据探索方法和系统,所述方法包括:根据输入信息从指标库中选择指定的研究指标;获取数据集、研究变量,以及所述研究变量对应的研究参数;从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;生成所述探索流程的输出程序代码和输出程序说明;执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。本申请的方案只需要提交待处理的数据集,并给出探索过程的研究指标、研究参数等,就能自动输出程序代码并调用输出程序代码对数据进行探索处理;极大免去研究人员编写代码的劳动,提高数据探索的效率。

Description

数据探索方法和系统
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据探索方法和系统。
背景技术
随着现代科学技术的进步,信息技术的快速发展和应用,使得全行业信息化的程度全面提升,整个社会的数据正在以前所未有的速度快速增长,呈现出数量大、种类多、更新快的特点,逐渐成为各行各业的重要生产要素之一。云计算、物联网、移动终端及可穿戴设备高度发达与融合,使得这种发展趋势变得越来越快。
与之对应的是,数据分析的难度和复杂度在不断增加。丰富的数据量蕴含着大量的宝贵信息,但这样的数据需要复杂的统计分析,才能从中提取到有意义的结果。它们不仅促进了统计学,尤其是多元统计分析的应用,如聚类和判别分析、主成分分析、因子分析等方法得到了广泛的应用。同时,它们也带来了机器学习、深度学习等人工智能(AI)技术的快速发展和应用,如各类深度学习网络框架:无监督预训练网络、卷积神经网络、循环神经网络、递归神经网络等。大量的多元统计方法、拥有大量参数和层的神经网络等方法的使用,使得统计方法变得越来越复杂和多样化,各类统计方法联合使用、相互比较的需求在不断增加。
各类带有编程功能的相关程序,如Python、JAVA、R、Matlab、SAS、SQL、C、Perl等,逐渐成为科研与日常统计分析的工具,更精确的计算方法也得以大规模的应用。新的带有编程功能的相关程序,如面向科学计算的高性能动态语言Julia等,陆续出现。这些工具大量运用于科研和生产,让科研和生产线上的工作人员摆脱了手工计算,而且还可以快速发现过程异常,促进了科研和产品质量的提升。但是,这也导致工作人员需要花费大量的时间和精力来学习和提升,导致学习和应用成本大大的提高。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种数据探索方法和系统。
根据本申请实施例的第一方面,提供一种数据探索方法,包括:
根据输入信息从指标库中选择指定的研究指标;
获取数据集、研究变量,以及所述研究变量对应的研究参数;
从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;
根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;
调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;
执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。
进一步地,所述生成所述探索流程的输出程序代码和输出程序说明,包括:
所述探索流程对应的程序代码调用所述探索流程中的方法或图像,调用所述方法对应的程序代码、所述图像对应的程序代码,生成输出程序代码和输出程序说明。
进一步地,所述方法还包括:
根据输入信息从设计库中选择指定的研究设计;
从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。
进一步地,所述方法还包括:
根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;
调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;
分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;
执行合并后的输出程序代码,对所述数据集进行探索;
将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。
进一步地,所述将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出,包括:
获取探索流程的各个研究指标的探索结果;
获取对比流程的各个研究指标的探索结果;
将各个研究指标的探索流程的探索结果与对比流程的探索结果进行比较;
将不同的探索结果按照不同的格式进行显示输出。
进一步地,所述获取数据集、研究变量,以及所述研究变量对应的研究参数,包括:
获取用户输入的数据集和研究变量;
获取用户指定的研究变量所对应的变量库中的变量;
获取用户指定的研究变量或用户指定的研究变量所对应的变量库中的变量所对应的参数信息;
根据参数信息从参数库中确定对应的研究参数。
进一步地,所述研究变量还包括:
获取用户指定的研究变量所对应的变量库中的变量,使变量具有唯一的名称、实现变量快速重命名,以用于后续调用和整合多个数据集、生成输出程序代码和对比结果。
根据本申请实施例的第二方面,提供一种数据探索系统,包括:
数据库,用于存储预设的指标库、参数库和流程库;所述指标库存储有多种不同的研究指标;所述参数库存储有多种不同的研究参数;所述流程库存储有多种不同的研究流程,以及每一种所述研究流程所对应的程序代码;
指标选择模块,用于根据输入信息从指标库中选择指定的研究指标;
数据获取模块,用于获取数据集、研究变量,以及所述研究变量对应的研究参数;
流程匹配模块,用于从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;
流程选择模块,用于根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;
程序输出模块,用于调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;
探索输出模块,用于执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。
进一步地,数据库还可用于存储预设的方法库、图像库。所述方法库存储有多种不同的统计方法;所述图像库存储有多种不同的图像;所述方法库和图像库分别存储有每一种所述统计方法和图像所对应的程序代码。
进一步地,所述数据库还用于存储预设的变量库,所述变量库存储有多种不同的研究变量;
相应地,数据获取模块还用于:
获取所述研究变量对应的变量库中的变量;
所述数据库还用于存储预设的设计库,所述设计库存储有多种不同的研究设计;相应地,所述系统还包括:
设计选择模块,用于根据输入信息从设计库中选择指定的研究设计;
所述流程匹配模块还用于:
从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。
进一步地,所述流程选择模块还用于:
根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;
所述程序输出模块还用于:
调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;
分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;
所述探索输出模块还用于:
执行合并后的输出程序代码,对所述数据集进行探索;
将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。
根据本申请实施例的第三方面,提供一种计算设备,所述计算设备包括:处理器和存储器;
所述存储器用于存储计算机程序指令;
所述计算设备运行时,所述处理器执行所述存储器中的计算机程序指令,以执行如上所述的任意一种方法的操作步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请的方案只需要提交待处理的数据集和研究变量,并给出探索过程的研究指标、研究参数等,就能自动从预先构建的流程库中匹配出所需的探索流程,并调用预先存储的程序代码对数据进行探索程序代码生成和处理;本方案能够极大免去研究人员编写代码的劳动,提高数据探索的效率;并且探索过程完全标准化、可重复,还能方便地选取多种数据集和探索方法进行组合和对比结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种数据探索方法的流程图。
图2是根据另一示例性实施例示出的一种数据探索方法的流程图。
图3是根据一示例性实施例示出的一种数据探索系统的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和系统的例子。
为至少在一定程度上克服相关技术中存在的问题,即数据量大、更新快,分析方法复杂多样且需要联合使用、相互比较,编程工具多样且学习和应用成本高的问题,本发明的目的之一在于,本申请的方案只需要提交待处理的数据集和研究变量,并给出探索过程的研究指标、研究参数等,就能自动从预先构建的流程库中匹配出所需的探索流程,并调用预先存储的程序代码对数据进行探索程序代码生成和处理。(1)本方案能够极大地减少研究人员编写程序代码的劳动,实现自动化或半自动化编程(获取数据部分可提交已编写好的程序代码),提高数据探索的效率;(2)并且探索过程完全标准化、可重复,探索过程使用的方法、图像均可按照特定顺序进行,保证按要求准确实现探索过程;(3)同时还能方便地选取多种数据集、探索流程进行组合和对比,得到多个结果及对比结果;(4)能方便实现多种数据集整合、标准化,方便后续探索利用。
图1是根据一示例性实施例示出的一种数据探索方法的流程图。该方法包括以下步骤:
步骤S1:根据输入信息从指标库中选择指定的研究指标;
步骤S2:获取数据集、研究变量,以及所述研究变量对应的研究参数;
步骤S3:从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;
步骤S4:根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;
步骤S5:调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;
步骤S6:执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。
本申请的方案只需要提交待处理的数据集和研究变量,并给出探索过程的研究指标、研究参数等,就能自动从预先构建的流程库中匹配出所需的探索流程,并调用预先存储的程序代码对数据进行探索程序代码的生成和处理;本方案能够极大免去研究人员编写代码的劳动,提高数据探索的效率;并且探索过程完全标准化、可重复,还能方便地选取多个数据集和多种探索方法进行组合。
一些实施例中,所述生成所述探索流程的输出程序代码和输出程序说明,包括:
所述探索流程对应的程序代码调用所述探索流程中的方法或图像,调用所述方法对应的程序代码、所述图像对应的程序代码,生成输出程序代码和输出程序说明。
参照图2,一些实施例中,所述方法还包括:
根据输入信息从设计库中选择指定的研究设计;
从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。
一些实施例中,所述方法还包括:
根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;
调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;
分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;
执行合并后的输出程序代码,对所述数据集进行探索;
将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。
一些实施例中,所述将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出,包括:
获取探索流程的各个研究指标的探索结果;
获取对比流程的各个研究指标的探索结果;
将各个研究指标的探索流程的探索结果与对比流程的探索结果进行比较;
将不同的探索结果按照不同的格式进行显示输出。
一些实施例中,所述获取数据集、研究变量,以及所述研究变量对应的研究参数,包括:
获取用户输入的数据集和研究变量;
获取用户指定的研究变量所对应的变量库中的变量;
获取用户指定的研究变量或用户指定的研究变量所对应的变量库中的变量所对应的参数信息;
根据参数信息从参数库中确定对应的研究参数。
一些实施例中,所述获取数据集、研究变量,以及所述研究变量对应的研究参数,包括:
获取用户指定的研究变量所对应的变量库中的变量。
如此能够使变量具有唯一的名称、实现变量快速重命名,以用于后续调用和整合多个数据集、生成输出程序代码和对比结果。
为进一步阐明本申请的方案,对该方法各个步骤的细节做进一步说明。
1.选择研究指标。获取用户所选择的预存储研究指标,得到一个或多个研究指标,记为r_i,i=1,2,......。
进一步地,预存储研究指标与预存储流程呈现为一对多的关系,即任意一个预存储研究指标可以存在于多个预存储流程中。
进一步地,预存储研究指标为统计方法得到的结果,包括但不限于,均数、标准差、AIC、BIC、各类回归模型系数和P值、各类比较的P值、曲线下面积、灵敏度、特异度等,这些统计方法得到的结果用于生成研究结果。
2.选择研究设计。获取用户所选择的预存储研究设计,得到一个或多个研究设计,记为e_i,i=1,2,......。
进一步地,预存储研究设计与预存储流程呈现为一对多的关系,即任意一个预存储研究设计可以存在于多个预存储流程中。
进一步地,研究设计为统计学中的研究设计方案,包括但不限于,完全随机设计、系统分组设计、裂区设计、序贯试验设计、重复测量设计,用于匹配对应的预存储流程。
3.获取数据集和研究变量,选择研究参数。获取用户所输入的数据集、研究变量,并选择研究变量对应的预存储参数,(1)得到一个或多个数据集,记为d_i,i=1,2,......;(2)得到一个或多个数据集中的一个或多个研究变量,记为v_ij,i=1,2,......;j=1,2,......;(3)得到一个或多个数据集中的一个或多个预存储参数,记为p_ik,i=1,2,......;k=1,2,......。(4)得到一个或多个数据集中的研究变量对应的预存储变量,记为v2ij,i=1,2,......;j=1,2,......。
进一步地,预存储研究变量包含唯一名称、别名、序号、类型(连续数值、分类数值、等级数值)、分类信息,以用于后续调用和整合多个数据集、对比结果,使一个或多个数据集中相同的变量有唯一名称、实现快速重命名,避免因为变量名不规范导致程序代码无法运行。
进一步地,多个数据集中共有的研究变量对应的预存储变量,可通过程序代码形式合并生成新的数据集,供后续探索和对比使用。
进一步地,预存储参数将得到研究变量的任意组合,用于后续流程程序代码运行,即为流程程序代码的运行时需要的参数。也用于匹配得到包含这些参数的预存储流程。
进一步地,任意一个研究变量可以对应一个预存储研究变量,用于生成包含有预存储研究变量的数据集,用于后续分析。
进一步地,任意一个预存储参数可以包含一个或多个研究变量。
进一步地,预存储参数与预存储流程呈现为一对多的关系,即任意一个预存储参数可以存在于多个预存储流程中。
进一步地,数据集可以以文件形式、数据库形式、或者程序代码形式输入。
进一步地,程序代码可以包含一种或多种编程语言,也可以由一种或多种编程语言组合而成。
进一步地,程序代码可以单独运行,也可以按特定顺序组合运行。
4.匹配预存储流程。在选择研究指标、参数后,自动匹配包含有对应的研究指标和参数的预存储流程得到一个或多个预存储流程记为f_i,i=1,2,.....。
进一步地,选择研究设计后,进一步匹配包含有对应研究设计的预存储流程。
进一步地,预存储流程包括所述流程的信息、节点、路径、方法、图像、参数、指标和程序代码。
信息是指对统计方法的原理和组合等说明、图像说明、数学计算公式、阈值判断公式等信息,用于输出程序说明。
节点是指使用的统计方法和图像,包括方法的名称,用于得到研究指标结果;又或者是阈值判断;图像的名称,用于显示研究指标结果。路径是指从统计方法、图像节点或者阈值判断节点到下一个统计方法、图像节点或者阈值判断节点。程序代码是指用于完成统计方法节点的数学计算公式、图像节点的图像制作、阈值判断节点的判断公式,以及按照路径执行的程序代码,用于执行得到输出程序代码和输出程序说明。
输出程序代码和输出程序说明,用于判断程序代码是否按照输出程序说明编写和处理。
5.选择预存储流程和数据集。进一步地,可以选择一个或多个上述匹配后的预存储流程,记为f2_i,i=1,2,......。数据集为输入得到一个或多个数据集,记为fd_i,i=1,2,......。
6.选择对比流程。进一步地,可以在一个或多个已选择的预存储流程中,选择一个或多个预存储流程作为对比流程,记为c_i,i=1,2,......。
7.生成输出程序代码和输出程序说明,获取预存储流程的操作、方法、图像和流程程序代码,生成并保存相应的输出程序代码和输出程序说明。
进一步地,预存储流程包括信息、节点、路径、方法、图像、参数、研究指标、研究设计和流程程序代码,节点和路径组成操作,方法包括预存储方法,参数包括预存储参数,研究指标包含预存储研究指标,研究设计包含预存储研究设计,流程程序代码用于执行预存储流程。
进一步地,预存储方法包括统计方法和方法程序代码,方法程序代码用于执行预存储方法。
预存储统计方法是指统计方法的原理说明(文章、图表、视频等人可以接受的方式)、数学计算公式、统计量(研究指标),用于输出程序说明。
方法程序代码是指用于完成统计方法,得到研究指标的数学计算公式的程序代码,用于被流程程序代码调用,生成输出程序代码,在输出程序代码执行后得到研究指标。
预存储图像是指各类用显示研究指标的图像的原理说明(文章、图表、视频等人可以接受的方式)、数学计算公式、统计量(研究指标),用于输出程序说明。
图像程序代码是指用于完成图像绘制,得到图像的程序代码,用于被流程程序代码调用,生成输出程序代码,在输出程序代码执行后得到图像。
流程程序代码调用方法程序代码或图像程序代码,生成输出程序代码,得到用于处理数据的全部程序代码,即输出程序代码。
进一步地,程序代码可以包含一种或多种编程语言,也可以由一种或多种编程语言组合而成。
进一步地,程序代码可以单独运行,也可以按特定顺序组合运行。
进一步地,生成输出程序说明,包括预存储流程的节点信息、路径信息、统计方法信息、图像信息,即得到用于处理数据的全部操作信息、统计方法信息,图像信息,可以以文字、图像等形式显示,用于判断输出程序代码是否按照输出程序说明编写。
进一步地,流程研究参数用于与用户选择的预存储研究参数匹配。
进一步地,流程研究指标用于与用户选择的预存储研究研究指标匹配。
进一步地,流程研究设计用于与用户选择的预存储研究研究设计匹配。
8.运行程序代码,运行输出程序代码,得到并保存相应的运行结果。
9.显示运行结果,显示预存储流程、相应的输出程序代码、输出程序说明和相应的运行结果。
进一步地,在运行结果中,各个研究指标结果自动与对比流程的研究指标结果进行比较,与对比流程研究指标结果不一致的,按照不同的格式显示,如通过改变颜色、改变字体,或者以文字、图像形式显示说明。
进一步地,多个参照对比流程的,按特定顺序逐一选择其中一个对比流程,得到其他流程与选定的对比流程研究指标的结果差别。
下面结合具体的应用场景,对本申请的方案进行拓展说明。
场景一:数据预测
1.选择研究指标。在数据预测、构建预测模型时,选择用于评价模型的研究指标。例如,在建立二分类预测模型时,选择预存储研究指标中的″AIC″、″曲线下面积″、″灵敏度″、″特异度″等研究指标来评价模型效果。
2.获取数据集和研究变量,选择研究参数。获取用户所输入的数据集和研究变量,以及研究变量对应的预存储参数。例如,用户输入了数据集,同时输入了大量的研究变量,如″是否发生癌症″、″临床特征″、″影像学特征″、″基因特征″等几百个研究变量。用户将研究变量″是否发生癌症″对应于预存储研究参数″二分类因变量″,″临床特征″、″影像学特征″、″基因特征″等几百个研究变量对应于预存储参数″自变量″。
3.匹配预存储流程。在选择研究指标和研究参数后,匹配预存储流程中包含有对应的研究指标和研究参数的流程,得到一个或多个预存储流程。例如,按照上述研究指标″曲线下面积″、″灵敏度″、″特异度″,参数″二分类因变量″和参数″自变量″,得到匹配的预存储流程有″Logistic回归模型″,″LASSO Logistic回归模型″,″随机森林模型″,″神经网络模型″等。
4.选择预存储流程和数据集。用户选择其中的一个或多个,如选择″Logistic回归模型″,同时选择使用的数据集,如用户所输入的数据集。
5.生成输出程序代码和输出程序说明,获取预存储流程的操作、方法、图像和流程程序代码,生成并保存相应的输出程序代码和输出程序说明。
6.运行程序代码,运行输出程序代码,得到并保存相应的运行结果。
7.显示运行结果,显示Logistic回归模型流程、相应的输出程序代码、输出程序说明和相应的运行结果。
场景二:多个数据、多个流程、多个结果比较(也可用于多次修改数据后结果比较)
1.选择研究指标。在数据预测、构建预测模型时,选择用于评价模型的研究指标。例如,在建立二分类预测模型时,选择预存储研究指标中的″AIC″、″曲线下面积″、″灵敏度″、″特异度″等研究指标来评价模型效果。
2.获取数据集和研究变量,选择研究参数。获取用户所输入的数据集和研究变量,以及研究变量对应的预存储参数。例如,用户输入了数据集,同时输入了大量的研究变量,如″是否发生癌症″、″临床特征″、″影像学特征″、″基因特征″等几百个研究变量。用户将研究变量″是否发生癌症″对应于预存储研究参数″二分类因变量″,″临床特征″、″影像学特征″、″基因特征″等几百个研究变量对应于预存储参数″自变量″。
进一步的,选择按照不同条件下的数据集。例如,全部性别数据集,男性数据集,女性数据集。又或者是第一次提供的数据集,第二次提供的数据集,第三次提供的数据集。
3.匹配预存储流程。在选择研究指标和研究参数后,匹配预存储流程中包含有对应的研究指标和研究参数的流程,得到一个或多个预存储流程。例如,按照上述研究指标″曲线下面积″、″灵敏度″、″特异度″,研究参数″二分类因变量″和研究参数″自变量″,得到匹配的预存储流程有″Logistic回归模型″,″LASSO Logistic回归模型″,″随机森林模型″,″神经网络模型″等。
4.选择预存储流程和数据集。用户选择其中的多个,如选择″Logistic回归模型″,″Logistic回归模型″,″LASSO Logistic回归模型″,″随机森林模型″,″神经网络模型″。数据集可以选择全部性别数据集、男性数据集,女性数据集中的一个或多个。
5.选择对比流程。用户选择已选择的预存储流程(包含数据集)中一个或多个,如选择″Logistic回归模型″(男性数据集),″随机森林模型″(女性数据集)作为对比流程。
6.生成输出程序代码和输出程序说明,获取预存储流程的操作、方法、图像和流程程序代码,生成并保存相应的输出程序代码和输出程序说明。
7.运行程序代码,运行输出程序代码,得到并保存相应的运行结果。
8.显示运行结果,显示″Logistic回归模型″(全部性别数据集),″Logistic回归模型″(男性数据集),″LASSO Logistic回归模型″(男性数据集),″随机森林模型″(女性数据集),″神经网络模型″(男性数据集)流程、相应的输出程序代码、输出程序代码说明和相应的运行结果。
进一步地,运行结果包含多个数据,多个流程的研究指标,如以第一个流程Logistic回归模型(全部性别数据集)的″AIC″、″曲线下面积″、″灵敏度″、″特异度″作为参照,其他流程的″AIC″、″曲线下面积″、″灵敏度″、″特异度″与第一个的结果相同给予相同的样式,如颜色或者字体等显示。否则以不同的样式显示。也可以以文字或者图片方式说明显示。
以第二个流程随机森林回归模型(女性数据集)的″AIC″、″曲线下面积″、″灵敏度″、″特异度″作为参照,其他流程的″AIC″、″曲线下面积″、″灵敏度″、″特异度″与第二个的结果相同给予相同的样式,如颜色或者字体等显示。否则以不同的样式显示。也可以以文字或者图片方式说明显示。
场景三:研究设计结果模拟
1.选择研究指标。在预测模型中,选择用于评价模型的研究指标。例如,研究设计结果在特定条件下的一类错误概率和检验效能。此时可以选择可以研究指标″一类错误概率″、″检验效能″。
2.选择研究设计。在预测模型中,选择用于模拟的研究设计。例如,选择″模拟正态分布两组均数比较″、″模拟二项分布两组均数比较″、″模拟贯序实验两组均数比较″。
3.获取数据集和研究变量,选择研究参数。获取用户所输入的数据集、研究变量,以及选择研究变量对应的预存储研究参数。例如,用户输入了数据集,选择数据中的研究变量″均数1″,″均数2″,″标准差1″,″标准差2″。接着将研究变量″均数1″,″标准差1″,″均数2″,″标准差2″对应于预存储研究参数中的″均数1″,″标准差1″,″均数2″,″标准差2″。
进一步地,这些数据可以以文件形式、数据库形式、或者程序代码形式读取。
3.匹配预存储流程。在选择研究指标、研究设计、研究参数后,匹配预存储流程中包含有研究指标、研究设计和研究参数的预存储流程,得到一个或多个预存储流程。例如,按照上述研究指标″一类错误概率″、″检验效能″,参数″均数1″,″标准差1″,″均数2″,″标准差2″,匹配得到″模拟正态分布两样本均数比较″、″模拟指数分布两样本均数比较″的多个预存储流程。
4.选择预存储流程和数据集。用户选择其中的一个或多个,如″模拟正态分布两样本均数比较″和输入的数据集。
5.选择对比流程。用户选择已选择的预存储流程(包含数据集)。
6.生成输出程序代码和说明,获取预存储流程的操作、方法、图像和流程程序代码,生成并保存相应的输出程序代码和输出程序说明。
7.运行输出程序代码,运行上述流程的输出程序代码,得到并保存相应的运行结果。
8.显示运行结果,显示相应的预存储流程、输出程序代码、输出程序说明和相应的运行结果。
参照图3,本申请的实施例还提供了一种数据探索系统,包括:
数据库,用于存储预设的指标库、参数库和流程库;所述指标库存储有多种不同的研究指标;所述参数库存储有多种不同的研究参数;所述流程库存储有多种不同的研究流程,以及每一种所述研究流程所对应的程序代码;
指标选择模块,用于根据输入信息从指标库中选择指定的研究指标;
数据获取模块,用于获取数据集、研究变量,以及所述研究变量对应的研究参数;
流程匹配模块,用于从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;
流程选择模块,用于根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;
程序输出模块,用于调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;
探索输出模块,用于执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。
进一步地,数据库还可用于存储预设的方法库、图像库。所述方法库存储有多种不同的统计方法;所述图像库存储有多种不同的图像;所述方法库和图像库分别存储有每一种所述统计方法和图像所对应的程序代码。
进一步地,所述数据库还用于存储预设的变量库,所述变量库存储有多种不同的研究变量;
相应地,数据获取模块还用于:
获取所述研究变量对应的变量库中的变量;
所述数据库还用于存储预设的设计库,所述设计库存储有多种不同的研究设计;相应地,所述系统还包括:
设计选择模块,用于根据输入信息从设计库中选择指定的研究设计;
所述流程匹配模块还用于:
从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。
进一步地,所述流程选择模块还用于:
根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;
所述程序输出模块还用于:
调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;
分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;
所述探索输出模块还用于:
执行合并后的输出程序代码,对所述数据集进行探索;
将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请的实施例还提供了一种计算设备,所述计算设备包括:处理器和存储器;
所述存储器用于存储计算机程序指令;
所述计算设备运行时,所述处理器执行所述存储器中的计算机程序指令,以执行如上所述的任意一种方法的操作步骤。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行如上所述的任意一种方法。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语″第一″、″第二″等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,″多个″的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语″一个实施例″、″一些实施例″、″示例″、″具体示例″、或″一些示例″等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种数据探索方法,其特征在于,包括:
根据输入信息从指标库中选择指定的研究指标;
获取数据集、研究变量,以及所述研究变量对应的研究参数;
从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;
根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;
调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;
执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。
2.根据权利要求1所述的方法,其特征在于,所述生成所述探索流程的输出程序代码和输出程序说明,包括:
所述探索流程对应的程序代码调用所述探索流程中的方法或图像,调用所述方法对应的程序代码、所述图像对应的程序代码,生成输出程序代码和输出程序说明。
3.根据权利要求1所述的方法,其特征在于,还包括:
根据输入信息从设计库中选择指定的研究设计;
从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。
4.根据权利要求1所述的方法,其特征在于,还包括:
根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;
调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;
分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;
执行合并后的输出程序代码,对所述数据集进行探索;
将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。
5.根据权利要求4所述的方法,其特征在于,所述将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出,包括:
获取探索流程的各个研究指标的探索结果;
获取对比流程的各个研究指标的探索结果;
将各个研究指标的探索流程的探索结果与对比流程的探索结果进行比较;
将不同的探索结果按照不同的格式进行显示输出。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述获取数据集、研究变量,以及所述研究变量对应的研究参数,包括:
获取用户输入的数据集和研究变量;
获取用户指定的研究变量所对应的变量库中的变量;
获取用户指定的研究变量或所述用户指定的研究变量所对应的变量库中的变量所对应的参数信息;
根据参数信息从参数库中确定对应的研究参数。
7.一种数据探索系统,其特征在于,包括:
数据库,用于存储预设的指标库、参数库和流程库;所述指标库存储有多种不同的研究指标;所述参数库存储有多种不同的研究参数;所述流程库存储有多种不同的研究流程,以及每一种所述研究流程所对应的程序代码;
指标选择模块,用于根据输入信息从指标库中选择指定的研究指标;
数据获取模块,用于获取数据集、研究变量,以及所述研究变量对应的研究参数;
流程匹配模块,用于从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;
流程选择模块,用于根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;
程序输出模块,用于调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;
探索输出模块,用于执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。
8.根据权利要求7所述的系统,其特征在于:
所述数据库还用于存储预设的变量库,所述变量库存储有多种不同的研究变量;
相应地,数据获取模块还用于:
获取所述研究变量对应的变量库中的变量;
所述数据库还用于存储预设的设计库,所述设计库存储有多种不同的研究设计;相应地,所述系统还包括:
设计选择模块,用于根据输入信息从设计库中选择指定的研究设计;
所述流程匹配模块还用于:
从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。
9.根据权利要求7或8所述的系统,其特征在于,所述流程选择模块还用于:
根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;
所述程序输出模块还用于:
调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;
分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;
所述探索输出模块还用于:
执行合并后的输出程序代码,对所述数据集进行探索;
将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。
10.一种计算设备,其特征在于,所述计算设备包括:处理器和存储器;
所述存储器用于存储计算机程序指令;
所述计算设备运行时,所述处理器执行所述存储器中的计算机程序指令,以执行权利要求1至6中任一项所述方法的操作步骤。
CN201910636826.XA 2019-07-15 2019-07-15 数据探索方法和系统 Active CN110362303B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910636826.XA CN110362303B (zh) 2019-07-15 2019-07-15 数据探索方法和系统
US16/672,439 US11354333B2 (en) 2019-07-15 2019-11-02 Method and system for data exploration

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910636826.XA CN110362303B (zh) 2019-07-15 2019-07-15 数据探索方法和系统

Publications (2)

Publication Number Publication Date
CN110362303A true CN110362303A (zh) 2019-10-22
CN110362303B CN110362303B (zh) 2020-08-25

Family

ID=68219463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910636826.XA Active CN110362303B (zh) 2019-07-15 2019-07-15 数据探索方法和系统

Country Status (2)

Country Link
US (1) US11354333B2 (zh)
CN (1) CN110362303B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102876A (zh) * 2020-09-27 2020-12-18 西安交通大学 一种对基因线路和转录调控关系自动化建模的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110089A (zh) * 2007-09-04 2008-01-23 华为技术有限公司 一种数据挖掘和建模的方法及系统
CN103150696A (zh) * 2011-12-06 2013-06-12 中兴通讯股份有限公司 选择目标增值业务潜在客户的方法及装置
CN103235974A (zh) * 2013-04-25 2013-08-07 中国科学院地理科学与资源研究所 一种提高海量空间数据处理效率的方法
CN104123375A (zh) * 2014-07-28 2014-10-29 清华大学 数据搜索方法及系统
CN104298496A (zh) * 2013-07-19 2015-01-21 上海宝信软件股份有限公司 数据分析型软件开发框架系统
CN106605222A (zh) * 2014-09-24 2017-04-26 甲骨文国际公司 有指导的数据探索
WO2017087773A1 (en) * 2015-11-18 2017-05-26 Global Specimen Solutions, Inc. A method and system for codification, tracking, and use of informed consent data for human specimen research
CN107578161A (zh) * 2017-08-30 2018-01-12 咪咕文化科技有限公司 一种产品评测方法、装置及存储介质
CN107766424A (zh) * 2017-09-13 2018-03-06 深圳市宇数科技有限公司 一种数据探索管理方法、系统、电子设备及存储介质
CN107885965A (zh) * 2017-09-26 2018-04-06 深圳市宇数科技有限公司 一种数据探索发现方法、系统、电子设备及存储介质
US10311442B1 (en) * 2007-01-22 2019-06-04 Hydrojoule, LLC Business methods and systems for offering and obtaining research services

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392418B2 (en) * 2009-06-25 2013-03-05 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and model
EP2186034A2 (en) * 2007-07-26 2010-05-19 T2 Biosystems, Inc. Diagnostic information generation and use
US9336302B1 (en) * 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US20180268015A1 (en) * 2015-09-02 2018-09-20 Sasha Sugaberry Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311442B1 (en) * 2007-01-22 2019-06-04 Hydrojoule, LLC Business methods and systems for offering and obtaining research services
CN101110089A (zh) * 2007-09-04 2008-01-23 华为技术有限公司 一种数据挖掘和建模的方法及系统
CN103150696A (zh) * 2011-12-06 2013-06-12 中兴通讯股份有限公司 选择目标增值业务潜在客户的方法及装置
CN103235974A (zh) * 2013-04-25 2013-08-07 中国科学院地理科学与资源研究所 一种提高海量空间数据处理效率的方法
CN104298496A (zh) * 2013-07-19 2015-01-21 上海宝信软件股份有限公司 数据分析型软件开发框架系统
CN104123375A (zh) * 2014-07-28 2014-10-29 清华大学 数据搜索方法及系统
CN106605222A (zh) * 2014-09-24 2017-04-26 甲骨文国际公司 有指导的数据探索
WO2017087773A1 (en) * 2015-11-18 2017-05-26 Global Specimen Solutions, Inc. A method and system for codification, tracking, and use of informed consent data for human specimen research
CN107578161A (zh) * 2017-08-30 2018-01-12 咪咕文化科技有限公司 一种产品评测方法、装置及存储介质
CN107766424A (zh) * 2017-09-13 2018-03-06 深圳市宇数科技有限公司 一种数据探索管理方法、系统、电子设备及存储介质
CN107885965A (zh) * 2017-09-26 2018-04-06 深圳市宇数科技有限公司 一种数据探索发现方法、系统、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102876A (zh) * 2020-09-27 2020-12-18 西安交通大学 一种对基因线路和转录调控关系自动化建模的方法

Also Published As

Publication number Publication date
CN110362303B (zh) 2020-08-25
US11354333B2 (en) 2022-06-07
US20210019328A1 (en) 2021-01-21

Similar Documents

Publication Publication Date Title
Bharadiya A comparative study of business intelligence and artificial intelligence with big data analytics
Pezzotti et al. Approximated and user steerable tSNE for progressive visual analytics
Sacha et al. Somflow: Guided exploratory cluster analysis with self-organizing maps and analytic provenance
CN107358014B (zh) 一种生理数据的临床前处理方法及系统
CN109409533A (zh) 一种机器学习模型的生成方法、装置、设备及存储介质
KR102586431B1 (ko) 관절 좌표를 이용한 패션 아이템 속성정보 추출 방법, 장치 및 컴퓨터프로그램
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
Fischer et al. Towards a survey on static and dynamic hypergraph visualizations
McCormack et al. Deep learning of individual aesthetics
Saleh Machine Learning Fundamentals: Use Python and scikit-learn to get up and running with the hottest developments in machine learning
Ding et al. Product color emotional design based on a convolutional neural network and search neural network
Barry-Straume et al. An evaluation of training size impact on validation accuracy for optimized convolutional neural networks
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN107480720A (zh) 人体姿态模型训练方法及装置
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
Manubens-Gil et al. BigNeuron: a resource to benchmark and predict performance of algorithms for automated tracing of neurons in light microscopy datasets
Garbuio et al. An algorithm for designing value propositions in the IoT space: Addressing the challenges of selecting the initial class in reference class forecasting
Terziyan et al. Causality-aware convolutional neural networks for advanced image classification and generation
Mumuni et al. Automated data processing and feature engineering for deep learning and big data applications: a survey
Cai et al. Training deep convolution network with synthetic data for architectural morphological prototype classification
CN110362303A (zh) 数据探索方法和系统
Raimundo et al. Exploring multiobjective training in multiclass classification
Lera-Leri et al. Aggregating value systems for decision support
Pukkala Can Kohonen networks delineate forest stands?
CN114511928A (zh) 一种基于持续监控的动作预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40008317

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant