CN113094424A - 通过构建多级指标体系进行图表模式识别的方法和系统 - Google Patents
通过构建多级指标体系进行图表模式识别的方法和系统 Download PDFInfo
- Publication number
- CN113094424A CN113094424A CN202110382833.9A CN202110382833A CN113094424A CN 113094424 A CN113094424 A CN 113094424A CN 202110382833 A CN202110382833 A CN 202110382833A CN 113094424 A CN113094424 A CN 113094424A
- Authority
- CN
- China
- Prior art keywords
- level index
- dimension
- chart
- label
- metadata information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种通过构建多级指标体系进行图表模式识别的方法、系统和存储介质。该方法包括:从数据库获取元数据信息;对元数据信息进行特征提取以构建多级指标体系,并且通过多级指标体系为数据库中需要分析的数据识别出合适类型的图表模式,其中,构建多级指标体系包括:通过将元数据信息的维度划分为至少三个维度构建第一级指标;基于第一级指标和元数据信息构建第二级指标;基于第二级指标构建第三级指标;基于第二级指标和第三级指标构建第四级指标;以及通过使用由超参数组成的代表图表强制转化的标签构建第五级指标。通过本发明的方案,可以将元数据信息应用到图表模式识别中,从而识别出最优图表展示类型,提高图表模式识别的准确率和展示效果。
Description
技术领域
本发明涉及图表模式识别领域,更具体而言,涉及一种通过构建多级指标体系进行图表模式识别的方法、系统和计算机可读存储介质。
背景技术
随着信息时代的到来,各行各业都积累了大量业务相关数据,因此以不同的图表展示不同维度的信息成了一个热门问题。
现有的图表模式识别方法,例如MICSOFT OFFICE办公软件中的EXCEL的智能图表(smartchart)功能或者Tableau软件中的推荐图表功能,一般是将存储在数据库中的数据载入到特定格式的数据格式中,但这种方法仅将数据库作为储存数据的容器,并没有将数据库中含有丰富信息的元数据信息应用到图表模式识别中。而且,现有方法进行图表模式识别的逻辑比较简单,没有考虑到不同图表展示的边界情况(例如在移动端和非移动端的展示数据的方式应该是不同的),从而会导致通过图表模式识别出来的图比较单调,这样会影响数据展示效果,不能很好地满足用户希望通过合适的数据展示方式来获取信息的需求。
因此,需要一种新的图表模式识别的方法。
发明内容
本发明的目的在于提供一种通过构建多级指标体系进行图表模式识别的方法和系统,以解决或至少缓解上述现有技术的问题至少之一。
具体地,根据本发明的第一方面,提供了一种通过构建多级指标体系进行图表模式识别的方法,包括:
从数据库获取元数据信息;
对所述元数据信息进行特征提取以构建多级指标体系,并且通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式,
其中,所述构建多级指标体系包括:
通过将所述元数据信息的维度划分为至少三个维度,所述至少三个维度包括时间维度、分类维度和度量维度,构建第一级指标;
基于所述第一级指标和所述元数据信息,通过分别统计所述至少三个维度中的每个维度包含的子维度的数量、每个维度包含的维度成员的数量以及每个维度的单位,构建第二级指标;
基于所述第二级指标,通过分别统计所述元数据信息中每个维度的真实度量数据的分布或者非度量数据的出现频率分布,构建第三级指标;
基于所述第二级指标和所述第三级指标,构建第四级指标,所述第四级指标包括用于对所述第二级指标和第三级指标进行统计分析或者比较的标签;以及
通过使用由一个或多个超参数组成的代表图表强制转化的标签,构建第五级指标。
根据一个实施方案,所述第三级指标包括不重复的维度成员的数量、重复的维度成员的最大重复次数以及最小重复次数;和/或,所述第四级指标包括判断所述第二级指标中所述维度成员的数量与所述第三级指标中所述不重复的维度成员的数量是否相等的标签;以及代表所述时间维度和分类维度中包含维度成员数量最多的维度的标签、包含维度成员数量处于中位数的维度的标签、以及包含维度成员数量大于一的维度数目的标签。
根据一个实施方案,所述强制转化的标签包括所述元数据信息中真实数据的具体数量标签、图和表边界区分标签、标识移动端与非移动端的标签和/或强制确定图表模式的标签。
根据一个实施方案,所述方法还包括:基于构建的多级指标体系建立图表分析模型,所述图表分析模型包括冷启动规则引擎和/或机器学习模型,其中所述冷启动规则引擎基于从所述第五级指标到所述第一级指标的重要性逐渐递减的原则分析所述多级指标体系相关的数据,从而识别出合适类型的图表。
根据一个实施方案,所述方法还包括:
记录所述冷启动规则引擎和/或所述机器学习模型输出的结果以及所述结果对应的所述多级指标体系相关的数据,所述结果和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
根据一个实施方案,所述方法还包括:
记录用户反馈的正确图表模式的反馈记录以及所述反馈记录对应的所述多级指标体系相关的数据,所述反馈记录和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
根据本发明的第二方面,提供了一种通过构建多级指标体系进行图表模式识别的系统,包括:
获取单元,被配置为从数据库获取元数据信息;
图表识别单元,被配置为对所述元数据信息进行特征提取以构建多级指标体系,并且通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式,
其中,所述图表识别单元通过以下方式构建所述多级指标体系:
通过将所述元数据信息的维度划分为至少三个维度,所述至少三个维度包括时间维度、分类维度和度量维度,构建第一级指标;
基于所述第一级指标和所述元数据信息,通过分别统计所述至少三个维度中的每个维度包含的子维度的数量、每个维度包含的维度成员的数量以及每个维度的单位,构建第二级指标;
基于所述第二级指标,通过分别统计所述元数据信息中每个维度的真实度量数据的分布或者非度量数据的出现频率分布,构建第三级指标;
基于所述第二级指标和所述第三级指标,构建第四级指标,所述第四级指标包括用于对所述第二级指标和第三级指标进行统计分析或者比较的标签;以及
通过使用由一个或多个超参数组成的代表图表强制转化的标签,构建第五级指标。
根据一个实施方案,所述第三级指标包括不重复的维度成员的数量、重复的维度成员的最大重复次数以及最小重复次数;和/或,所述第四级指标包括判断所述第二级指标中所述维度成员的数量与所述第三级指标中所述不重复的维度成员的数量是否相等的标签;以及代表所述时间维度和分类维度中包含维度成员数量最多的维度的标签、包含维度成员数量处于中位数的维度的标签、以及包含维度成员数量大于一的维度数目的标签。
根据一个实施方案,所述强制转化的标签包括所述元数据信息中真实数据的具体数量标签、图和表边界区分标签、标识移动端与非移动端的标签和/或强制确定图表模式的标签。
根据一个实施方案,所述系统还包括建模单元,所述建模单元被配置为:
基于构建的多级指标体系建立图表分析模型,所述图表分析模型包括冷启动规则引擎和/或机器学习模型,其中所述冷启动规则引擎基于从所述第五级指标到所述第一级指标的重要性逐渐递减的原则分析所述多级指标体系相关的数据,从而识别出合适类型的图表。
根据一个实施方案,所述系统还包括日志单元,所述日志单元被配置为:
记录所述冷启动规则引擎和/或所述机器学习模型输出的结果以及所述结果对应的所述多级指标体系相关的数据,所述结果和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
根据一个实施方案,所述系统还包括用户反馈单元,所述用户反馈单元被配置为:
记录用户反馈的正确图表模式的反馈记录以及所述反馈记录对应的所述多级指标体系相关的数据,所述反馈记录和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
根据本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现上述任一项所述的方法。
利用本发明的方案,通过从数据库获取元数据信息;对所述元数据信息进行特征提取,通过分析元数据信息中的各个维度来构建含有五级指标的多级指标体系,并且通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式,可以实现图表模式的识别。通过本发明的方案,可以将数据库中含有丰富信息的元数据信息直接应用到图表模式识别中,从而识别出最优的图表展示类型,满足用户希望通过合适的数据展示类型来获取信息的需求。另外,通过日志单元和用户反馈单元将冷启动情况下的规则引擎与决策树进行更新或者训练,可以更好地提高图表模式识别的准确率。
附图说明
以示例的方式参考以下附图描述本发明的非限制性且非穷举性实施例,其中:
图1是根据本发明一实施例的通过构建多级指标体系进行图表模式识别的方法的流程图;
图2是根据本发明一实施例的构建多级指标体系的方法的流程图;
图3是根据本发明一实施例的通过构建多级指标体系进行图表模式识别的系统的框图;以及
图4是根据本发明一实施例的通过构建多级指标体系进行图表模式识别的方法的示意图。
具体实施方式
为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
图1示出了根据本发明一实施例的通过构建多级指标体系进行图表模式识别的方法100。
如图1所示的,方法100包括:
S110、从数据库获取元数据信息;以及
S120、对所述元数据信息进行特征提取以构建多级指标体系,并且通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式。
其中,术语“元数据信息”是描述数据库中的数据属性的信息,包括例如维度、维度成员、维度的储存格式和/或维度的单位等。
在步骤S120中,通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式包括根据例如五级指标体系(如图2中所示的)中涉及到的所有指标,依据指标可能值的所有组合识别出一个或多个最优的图表模式(例如,图表的类型以及相应的展示结构)。每一级指标中的每个指标可以表示数据库中的数据的一个特征,数据库中的所有的数据(包括用于训练和测试的数据)的特征都可以通过本文描述的多级指标体系中的指标进行表征。也就是说,使用本文描述的多级指标体系可以表征数据库中的每一条数据。另外,术语“多级指标体系”本身除了可以包括五级指标体系外,也可以根据需要扩展到六级指标体系、七级指标体系以及更多级的指标体系。
图2示出了根据本发明一实施例的构建多级指标体系的方法200。
如图2所示的,方法200包括:
S221、通过将所述元数据信息的维度划分为至少三个维度,所述至少三个维度包括时间维度、分类维度和度量维度,构建第一级指标;
S222、基于所述第一级指标和所述元数据信息,通过分别统计所述至少三个维度中的每个维度包含的子维度的数量、每个维度包含的维度成员的数量以及每个维度的单位,构建第二级指标;
S223、基于所述第二级指标,通过分别统计所述元数据信息中每个维度的真实度量数据的分布或者非度量数据的出现频率分布,构建第三级指标;
S224、基于所述第二级指标和所述第三级指标,构建第四级指标,所述第四级指标包括用于对所述第二级指标和第三级指标进行统计分析或者比较的标签;以及
S225、通过使用由一个或多个超参数组成的代表图表强制转化的标签,构建第五级指标。
在步骤S221中,所述元数据信息可以包括例如维度、维度成员以及维度的储存格式,其中一个维度例如可以表示数据库里存储的表格中的一列数据。通过将所述元数据信息的维度划分为至少三个维度(例如包括时间维度、分类维度和度量维度,或者其他合适的维度)来构建第一级指标相当于为不同维度打上了对应的第一级标签。
可以主要通过以下两种方式之一来划分时间维度、分类维度和度量维度:
第一种方式:可以从元数据信息中直接获得维度的分类。由于不同类型的数据库在建立的时候会有描述数据库框架的字段,该字段默认为字符型,可以根据该字段来确认分类维度。例如,可以将标明时间戳格式的维度划分为时间维度。度量维度指的是除了时间维度和分类维度之外的其他维度,一般以数值形式存在。
第二种方式:使用基本的命名实体识别(Named Entity Recognition,NER)技术和模式匹配,通过分析实际数据,来辅助判断时间维度、分类维度和度量维度。NER是一种有监督学习的分类方法,模式匹配是一种比较硬的匹配方式。本文提到的分类维度具体指的是统计学中的定类型数据(nominal)、定距型数据、定序型数据和定比型数据。例如,一些简单的分类维度的情况是植物的类别以及物品商品类型等。在一个实施例中,分类维度可以根据用户需求继续按指标体系细分为多种子维度,例如,可以包括地理信息维度(例如,包括所有的地名国名信息)、公司名维度和人名维度等。通常,单个维度可以包括一个或多个子维度,每个子维度还可以包括其本身的进一步的子维度。因此,为了简便起见,有时候也可以将子维度称为维度。
在步骤S222中,在为不同维度打好对应的第一级标签之后,这些维度就会带有第一级标签的标示,直接统计对应的第一级标签的计数即可获得按第一级标签分类的维度个数;对各个维度(各列数据)中可能出现的所有值(理论上是有限可数的),进行去重即可获得该维度包含的维度成员的数量;在数据库元数据的结构描述中一般有单位信息,可以直接读取每个维度的单位。将上述三个指标作为第二级指标。
在步骤S223中,获取根据真实查询数据库(例如,使用sql查询)返回的真实数据(例如,该真实数据可以为类似于excel表格的二维表结构)。显然,查询出的真实数据可以是数据库里的一个数据子集。,由于每张表每列数据在每次查询中不会出现所有可能出现的值,此处的步骤可以根据查询出的真实数据的统计信息建立第三级指标。所述第三级指标可以针对第一级指标涉及到的所有维度统计每个维度的真实度量数据的分布或者非度量数据的出现频率分布,例如统计每个维度中的每个非度量数据出现过的频率、去重后的维度成员个数、按频率统计的第一四分位数(即,一分位数)、中位数(即,二分位数)、第三四分位数(即,三分位数)等统计描述信息。又例如,第三级指标可以包括每个维度包含不重复的维度成员的数量、重复的维度成员最大重复次数以及最小重复次数等。
在步骤S224中,构建的第四级指标包括例如判断所述第二级指标中所述维度成员的数量与所述第三级指标中所述不重复的维度成员的数量是否相等的标签;以及代表所述时间维度和分类维度中包含维度成员数量最多的维度的标签、包含维度成员数量处于中位数的维度的标签、以及包含维度成员数量大于一的维度数目的标签等。在一个实施例中,当判断时间维度和分类维度时,假设数据库中某张表的某个列(即,一个维度)所有可能取到的值个数为N(除度量维度以外),那么真实查询出来的数据总数一定是小于等于全量数据库数据(N)的,本发明中涉及到的第四级指标主要包含真实查询出来的数据去重后对于N的百分比。在另一个实施例中,当判断度量类别时,则比较真实查询的数据中的最大值最小值众数和全量数据的比值或者差的绝对值。把上述的统计信息作为第四级指标体系。
在步骤S225中,构建的第五级指标中的强制转化的标签包括例如所述元数据信息中真实数据的具体数量标签、图和表边界区分标签(由第四级指标体系中的时间维度和分类维度中维度成员数目最多和中位数以及维度成员数目大于1的维度数标签决定)、标识移动端与非移动端(例如,PC端)的标签和/或强制确定图表模式的标签(包含排名的字段可以全部以表的形式展现)。第五级指标中描述的指标主要包括关于不同图或者表的一些边界条件,例如,数值图最多只能展现N条数据,如果待展现数据条数大于N,则不能用数值图,只能考虑柱形图、折线图、或者表格等。例如,折线图和/或柱形图最大展现数据的条数为n(n>N),如果待展现数据条数大于等于n,则转换成表格。在一个实施例中,针对上文提到的图和表的边界条件,可以结合不同公司不同业务的需求,自由调整指标的组合以及如何将合适的图表模式分配给这些组合。
图3示出了根据本发明一实施例的通过构建多级指标体系进行图表模式识别的系统300。系统300包括:获取单元301、图表识别单元302、建模单元303、日志单元304和用户反馈单元305。
获取单元301用于从数据库获取元数据信息。
图表识别单元302用于对所述元数据信息进行特征提取以构建多级指标体系,并且通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式,其中,所述构建多级指标体系包括:通过将所述元数据信息的维度划分为至少三个维度(例如包括时间维度、分类维度和度量维度,或者其他合适的维度),构建第一级指标;基于所述第一级指标和所述元数据信息,通过分别统计所述时间维度、分类维度和度量维度中的每个维度包含的子维度的数量、每个维度包含的维度成员的数量以及每个维度的单位,构建第二级指标;基于所述第二级指标,通过分别统计所述元数据信息中每个维度的真实度量数据的分布或者非度量数据的出现频率分布,构建第三级指标;基于所述第二级指标和所述第三级指标,构建第四级指标,所述第四级指标包括用于对所述第二级指标和第三级指标进行统计分析或者比较的标签;以及通过使用由一个或多个超参数组成的代表图表强制转化的标签,构建第五级指标。关于所述第三级指标、第四级指标和第五级指标的相关描述,可以参考上文关于方法实施例所描述的。图表模式图表识别单元302有时也可被称为特征提取和标注单元。
建模单元303用于基于构建的多级指标体系建立图表分析模型,所述图表分析模型包括冷启动规则引擎和/或机器学习模型,其中所述冷启动规则引擎基于从所述第五级指标到所述第一级指标的重要性逐渐递减的原则分析所述多级指标体系相关的数据,从而识别出合适类型的图表。例如,如果在第五级可以识别出图表模式,则直接输出该图表模式作为模式识别的结果,如果不能识别,则在第四级指标体系中进行识别,以此类推,最终可得到在冷启动情况下的图表模式识别的结果。在本发明的方案中,冷启动是指刚开始构建系统时没有足够的信息和数据,需要依靠一些业务或者算法的先验知识去完成基本的图表推荐。
日志单元304用于记录所述冷启动规则引擎和/或所述机器学习模型输出的结果以及所述结果对应的所述多级指标体系相关的数据,所述结果和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
用户反馈单元305用于记录用户反馈的正确图表模式的反馈记录以及所述反馈记录对应的所述多级指标体系相关的数据,所述反馈记录和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
图4示出了根据本发明一实施例的通过构建多级指标体系进行图表模式识别的方法400。在一个实施例中,如图4中所示的,图表识别单元302对元数据信息进行特征提取并构建多级指标体系之后,将构建的多级指标体系发送到建模单元303,图表识别单元302对元数据信息进行特征提取并构建多级指标体系之后,还可以存储经过标注的数据,并且用于图表分析模型的离线更新,具体地,可以用于训练机器学习模型所应用的决策树模型。
在一个实施例中,如图4中所示的,日志单元304和/或用户反馈单元305所记录的数据可以自动用于更新冷启动规则引擎。例如,每间隔一预定时间段,可以自动地基于日志单元304和/或用户反馈单元305所记录的数据统计一个或多个预定指标,并且使用该指标更新冷启动规则引擎。
在一个实施例中,如图4中所示的,日志单元304和/或用户反馈单元305所记录的数据也可以用于训练所述机器学习模型所应用的决策树模型。机器学习模型所应用的决策树模型是一个需要标注数据的有监督模型,即每一条训练数据应该对应一个图表模式,并且应该要确定这样的分配是否正确,在本发明的系统中,通过冷启动规则引擎获得每一条数据对应的图表模式,再根据用户反馈确定这样的分配是否正确,这样就进一步训练了决策树模型。
例如,本文的决策树模型可以采用基尼(gini)系数作为判定标准,并且不设置最大深度和剪枝操作。这是因为本文使用决策树是为了进行分类,使用gini系数对于分类的目标来说是比较好的,至于不设置最大深度和剪枝操作,是因为上述的五级指标体系是经过筛选提出的,不会包含无关或者影响因素小的特征,而且,图表的模式个数是显著小于五级指标体系中涉及到的指标个数的,所以不需要设置最大深度和剪枝操作。
本领域普通技术人员应理解,图3和图4中示出的示意图仅仅是与本发明的方案相关的部分结构的示例性说明框图,并不构成对体现本发明的方案的计算机设备、处理器或计算机程序的限定。具体的计算机设备、处理器或计算机程序可以包括比图中所示更多或更少的部件或模块,或者组合或拆分某些部件或模块,或者可具有不同的部件或模块布置。
应理解,本发明的通过构建多级指标体系进行图表模式识别的系统的各个单元可全部或部分地通过软件或其组合来实现。所述各单元各自可以软件形式内嵌于计算机设备的处理器中或独立于所述处理器,也可以软件形式存储于计算机设备的存储器中以供处理器调用来执行所述各单元的操作。所述各单元各自可以实现为独立的部件或模块,或者两个或更多个单元可实现为单个部件或模块。
本发明可以实现为一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在由处理器执行时实现本发明的方法的部分或全部步骤。在一个实施例中,所述计算机程序被分布在网络耦合的多个计算机设备或处理器上,以使得所述计算机程序由一个或多个计算机设备或处理器以分布式方式存储、访问和执行。单个方法步骤/操作,或者两个或更多个方法步骤/操作,可以由单个计算机设备或处理器或由两个或更多个计算机设备或处理器执行。一个或多个方法步骤/操作可以由一个或多个计算机设备或处理器执行,并且一个或多个其他方法步骤/操作可以由一个或多个其他计算机设备或处理器执行。一个或多个计算机设备或处理器可以执行单个方法步骤/操作,或执行两个或更多个方法步骤/操作。
本领域普通技术人员可以理解,本发明的方法的全部或部分步骤可以通过计算机程序来指示相关的硬件如计算机设备或处理器完成,所述的计算机程序可存储于非暂时性计算机可读存储介质中,该计算机程序被执行时导致本发明的方法的步骤被执行。根据情况,本文中对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。
以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述,但这些技术特征的任何组合都应当被认为由本说明书涵盖,只要这样的组合不存在矛盾。
尽管结合实施例对本发明进行了描述,但本领域技术人员应理解,上文的描述和附图仅是示例性而非限制性的,本发明不限于所公开的实施例。在不偏离本发明的精神的情况下,各种改型和变体是可能的。
Claims (13)
1.一种通过构建多级指标体系进行图表模式识别的方法,包括:
从数据库获取元数据信息;
对所述元数据信息进行特征提取以构建多级指标体系,并且通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式,
其中,所述构建多级指标体系包括:
通过将所述元数据信息的维度划分为至少三个维度,所述至少三个维度包括时间维度、分类维度和度量维度,构建第一级指标;
基于所述第一级指标和所述元数据信息,通过分别统计所述至少三个维度中的每个维度包含的子维度的数量、每个维度包含的维度成员的数量以及每个维度的单位,构建第二级指标;
基于所述第二级指标,通过分别统计所述元数据信息中每个维度的真实度量数据的分布或者非度量数据的出现频率分布,构建第三级指标;
基于所述第二级指标和所述第三级指标,构建第四级指标,所述第四级指标包括用于对所述第二级指标和第三级指标进行统计分析或者比较的标签;以及
通过使用由一个或多个超参数组成的代表图表强制转化的标签,构建第五级指标。
2.根据权利要求1所述的方法,其特征在于,
所述第三级指标包括不重复的维度成员的数量、重复的维度成员的最大重复次数以及最小重复次数;和/或,
所述第四级指标包括判断所述第二级指标中所述维度成员的数量与所述第三级指标中所述不重复的维度成员的数量是否相等的标签;以及代表所述时间维度和分类维度中包含维度成员数量最多的维度的标签、包含维度成员数量处于中位数的维度的标签、以及包含维度成员数量大于一的维度数目的标签。
3.根据权利要求1所述的方法,其特征在于,所述强制转化的标签包括所述元数据信息中真实数据的具体数量标签、图和表边界区分标签、标识移动端与非移动端的标签和/或强制确定图表模式的标签。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:基于构建的多级指标体系建立图表分析模型,所述图表分析模型包括冷启动规则引擎和/或机器学习模型,其中所述冷启动规则引擎基于从所述第五级指标到所述第一级指标的重要性逐渐递减的原则分析所述多级指标体系相关的数据,从而识别出合适类型的图表。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
记录所述冷启动规则引擎和/或所述机器学习模型输出的结果以及所述结果对应的所述多级指标体系相关的数据,所述结果和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
6.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
记录用户反馈的正确图表模式的反馈记录以及所述反馈记录对应的所述多级指标体系相关的数据,所述反馈记录和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
7.一种通过构建多级指标体系进行图表模式识别的系统,包括:
获取单元,被配置为从数据库获取元数据信息;
图表识别单元,被配置为对所述元数据信息进行特征提取以构建多级指标体系,并且通过所构建的多级指标体系为所述数据库中需要分析的数据识别出合适类型的图表模式,
其中,所述图表识别单元通过以下方式构建所述多级指标体系:
通过将所述元数据信息的维度划分为至少三个维度,所述至少三个维度包括时间维度、分类维度和度量维度,构建第一级指标;
基于所述第一级指标和所述元数据信息,通过分别统计所述至少三个维度中的每个维度包含的子维度的数量、每个维度包含的维度成员的数量以及每个维度的单位,构建第二级指标;
基于所述第二级指标,通过分别统计所述元数据信息中每个维度的真实度量数据的分布或者非度量数据的出现频率分布,构建第三级指标;
基于所述第二级指标和所述第三级指标,构建第四级指标,所述第四级指标包括用于对所述第二级指标和第三级指标进行统计分析或者比较的标签;以及
通过使用由一个或多个超参数组成的代表图表强制转化的标签,构建第五级指标。
8.根据权利要求7所述的系统,其特征在于,
所述第三级指标包括不重复的维度成员的数量、重复的维度成员的最大重复次数以及最小重复次数;和/或,
所述第四级指标包括判断所述第二级指标中所述维度成员的数量与所述第三级指标中所述不重复的维度成员的数量是否相等的标签;以及代表所述时间维度和分类维度中包含维度成员数量最多的维度的标签、包含维度成员数量处于中位数的维度的标签、以及包含维度成员数量大于一的维度数目的标签。
9.根据权利要求7所述的系统,其特征在于,所述强制转化的标签包括所述元数据信息中真实数据的具体数量标签、图和表边界区分标签、标识移动端与非移动端的标签和/或强制确定图表模式的标签。
10.根据权利要求7-9中任一项所述的系统,其特征在于,所述系统还包括建模单元,所述建模单元被配置为:
基于构建的多级指标体系建立图表分析模型,所述图表分析模型包括冷启动规则引擎和/或机器学习模型,其中所述冷启动规则引擎基于从所述第五级指标到所述第一级指标的重要性逐渐递减的原则分析所述多级指标体系相关的数据,从而识别出合适类型的图表。
11.根据权利要求7-9中任一项所述的系统,其特征在于,所述系统还包括日志单元,所述日志单元被配置为:
记录所述冷启动规则引擎和/或所述机器学习模型输出的结果以及所述结果对应的所述多级指标体系相关的数据,所述结果和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
12.根据权利要求7-9中任一项所述的系统,其特征在于,所述系统还包括用户反馈单元,所述用户反馈单元被配置为:
记录用户反馈的正确图表模式的反馈记录以及所述反馈记录对应的所述多级指标体系相关的数据,所述反馈记录和对应的所述多级指标体系相关的数据被用于更新所述冷启动规则引擎和/或训练所述机器学习模型所应用的决策树模型。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110382833.9A CN113094424B (zh) | 2021-04-09 | 2021-04-09 | 通过构建多级指标体系进行图表模式识别的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110382833.9A CN113094424B (zh) | 2021-04-09 | 2021-04-09 | 通过构建多级指标体系进行图表模式识别的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113094424A true CN113094424A (zh) | 2021-07-09 |
CN113094424B CN113094424B (zh) | 2022-03-01 |
Family
ID=76675782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110382833.9A Active CN113094424B (zh) | 2021-04-09 | 2021-04-09 | 通过构建多级指标体系进行图表模式识别的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094424B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496222A (zh) * | 2021-09-09 | 2021-10-12 | 南方电网数字电网研究院有限公司 | 基于无标签图表数据的模式识别方法、装置和计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100588A1 (en) * | 2013-10-09 | 2015-04-09 | International Business Machines Corporation | Optimized Data Visualization According to Natural Language Query |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
CN112015912A (zh) * | 2020-08-25 | 2020-12-01 | 杭州指令集智能科技有限公司 | 一种基于知识图谱的指标智能可视化方法及装置 |
CN112256789A (zh) * | 2020-10-19 | 2021-01-22 | 杭州比智科技有限公司 | 数据智能可视化分析方法和装置 |
CN112463954A (zh) * | 2020-11-11 | 2021-03-09 | 远光软件股份有限公司 | 基于语义识别的可视化多维数据展示系统及方法 |
CN112597273A (zh) * | 2020-12-02 | 2021-04-02 | 国网浙江省电力有限公司台州供电公司 | 一种基于nl2sql技术的配电自动化图表生成方法 |
-
2021
- 2021-04-09 CN CN202110382833.9A patent/CN113094424B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100588A1 (en) * | 2013-10-09 | 2015-04-09 | International Business Machines Corporation | Optimized Data Visualization According to Natural Language Query |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
CN112015912A (zh) * | 2020-08-25 | 2020-12-01 | 杭州指令集智能科技有限公司 | 一种基于知识图谱的指标智能可视化方法及装置 |
CN112256789A (zh) * | 2020-10-19 | 2021-01-22 | 杭州比智科技有限公司 | 数据智能可视化分析方法和装置 |
CN112463954A (zh) * | 2020-11-11 | 2021-03-09 | 远光软件股份有限公司 | 基于语义识别的可视化多维数据展示系统及方法 |
CN112597273A (zh) * | 2020-12-02 | 2021-04-02 | 国网浙江省电力有限公司台州供电公司 | 一种基于nl2sql技术的配电自动化图表生成方法 |
Non-Patent Citations (1)
Title |
---|
张晨,朝乐门,孙智中: "数据故事叙述的关键技术研究", 《情报资料工作》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496222A (zh) * | 2021-09-09 | 2021-10-12 | 南方电网数字电网研究院有限公司 | 基于无标签图表数据的模式识别方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113094424B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US9418144B2 (en) | Similar document detection and electronic discovery | |
CN110659282B (zh) | 数据路由的构建方法、装置、计算机设备和存储介质 | |
CN105894183B (zh) | 项目评价方法及装置 | |
CN103605651A (zh) | 一种基于olap多维分析的数据处理展现方法 | |
US9928284B2 (en) | File recognition system and method | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
CN112101971A (zh) | 敏感客户识别方法、系统及存储介质 | |
CN113094424B (zh) | 通过构建多级指标体系进行图表模式识别的方法和系统 | |
CN115936624A (zh) | 基层数据管理方法及装置 | |
CN111950623B (zh) | 数据稳定性监控方法、装置、计算机设备及介质 | |
CN114049016A (zh) | 指标相似性判断方法、系统、终端设备及计算机存储介质 | |
CN113626571A (zh) | 答句生成方法、装置、计算机设备和存储介质 | |
CN112084302B (zh) | 造价文件的清单数据检测方法、系统、装置及存储介质 | |
CN116561134B (zh) | 业务规则处理方法、装置、设备及存储介质 | |
CN112363996A (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN115510289B (zh) | 一种数据立方体配置方法、装置、电子设备及存储介质 | |
CN113535966A (zh) | 知识图谱的创建方法、信息获取的方法、装置和设备 | |
CN116303983A (zh) | 一种关键词推荐方法、装置及电子设备 | |
CN115017256A (zh) | 电力数据处理方法、装置、电子设备及存储介质 | |
CN113760918A (zh) | 一种确定数据血缘关系的方法、装置、计算机设备和介质 | |
CN112560433A (zh) | 一种信息处理的方法及装置 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN112069314A (zh) | 一种基于科技文献数据的特定领域态势分析系统 | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |