CN111046082B - 一种基于语义分析的报表数据源推荐方法与装置 - Google Patents

一种基于语义分析的报表数据源推荐方法与装置 Download PDF

Info

Publication number
CN111046082B
CN111046082B CN201911275472.7A CN201911275472A CN111046082B CN 111046082 B CN111046082 B CN 111046082B CN 201911275472 A CN201911275472 A CN 201911275472A CN 111046082 B CN111046082 B CN 111046082B
Authority
CN
China
Prior art keywords
target
index
indexes
data source
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911275472.7A
Other languages
English (en)
Other versions
CN111046082A (zh
Inventor
王继业
杨志
程志华
王宏刚
刘识
任征东
李贤慧
彭放
张海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
Original Assignee
Big Data Center Of State Grid Corp Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN201911275472.7A priority Critical patent/CN111046082B/zh
Publication of CN111046082A publication Critical patent/CN111046082A/zh
Application granted granted Critical
Publication of CN111046082B publication Critical patent/CN111046082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于语义分析的报表数据源推荐方法与装置。所述方法包括:获取业务报表中需要定义数据源的目标指标的属性信息;根据所述属性信息确定所述目标指标的相似指标;将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源。本发明实施例通过采用上述技术方案,向用户端推荐目标指标的相似指标,使得用户端能够直接采用相似指标的相似数据源作为目标指标的目标数据源,无需再通过人工的方式识别目标指标下的数据含义和判断数据来源,能够实现报表数据源取数规则的快速生成,减少定义数据源取数规则所耗费的时间,简化报表设置所需的工作量。

Description

一种基于语义分析的报表数据源推荐方法与装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于语义分析的报表数据源推荐方法与装置。
背景技术
在进行业务分析时,通常需要对业务数据进行统计运算并以报表的形式展示给用户。
在生成报表时,需要为报表中的各项指标定义数据源。然而,由于企业大部分业务报表所需的数据往往来自于不同的系统和/或不同领域,数据存在结构化、半结构化和非结构化等多种类型,以及所面对的数据消费场景不同时,同一数据在报表中的描述方式也往往是不相同的等原因,使得生成报表时需要面对较复杂的取数环境。现有技术在报表建模时,会通过专业人员手工定义报表中各项指标的数据源。
然而,人工定义数据源的方式数据源定义过程需要花费很多的工作量,使得报表生成需要花费较多的时间。
发明内容
有鉴于此,本发明实施例提供一种基于语义分析的报表数据源推荐方法与装置,以提高定义数据源的效率,减少生成报表所花费的时间。
第一方面,本发明实施例提供了一种基于语义分析的报表数据源推荐方法,包括:
获取业务报表中需要定义数据源的目标指标的属性信息;
根据所述属性信息确定所述目标指标的相似指标;
将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源。
第二方面,本发明实施例还提供了一种基于语义分析的报表数据源推荐装置,包括:
获取模块,用于获取业务报表中需要定义数据源的目标指标的属性信息;
确定模块,用于根据所述属性信息确定所述目标指标的相似指标;
发送模块,用于将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源。
在上述确定数据源的技术方案中,获取业务报表中需要定义数据源的目标指标的属性信息,根据该属性信息确定指标库中存储的与该目标指标相似的相似指标,并将该相似指标发送给目标用户端,以使目标用户端基于该相似指标的相似数据源定义目标指标的目标数据源。本发明实施例通过采用上述技术方案,向用户端推荐目标指标的相似指标,使得用户端能够直接采用相似指标的相似数据源作为目标指标的目标数据源,无需再通过人工的方式识别目标指标下的数据含义和判断数据来源,能够实现报表数据源取数规则的快速生成,减少定义数据源取数规则所耗费的时间,简化报表设置所需的工作量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的一种基于语义分析的报表数据源推荐方法的流程示意图;
图2为本发明实施例二提供的一种基于语义分析的报表数据源推荐方法的流程示意图;
图3为本发明实施例三提供的一种基于语义分析的报表数据源推荐装置的结构框图;
图4为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合
实施例一
本发明实施例一提供一种基于语义分析的报表数据源推荐方法。所述方法可以由基于语义分析的报表数据源推荐装置执行,其中,该装置可以由软件和/或硬件实现,一般可集成于具有相似指标推荐功能的服务器中,适用于在报表建模时为报表表中需要定义数据源的指标推荐可用数据源的情况。图1为本发明实施例一提供的一种基于语义分析的报表数据源推荐方法的流程示意图,如图1所示,所述方法包括:
S110、获取业务报表中需要定义数据源的目标指标的属性信息。
示例性的,服务器可以在检测到与本端建立通信连接的用户端的用户欲进行数据源定义操作时,将该用户端确定为目标用户端,将该用户端的用户欲进行定义数据源操作的指标确定为目标指标,并自目标用户端获取该目标指标的属性信息。其中,目标指标可以为业务报表中尚未定义数据源的指标,也可以为业务报表中已定义数据源但用户欲对其数据源进行修改的指标,优选可以为业务报表中尚未定义数据源的指标,以避免用户对基于服务器推荐的相似数据源确定的原始目标数据源进行修改时,服务器再次向用户推荐相同的相似数据源的情况的发生。
在本步骤中,服务器检测与本端建立通信连接的用户端的用户是否欲进行数据源定义操作以及获取目标指标的属性信息的方法可以根据需要选取,例如,可以通过用户端检测用户端用户是否正在进行报表建模操作以及获取目标指标的属性信息。示例性的,用户端可以周期性的监测本端是否基于用户触发操作进入数据源定义界面,并在监测到本端进入数据源定义界面时,获取用户欲为其定义数据源的目标指标的属性信息,生成携带有该属性信息的推荐请求,并将该推荐请求发送给服务器;相应的,服务器可以在接收到用户端发送推荐信息时,确定该用户端的用户欲进行数据源定义操作,并解析该推荐信息,得到该推荐信息中携带的目标指标的属性信息。
在本实施例中,目标指标的属性信息可以为对目标指标的数据源定义产生影响的任意信息,其可以包括目标指标的自身属性信息,还可以进一步包括与目标指标存在关联的报表和/或指标的相关属性信息,本实施例不对此进行限制。为了提高后续所确定的相似指标的实用性,优选的,目标指标的属性信息可以包括目标指标的自身属性信息和关联属性信息。其中,目标指标的自身属性信息可为目标指标的指标名称信息,目标指标的关联属性信息可以为与目标指标存在关联的报表和/或指标的名称信息,如目标指标所属业务报表的报表名称信息,和/或,目标指标的父指标和/或子指标的指标名称信息(即关联指标名称信息)等。本实施例优选可以将属性信息设置为同时包括目标指标名称信息、报表名称信息以及关联指标名称信息,以进一步提高后续所确定的相似指标的实用性,以下以此种情况为例进行说明。
S120、根据所述属性信息确定所述目标指标的相似指标。
示例性的,可以根据目标指标的属性信息以及所存储的各待选指标的属性信息分别计算目标指标与各待选指标之间的相似度,并获取相似度大于预设相似度阈值的待选指标作为目标指标的相似指标,或者,按照相似度由大到小的顺序获取设定数量的待选指标作为目标指标的相似指标;也可以根据目标指标的属性信息以及所存储的各待选指标的属性信息对该目标指标以及各待选指标进行聚类运算,得到多个指标类,并将包含目标指标的指标类中的各待选指标确定为目标指标的相似指标,或者,计算目标指标与包含目标指标的指标类中的各待选指标之间的相似度,获取相似度大于设定相似度阈值的待选指标作为目标指标的相似指标或按照相似度由大到小的顺序自包含目标指标的指标类中获取设定数量的待选指标作为目标指标的相似指标。其中,相似指标可以理解为与目标指标较为相似的指标,可以理解的是,其可以包括与目标指标之间的相似度为100%的指标,即属性信息与目标指标的属性信息完全相同的待选指标;待选指标可以为存储于服务器所配置的指标库中的指标。
S130、将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源。
具体的,将相似指标发送给目标用户端,从而,目标用户端可以在接收到服务器发送的相似指标后,将相似指标展示给目标用户端用户,以使用户可以直接选取适用于目标指标的相似指标的相似数据源作为目标指的目标数据源。其中,相似数据源为相似指标的数据源,目标数据源为目标指标的数据源,某一指标(如目标指标、相似指标或待选指标等)的数据源可以理解为该指标的取数规则,如该指标下数据的来源和计算处理方式等;服务器向目标用户端发送相似指标可以理解为将相似指标的指标信息发送给目标用户端,该指标信息中应至少包含相似指标的相似数据源信息,即相似指标的取数规则信息。
本发明实施例一提供的基于语义分析的报表数据源推荐方法,获取业务报表中需要定义数据源的目标指标的属性信息,根据该属性信息确定指标库中存储的与该目标指标相似的相似指标,并将该相似指标发送给目标用户端,以使目标用户端基于该相似指标的相似数据源定义目标指标的目标数据源。本实施例通过采用上述技术方案,向用户端推荐目标指标的相似指标,使得用户端能够直接采用相似指标的相似数据源作为目标指标的目标数据源,无需再通过人工的方式识别目标指标下的数据含义和判断数据来源,能够实现报表数据源取数规则的快速生成,减少定义数据源取数规则所耗费的时间,简化报表设置所需的工作量。
实施例二
图2为本发明实施例二提供的一种基于语义分析的报表数据源推荐方法的流程示意图。本实施例在上述实施例的基础上,将“根据所述属性信息确定所述目标指标的相似指标”优化为:根据所述属性信息生成所述目标指标的目标特征向量;依据所述目标特征向量以及指标库中各待选指标的待选特征向量对所述目标指标以及各所述待选指标进行聚类运算,确定所述目标指标所属的目标类;按照与所述目标指标之间的相似度由大到小的顺序自所述目标类中获取设定数量的待选指标,作为所述目标指标的相似指标。
进一步地,在所述将所述相似指标发送给目标用户端之后,还包括:针对监测到目标用户端未采用所述相似数据源作为目标数据源的情况,获取定义目标数据源之后的目标指标,并将所述定义目标数据源之后的目标指标作为待选指标存储于所述指标库中。
进一步地,在所述将所述相似指标发送给目标用户端之后,还包括:针对监测到目标用户端采用所述相似数据源作为目标数据源的情况,在监测到所述目标数据源发生变化时,向所述相似数据源对应的相似用户端发送携带有变化后的目标指标的提醒信息,以提醒所述相似用户端的用户基于所述目标指标修改所述相似指标的相似数据源。
相应的,如图2所示,本实施例提供的基于语义分析的报表数据源推荐方法包括:
S210、获取业务报表中需要定义数据源的目标指标的属性信息。
其中,目标指标的属性信息包括目标指标的目标指标名称信息,还可以进一步包括目标指标所所属业务报表的报表名称信息和/或目标指标的关联指标的关联指标名称信息。
S220、根据所述属性信息生成所述目标指标的目标特征向量。
示例性的,可以根据目标指标的属性信息确定目标指标的目标特征向量的各分量,进而组合各分量得到目标指标的目标特征向量。其中,目标特征向量可以理解为目标指标的特征向量;目标特征向量的分量的类型和个数可以由开发人员进行设置,如分量的类型可以包括业务关键词分量、周期分量、统计类型分量和/或计量单位分量等,分量的个数可以为2、3、4或5等等。在此,业务关联词分量可以理解为描述目标指标的业务关键词的分量,如固定资产、工程项目、原材料、人工或薪酬等;周期分量可以理解为描述目标指标的统计周期的分量如年、季或月等;统计类型分量可以理解为描述目标指标的统计类型的分类,如合计、小计、总计、累计、平均值、总额或金额等;计量单位分量可以理解为描述目标指标的计量单位类型的分量,如数量单位、货币单位、质量单位或其他特殊单位等。
在本实施例中,目标特征向量的各分量可以通过对目标指标的属性信息进行语义分析得到,如可以依据预先建立的业务报表所属业务领域的专业词库对目标指标的属性信息进行分词处理,并对分词后的各词语进行词性归类,即确定各词语所属的分量,以得到目标向量的各分量;也可以首先分别依据预先建立的业务报表所属业务领域的专业词库对属性信息中的每一项名称信息进行分词处理,对分词后的各词语进行词性归类,以得到每一项名称信息所对应的分特征向量,然后按照一定的顺序对各分特征向量进行组合,得到目标特征向量,此时,优选的,所述根据所述属性信息生成所述目标指标的目标特征向量,包括:针对所述属性信息中的每一项名称信息,依据所述业务报表所属业务领域的领域词库对所述名称信息进行分词处理,并根据分词得到的每个词语的词性确定所述名称信息对应的分特征向量;将各所述分特征向量组合为一个总特征向量,作为所述目标指标的目标特征向量。
其中,所述名称信息为目标指标属性信息中的目标指标名称信息、报表名称信息或关联指标名称信息;业务报表所属业务领域可以通过目标用户端用户选取得到或者通过对业务报表的报表名称信息进行语义分析确定;各业务领域的专业词库可以预先由开发人员对历史数据进行收集与整理得到。
S230、依据所述目标特征向量以及指标库中各待选指标的待选特征向量对所述目标指标以及各所述待选指标进行聚类运算,确定所述目标指标所属的目标类。
在本实施例中,对目标指标以及各待选指标进行聚类运算时所采用的聚类算法可以根据需要选取,如可以采用k-means聚类算法、k-medoids或谱聚类算法等对目标指标以及各待选指标进行聚类运算,本实施例不对此进行限制。对目标指标以及各待选指标聚类运算完成后,依据聚类结果,即可确定目标指标所属的类,即目标类。
为了进一步提高聚类结果的准确性,从而进一步提高所得到的相似指标的实用性,优选的,可以采用谱聚类算法对目标指标以及各待选指标进行聚类运算。此时,假设目标指标与各待选指标的总数量为n,聚类簇的数目为k,对目标指标以及各待选指标进行聚类运算的过程可以示例性地描述为:a、根据目标指标的目标特征向量以及指标库中各待选指标的待选特征向量计算n个指标的相似度矩阵;b、根据该相似度矩阵计算此n个指标的度矩阵,并根据该相似度矩阵和该度矩阵计算此n个指标的拉普拉斯矩阵;c、计算该拉普拉斯矩阵的特征值,将各特征值按照从小到大的顺序进行排序,取前k个特征值,并计算该前k个特征值的特征向量(为列向量);d、将上述k个特征向量组成矩阵U,并取U的每一行作为一个新的样本点,从而得到n个新的样本点;e、使用k-means聚类算法将上述n个新的样本点聚类为k簇,从而,基于此k个聚类簇即可将目标指标与各待选指标分为k个指标类。
在上述示例性的描述中,n个指标的相似度矩阵可以通过分别计算此n个指标两两之间的相似度得到。在计算两个指标之间的相似度时,可以分别确定指标的特征向量中相同分量之间的子相似度,并计算各子相似度的加权和,即可以得到此两个指标之间的相似度。其中,相同分量之间的相似度可以通过查询公共汉语近似词库和相应领域的相似度词库获得,各领域的相似度词库可以由开发人员预先整理得到;计算相似度时特征向量各分量的权重值可以根据需要设置或通过预先设置的神经网络算法训练获得。
S240、按照与所述目标指标之间的相似度由大到小的顺序自所述目标类中获取设定数量的待选指标,作为所述目标指标的相似指标。
具体的,如果在对目标指标与各待选指标进行聚类运算的过程中已对目标指标与各待选指标之间的相似度进行了计算,则可以直接基于聚类运算过程中计算得到目标指标与目标类中的各待选指标之间的相似度由大到小的顺序获取设定数量的待选指标作为目标指标的相似指标;如果在对目标指标与各待选指标进行聚类运算的过程中未计算目标指标与各待选指标之间的相似度,则可以依据目标指标的目标特征向量、目标类中的各待选指标的待选特征向量以及特征向量各分量之间的权重值计算目标指标与目标类中各待选指标之间的相似度,将各相似度按照从大到小的顺序对目标类中的各待选指标进行排序,并按照该排序从前向后的顺序获取设定数量的待选指标作为目标指标的相似指标。其中,所获取的待选指标的数量可以根据需要设置,如可以设置为5-10中的任意整数值。
S250、将所述相似指标发送给目标用户端。
S260、判断目标用户端是否采用所述相似数据源作为目标数据源,若是,则执行S270;若否,则执行S280。
具体的,可以根据目标用户端发送的反馈信息确定目标用户端是否采用目标指标的相似数据源作为目标数据源,如目标用户端可以在将相似指标推荐给用户之后,检测用户是否接受该推荐,得到检测结果,生成携带有该检测结果的反馈信息,并将该反馈信息发送给服务器;从而,服务器基于目标用户端发送的反馈信息即可以确定目标用户端是否采用目标指标的相似数据有作为目标数据源,例如,当反馈信息中携带的检测结果为用户接受推荐时,确定目标用户端采用相似指标的相似数据源作为目标数据的目标数据源;当反馈信息中携带的检测结果为用户未接受推荐时,确定目标用户端未采用相似指标的相似数据源作为目标指标的目标数据源。
在此,需要说明的是,用户是否接收推荐是相对于服务器向目标用户端发送的所有相似指标而言的,即当向目标用户端发送的相似指标的数量为一个时,若用户未接受该相似指标的推荐,则可以直接将检测结果确定为用户未接受推荐;当向目标用户端发送的相似指标的数量为多个时,若用户未接受全部相似指标的推荐,则可以将检测结果确定为用户未接受推荐,相应的,若用户接受了所发送的多个相似指标中的某一个相似指标的推荐,则可以将检测结果确定为用户接受推荐。
S270、在监测到所述目标数据源发生变化时,向所述相似数据源对应的相似用户端发送携带有变化后的目标指标的提醒信息,以提醒所述相似用户端的用户基于所述目标指标修改所述相似指标的相似数据源,结束操作。
在本实施例中,当用户选用相似指标的相似数据源作为目标指标的目标数据源时,说明相似数据源与目标数据源之间存在较大的相似性,此时,当监测到目标数据源发送变化(即用户对目标指标的目标数据源进行二次修订)时,可以提醒相似用户端的用户同步修改相似指标的相似数据源,以辅助相似用户端的用户进一步提升所定义的相似指标的相似数据源的合理性。其中,相似用户端为构建相似指标所属业务报表的用户端,其可以为目标用户端,也可以为其他非目标用户端;所提醒的相似用户端可以包括目标用户端发送的目标指标的全部相似指标所对应的用户端,也可以仅包括用户所选用的相似指标所对应的用户端,即相似数据源与修订前的目标指标的目标数据源完全相同的相似指标所对应的客户端。
示例性的,目标用户端在用户选用相似指标的相似数据源作为目标指标的目标数据源之后,监测用户是否触发对目标数据源的修改操作,若是,则向服务器发送携带有修改后的目标指标的修改通知,并将该修改通知发送给服务器;相应的,服务器在接收到目标用户端发送的修改通知后,生成携带有修改后的目标指标的提醒信息,并将该提醒信息发送给相似用户端;从而,相似用户端将接收到的提醒信息展示给用户,并基于用户的触发操作确定是否采用修改后的目标指标的目标数据源替换相似指标的相似数据源。
S280、获取定义目标数据源之后的目标指标,并将所述定义目标数据源之后的目标指标作为待选指标存储于所述指标库中。
在本实施例中,当用户未选用相似指标的相似数据源作为目标指标的目标数据源时,说明所确定的相似数据源不能满足用户的需求,且数据库中极有可能不存在与用户定义目标数据源之后的目标指标相同或较为相似的待选指标,因此,当用户为选用相似指标的相似数据源作为目标指标的目标数据源时,可以将定义目标数据源之后的目标指标作为待选指标存储在指标库中,以提高指标库中所存储待选指标的全面性。
考虑到计算目标指标与待选指标的相似度时可能存在的误差,为了进一步减少数据库中待选指标的冗余,优选的,可以在将定义目标数据源之后的目标指标作为待选指标存储于指标数据库中之前,判断数据库中是否存在与定义数据库之后的目标指标完全相同的待选指标,并仅在数据库中不存在与定义数据库之后的目标指标完全相同的待选指标时,将定义目标数据源之后的目标指标作为待选指标存储于指标数据库中,此时,在所述将所述定义目标数据源之后的目标指标作为待选指标存储于所述指标库中之前,还可以包括:确定所述指标库中不存在与所述定义目标数据源之后的目标指标相同的待选指标。此外,为了减少数据库中待选指标的冗余,还可以基于用户或开发人员的删除操作,删除经用户或开发人员确定的与指标库中存储的其他某一待选指标完全相同的待选指标。
此外,在将定义目标数据源之后的目标指标作为待选指标存储于指标库中之后,本实施例还可以在当前条件符合各特征向量各分量权重值的训练条件时,基于指标库中存储的各待选指标重新采用预设神经网络算法对特征向量各分量的权重值进行训练,以进一步提高计算得到的目标指标与待选指标的相似度的准确性。其中,训练条件可以根据需要设置,如可以设置为在当前时刻到达权重值的训练时刻时进行训练,或者,在指标库中新加入的待选指标的数量达到设定数量时进行训练,等等。
本发明实施例二提供的基于语义分析的报表数据源推荐方法,通过对目标指标与数据库中各待选指标进行聚类运算得到目标指标所属的目标类,按照目标类中各待选指标与目标指标之间的相似度由大到小的顺序选取目标指标的相似指标,将所选取的相似指标发送给目标用户端,并在目标用户端采用相似指标的数据源作为目标指标的目标数据源且该目标数据源发生变化时,提醒相似用户端用户同步修改该相似数据源,在目标用户端未采用相似指标的数据源作为目标指标的目标数据源时,将定义目标数据源之后的目标指标作为待选指标存储于指标库中。本实施例通过采用上述技术方案,不但能够进一步提高所确定的相似数据源的实用性,减少目标用户端用户构建业务图表所花费的时间,并且,还能够辅助相似用户端用户提升其所定义的相似指标的相似数据源的合理性,提高用户的使用体验。
实施例三
本发明实施例三提供一种基于语义分析的报表数据源推荐装置。该装置可以由软件和/或硬件实现,一般可集成于具有相似指标推荐功能的服务器中,适用于在报表建模时为报表表中需要定义数据源的指标推荐可用数据源的情况,可通过执行数据源对的确定方法辅助用户进行数据源定义。图3为本发明实施例三提供的基于语义分析的报表数据源推荐装置的结构框图,如图3所示,所述装置包括获取模块301、确定模块302和发送模块303,其中,
获取模块301,用于获取业务报表中需要定义数据源的目标指标的属性信息;
确定模块302,用于根据所述属性信息确定所述目标指标的相似指标;
发送模块303,用于将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源。
本发明实施例三提供的基于语义分析的报表数据源推荐装置,通过获取模块获取业务报表中需要定义数据源的目标指标的属性信息,通过确定模块根据该属性信息确定指标库中存储的与该目标指标相似的相似指标,并通过发送模块将该相似指标发送给目标用户端,以使目标用户端基于该相似指标的相似数据源定义目标指标的目标数据源。本实施例通过采用上述技术方案,向用户端推荐目标指标的相似指标,使得用户端能够直接采用相似指标的相似数据源作为目标指标的目标数据源,无需再通过人工的方式识别目标指标下的数据含义和判断数据来源,能够实现报表数据源取数规则的快速生成,减少定义数据源取数规则所耗费的时间,简化报表设置所需的工作量。
在上述方案中,所述确定模块302可以包括:向量生成单元,用于根据所述属性信息生成所述目标指标的目标特征向量;目标类确定单元,用于依据所述目标特征向量以及指标库中各待选指标的待选特征向量对所述目标指标以及各所述待选指标进行聚类运算,确定所述目标指标所属的目标类;指标获取单元,用于按照与所述目标指标之间的相似度由大到小的顺序自所述目标类中获取设定数量的待选指标,作为所述目标指标的相似指标。
在上述方案中,所述属性信息可以包括目标指标名称信息、报表名称信息以及关联指标名称信息。
在上述方案中,所述向量生成单元具体可以用户:针对所述属性信息中的每一项名称信息,依据所述业务报表所属业务领域的领域词库对所述名称信息进行分词处理,并根据分词得到的每个词语的词性确定所述名称信息对应的分特征向量;将各所述分特征向量组合为一个总特征向量,作为所述目标指标的目标特征向量。
进一步地,所述基于语义分析的报表数据源推荐装置还可以包括:存储模块,用于在所述将所述相似指标发送给目标用户端之后,针对监测到目标用户端未采用所述相似数据源作为目标数据源的情况,获取定义目标数据源之后的目标指标,并将所述定义目标数据源之后的目标指标作为待选指标存储于所述指标库中。
在上述方案中,所述存储模块还可以用于:在所述将所述定义目标数据源之后的目标指标作为待选指标存储于所述指标库中之前,确定所述指标库中不存在与所述定义目标数据源之后的目标指标相同的待选指标。
进一步地,所述基于语义分析的报表数据源推荐装置还可以包括:提醒模块,用于在所述将所述相似指标发送给目标用户端之后,针对监测到目标用户端采用所述相似数据源作为目标数据源的情况,在监测到所述目标数据源发生变化时,向所述相似数据源对应的相似用户端发送携带有变化后的目标指标的提醒信息,以提醒所述相似用户端的用户基于所述目标指标修改所述相似指标的相似数据源。
本发明实施例三提供的基于语义分析的报表数据源推荐装置可执行本发明任意实施例提供的基于语义分析的报表数据源推荐方法,具备执行基于语义分析的报表数据源推荐方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于语义分析的报表数据源推荐方法。
实施例四
图4为本发明实施例四提供的一种服务器的结构示意图,如图4所示,该服务器包括处理器40和存储器41,还可以包括输入装置42和输出装置43;服务器中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;服务器中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于语义分析的报表数据源推荐方法对应的程序指令/模块(例如,基于语义分析的报表数据源推荐装置中的获取模块301、确定模块302和发送模块303)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的基于语义分析的报表数据源推荐方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于语义分析的报表数据源推荐方法,该方法包括:
获取业务报表中需要定义数据源的目标指标的属性信息;
根据所述属性信息确定所述目标指标的相似指标;
将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于语义分析的报表数据源推荐方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于语义分析的报表数据源推荐装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种基于语义分析的报表数据源推荐方法,其特征在于,包括:
获取业务报表中需要定义数据源的目标指标的属性信息;
根据所述属性信息确定所述目标指标的相似指标;
将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源;
其中,所述根据所述属性信息确定所述目标指标的相似指标,包括:
根据所述属性信息生成所述目标指标的目标特征向量;
依据所述目标特征向量以及指标库中各待选指标的待选特征向量对所述目标指标以及各所述待选指标进行聚类运算,确定所述目标指标所属的目标类;
按照与所述目标指标之间的相似度由大到小的顺序自所述目标类中获取设定数量的待选指标,作为所述目标指标的相似指标。
2.根据权利要求1所述的方法,其特征在于,所述属性信息包括目标指标名称信息、报表名称信息以及关联指标名称信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述属性信息生成所述目标指标的目标特征向量,包括:
针对所述属性信息中的每一项名称信息,依据所述业务报表所属业务领域的领域词库对所述名称信息进行分词处理,并根据分词得到的每个词语的词性确定所述名称信息对应的分特征向量;
将各所述分特征向量组合为一个总特征向量,作为所述目标指标的目标特征向量。
4.根据权利要求1-3任一所述的方法,其特征在于,在所述将所述相似指标发送给目标用户端之后,还包括:
针对监测到目标用户端未采用所述相似数据源作为目标数据源的情况,获取定义目标数据源之后的目标指标,并将所述定义目标数据源之后的目标指标作为待选指标存储于所述指标库中。
5.根据权利要求4所述的方法,其特征在于,在所述将所述定义目标数据源之后的目标指标作为待选指标存储于所述指标库中之前,还包括:
确定所述指标库中不存在与所述定义目标数据源之后的目标指标相同的待选指标。
6.根据权利要求1-3任一所述的方法,其特征在于,在所述将所述相似指标发送给目标用户端之后,还包括:
针对监测到目标用户端采用所述相似数据源作为目标数据源的情况,在监测到所述目标数据源发生变化时,向所述相似数据源对应的相似用户端发送携带有变化后的目标指标的提醒信息,以提醒所述相似用户端的用户基于所述目标指标修改所述相似指标的相似数据源。
7.一种基于语义分析的报表数据源推荐装置,其特征在于,包括:
获取模块,用于获取业务报表中需要定义数据源的目标指标的属性信息;
确定模块,用于根据所述属性信息确定所述目标指标的相似指标;
发送模块,用于将所述相似指标发送给目标用户端,以使所述目标用户端基于所述相似指标的相似数据源定义所述目标指标的目标数据源;
所述确定模块包括:
向量生成单元,用于根据所述属性信息生成所述目标指标的目标特征向量;
目标类确定单元,用于依据所述目标特征向量以及指标库中各待选指标的待选特征向量对所述目标指标以及各所述待选指标进行聚类运算,确定所述目标指标所属的目标类;
指标获取单元,用于按照与所述目标指标之间的相似度由大到小的顺序自所述目标类中获取设定数量的待选指标,作为所述目标指标的相似指标。
CN201911275472.7A 2019-12-12 2019-12-12 一种基于语义分析的报表数据源推荐方法与装置 Active CN111046082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911275472.7A CN111046082B (zh) 2019-12-12 2019-12-12 一种基于语义分析的报表数据源推荐方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911275472.7A CN111046082B (zh) 2019-12-12 2019-12-12 一种基于语义分析的报表数据源推荐方法与装置

Publications (2)

Publication Number Publication Date
CN111046082A CN111046082A (zh) 2020-04-21
CN111046082B true CN111046082B (zh) 2022-07-08

Family

ID=70236368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911275472.7A Active CN111046082B (zh) 2019-12-12 2019-12-12 一种基于语义分析的报表数据源推荐方法与装置

Country Status (1)

Country Link
CN (1) CN111046082B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015774B (zh) * 2020-09-25 2023-08-29 北京百度网讯科技有限公司 一种图表推荐方法、装置、电子设备及存储介质
CN114866575A (zh) * 2022-03-31 2022-08-05 远景智能国际私人投资有限公司 物联网设备的管理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488746A (zh) * 2013-09-22 2014-01-01 成都锐理开创信息技术有限公司 一种获取业务信息的方法及装置
CN108492028A (zh) * 2018-03-21 2018-09-04 徐欣 数据需求标准化方法及标准化系统
CN109657214A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 报表生成方法、装置、终端及存储介质
CN110008232A (zh) * 2019-04-11 2019-07-12 北京启迪区块链科技发展有限公司 结构化查询语句的生成方法、装置、服务器及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023483B2 (en) * 2016-08-04 2021-06-01 International Business Machines Corporation Model-driven profiling job generator for data sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488746A (zh) * 2013-09-22 2014-01-01 成都锐理开创信息技术有限公司 一种获取业务信息的方法及装置
CN108492028A (zh) * 2018-03-21 2018-09-04 徐欣 数据需求标准化方法及标准化系统
CN109657214A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 报表生成方法、装置、终端及存储介质
CN110008232A (zh) * 2019-04-11 2019-07-12 北京启迪区块链科技发展有限公司 结构化查询语句的生成方法、装置、服务器及介质

Also Published As

Publication number Publication date
CN111046082A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
US11397772B2 (en) Information search method, apparatus, and system
CN106951925B (zh) 数据处理方法、装置、服务器及系统
EP3617952A1 (en) Information search method, apparatus and system
US10348550B2 (en) Method and system for processing network media information
CN104933100A (zh) 关键词推荐方法和装置
CN110489449B (zh) 一种图表推荐方法、装置和电子设备
US11269966B2 (en) Multi-classifier-based recommendation method and device, and electronic device
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN111046082B (zh) 一种基于语义分析的报表数据源推荐方法与装置
CN112612887A (zh) 日志处理方法、装置、设备和存储介质
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
US8577814B1 (en) System and method for genetic creation of a rule set for duplicate detection
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113254250A (zh) 数据库服务器异常成因检测方法、装置、设备和存储介质
CN107656927B (zh) 一种特征选择方法及设备
CN111178421B (zh) 检测用户状态的方法、装置、介质以及电子设备
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
CN115705320A (zh) 索引生成方法、装置、计算机设备和计算机可读存储介质
CN108429865B (zh) 一种产品推荐处理方法及装置
CN113448842B (zh) 大数据系统测试方法、装置、服务器及存储介质
JP6993525B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN112887743B (zh) 直播平台的信息推送方法、装置、电子设备和存储介质
CN113407859B (zh) 一种资源推荐方法、装置、电子设备及存储介质
CN112948589B (zh) 文本分类方法、装置和计算机可读存储介质
CN114385906A (zh) 一种预测方法、推荐方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant