CN110955801B - 一种cognos报表指标的知识图谱分析方法及系统 - Google Patents

一种cognos报表指标的知识图谱分析方法及系统 Download PDF

Info

Publication number
CN110955801B
CN110955801B CN201911240177.8A CN201911240177A CN110955801B CN 110955801 B CN110955801 B CN 110955801B CN 201911240177 A CN201911240177 A CN 201911240177A CN 110955801 B CN110955801 B CN 110955801B
Authority
CN
China
Prior art keywords
report
entity
information
index
cognos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911240177.8A
Other languages
English (en)
Other versions
CN110955801A (zh
Inventor
邓智鸿
张东凯
欧万翔
徐国柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201911240177.8A priority Critical patent/CN110955801B/zh
Publication of CN110955801A publication Critical patent/CN110955801A/zh
Application granted granted Critical
Publication of CN110955801B publication Critical patent/CN110955801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明提供了一种cognos报表指标的知识图谱分析方法及系统,所述方法包括:对cognos报表样式文件进行实体抽取得到第一实体信息;对报表应用平台发布的报表对应的报表应用信息进行实体抽取得到第二实体信息;对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息;根据所述标准化实体信息形成报表指标知识图谱,根据所述知识图谱形成报表模板并向用户反馈,本发明可通过对报表样式文件和报表应用平台的报表信息进行实体提取,对指标进行融合处理后形成知识图谱,以推进指标应用。

Description

一种cognos报表指标的知识图谱分析方法及系统
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种cognos报表指标的知识图谱分析方法及装置。
背景技术
BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用于将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。Cognos是在BI核心平台之上,以服务为导向进行架构的一种数据模拟性,可以通过单一产品和在单一可靠架构上提供完整业务职能功能的解决方案。它可以提供无缝密合的报表、分析、积分卡、仪表盘等解决方案,通过提供所有的系统和资料资源,以简化公司各员工处理资讯的方法。Cognos有强大的报表制作和展示功能能够制作/展示任何形式的报表,其纯粹的Web界面使用方式又使得部署成本和管理成本降到最低,同时Cognos还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。作为一个全面、灵活的产品,Cognos业务智能解决方案目前已经广泛应用到银行业务系统中。在现有Cognos产品提供的服务中,用户可以自定义数据源、数据表(包含维度和指标),基于数据表来制作报表模板,并发布报表到公共路径下以供多用户共享。在制作报表模板时,可以基于现有指标直接使用,也可以在模板中自定义衍生指标的简单运算规则,或对这些指标进行聚合运算(如合计、计数、平均值、最大值、最小值等)等函数运算。
在金融业务领域内,报表多达数十万张,共计几百万的指标和维度,存在下列几个问题:(1)指标多而分散,无法统筹业务系统中已发布实施的指标,未进行统一的管理;(2)对于报表层定义加工规则的指标,缺乏相应的规则说明;(3)指标之间无法建立关联,无法描述指标之间的紧密度和亲密度;(4)多用户同时制作报表模式下,存在用户重复定义报表指标,无法做到指标的全行应用共享;(5)发布冗余报表多,同一个指标可能存在多个业务报表中但数据未一致性,用户体验不好;(6)发布冗余报表多,增加了Cognos服务器报表元数据信息的资源消耗,影响服务器运行效率和稳定;(7)管理上无法评价用户行为,如分行管理员是否违规发布了包含敏感信息的报表供下辖分行用户下载。
发明内容
为了解决以上问题的至少之一,本发明的一个目的在于提供一种cognos报表指标的知识图谱分析方法,通过对报表样式文件和报表应用平台的报表信息进行实体提取,对指标进行融合处理后形成知识图谱,以推进指标应用。本发明的另一个目的在于提供一种cognos报表指标的知识图谱分析系统。本发明的再一个目的在于提供一种计算机设备。本发明的还一个目的在于提供一种可读介质。
为了达到以上目的,本发明一方面公开了一种cognos报表指标的知识图谱分析方法,包括:
对cognos报表样式文件进行实体抽取得到第一实体信息;
对报表应用平台发布的报表对应的报表应用信息进行实体抽取得到第二实体信息;
对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息;
根据所述标准化实体信息形成报表指标知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
优选的,对cognos报表样式文件进行实体抽取得到第一实体信息具体包括:
将用于存放报表样式的cognos报表样式文件导出至XML数据包文件中得到XML数据形式的cognos报表样式文件;
对XML数据形式的cognos报表样式文件通过实体抽取得到第一实体信息。
优选的,所述第一实体信息包括报表实体、指标实体、关系实体和属性实体。
优选的,所述对报表应用平台的报表信息进行实体抽取得到第二实体信息具体包括:
获取报表应用平台发布的报表对应的报表信息;
根据所述报表信息确定与报表关联的数据库信息;
对包括所述报表信息和所述数据库信息的报表应用信息进行实体抽取得到第二实体信息。
优选的,所述第二实体信息包括报表发布名称、报表发布路径、发布报表的授权岗位信息、报表设置参数、报表访问量以及报表运行的平均响应时间中的至少一种。
优选的,所述对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息具体包括:
将所述第一实体信息和第二实体信息进行实体对齐;
将实体对齐后的第一实体信息和第二实体信息中的指标实体通过自然语言处理方法消歧和融合形成标准化实体信息。
优选的,所述根据所述标准化实体信息形成报表指标知识图谱具体包括:
将所述标准化实体信息存储至图数据库中;
通过图数据库得到报表实体与指标实体、指标实体与指标实体以及指标实体与数据库信息间的关系并形成知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
优选的,所述方法还包括以下步骤的至少之一:
确定所述知识图谱是否存在敏感信息;
确定所述知识图谱中的中心指标;
确定所述知识图谱中的孤立指标;
根据所述知识图谱分析进行指标影响性分析;
根据所述知识图谱进行指标检索。
本发明还公开了一种cognos报表指标的知识图谱分析系统,包括:
第一实体抽取单元,用于对cognos报表样式文件进行实体抽取得到第一实体信息;
第二实体抽取单元,用于对报表应用平台发布的报表对应的报表应用信息进行实体抽取得到第二实体信息;
实体信息处理单元,用于对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息;
知识图谱分析单元,用于根据所述标准化实体信息形成报表指标知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
本发明还公开了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,
所述处理器执行所述程序时实现如上所述方法。
本发明还公开了一种计算机可读介质,其上存储有计算机程序,
该程序被处理器执行时实现如上所述方法。
本发明通过对cognos报表样式文件和报表应用平台的报表信息进行实体抽取得到第一实体信息和第二实体信息。然后可通过自然语言处理等方式对第一实体信息和第二实体信息进行消歧和融合处理,从而可建立一套指标库,根据指标库形成指标知识图谱,从而可得到指标的中心度和紧密度,对指标进行推理和质量进行评估,根据知识图谱形成报表模板并向用户反馈,根据知识图谱形成的报表模拟更符合用户制作报表的习惯,从而推进指标应用,提高报表生成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例的流程图之一;
图2示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例的流程图之二;
图3示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例的流程图之三;
图4示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例的流程图之四;
图5示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例指标知识图谱本体构建的流程示意图;
图6示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例中消歧和融合的示例图;
图7示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例的流程图之五;
图8示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例的流程图之六;
图9示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例知识图谱模式层的逻辑示意图;
图10示出本发明一种cognos报表指标的知识图谱分析方法一个具体实施例的流程图之七;
图11示出本发明一种cognos报表指标的知识图谱分析系统一个具体实施例的结构图;
图12示出适于用来实现本发明实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有Cognos产品提供的服务中,用户可以自行制作模板并发布共享给他人使用,我们可以收集到用户制作或访问了哪些报表名称,但对于报表里面的指标以及指标的规则定义信息并不能直接进行获取。
根据本发明的一个方面,本实施例公开了一种cognos报表指标的知识图谱分析方法。如图1所示,本实施例中,cognos报表指标的知识图谱分析方法具体包括:
S100:对cognos报表样式文件进行实体抽取得到第一实体信息。
S200:对报表应用平台发布的报表对应的报表应用信息进行实体抽取得到第二实体信息。
S300:对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息。
S400:根据所述标准化实体信息形成报表指标知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
本发明通过对cognos报表样式文件和报表应用平台的报表信息进行实体抽取得到第一实体信息和第二实体信息。然后可通过自然语言处理等方式对第一实体信息和第二实体信息进行消歧和融合处理,从而可建立一套指标库,根据指标库形成指标知识图谱,从而可得到指标的中心度和紧密度,对指标进行推理和质量进行评估,根据知识图谱形成报表模板并向用户反馈,根据知识图谱形成的报表模拟更符合用户制作报表的习惯,从而推进指标应用,提高报表生成效率。在优选的实施方式中,如图2所示,所述S100具体可包括:
S110:将用于存放报表样式的cognos报表样式文件导出至XML数据包文件中得到XML数据形式的cognos报表样式文件。
S120:对XML数据形式的cognos报表样式文件通过实体抽取得到第一实体信息。
具体的,目前报表制作样式信息并未直接存放于Cognos产品的数据库中,而是以产品封装的形式存储于特定的文件格式中。可通过采用后台管理员的身份将Cognos用于存放报表样式的文件导出到半结构化XML数据包文件中,即可对半结构化XML数据的cognos报表样式文件进行实体抽取得到第一实体信息。具体的,对于cognos报表样式文件可按照菜单领域进行导出,划分为多个XML文件,cognos报表样式文件内容包括了用户定制模板的所有信息,比如报表名、报表文件路径、模板表样、指标定义规则和指标依赖的查询和数据表间的关联等。
其中,可通过抽取器实现报表实体、指标实体以及实体间关系的实体抽取,在解析XML数据后可通过抽取器进行实体抽取得到报表实体、指标实体、关系实体和属性实体。
具体的,在一个具体例子中,半结构化XML数据的cognos报表样式文件如表1所示,报表的页面内容主要存储于object下的reportpage节点内。
表1
Figure BDA0002305987330000061
Figure BDA0002305987330000071
可选的,报表样式通常包括交叉表和列表两种,其对应的XML的存储格式不尽相同,可通过不同的解析方式进行实体抽取。
其中,对于列表解析,如果包含列标题listPageHeader/listHeader,则表头取rowCell里面的staticValue值,并判断colspan的值,如果>1则存在表头合并处理;否则,获取listColumn的listColumnTitle里的值,作为表头,表2示出了用于实现列表实体抽取的部分代码。
表2
Figure BDA0002305987330000072
Figure BDA0002305987330000081
对于列表解析,列表的标题可能有多级,需要合并的表头,将多级表头用"___"进行拼接,其代码实现方式如表3所示。
表3
Figure BDA0002305987330000082
对于交叉表解析,直接抽取引用查询的字段,作为标题信息。部分代码如表4所示。
表4
Figure BDA0002305987330000083
在优选的实施方式中,如图3所示,所述S200具体可包括:
S210:获取报表应用平台发布的报表对应的报表信息。
S220:根据所述报表信息确定与报表关联的数据库信息。
S230:对包括所述报表信息和所述数据库信息的报表应用信息进行实体抽取得到第二实体信息。
报表应用平台的资料库中记录了用户使用报表的报表信息,通过报表获取数据的路径信息可确定与报表关联的数据库信息,可对报表信息和数据库信息的报表应用信息进行实体抽取得到第二实体信息。其中,报表应用平台上存储的报表信息可包括用户发布的报表清单、用户发布报表的授权岗位信息、用户发布报表设置的参数、用户使用报表的日志信息和用户访问报表的平均响应时间中的至少之一。其中,用户发布的报表清单的属性可包括发布人、发布的报表名称及发布的报表路径信息、发布时间等。用户发布报表设置的参数可包括最大访问记录数、是否控制报表为安全浏览器访问方式等。用户使用报表的日志信息可包括报表的访问量。以上报表信息均存储于报表应用库中,可以通过数据复制组件,自动获取相应信息。
在优选的实施方式中,如图4所示,所述S300可包括:
S310:将所述第一实体信息和第二实体信息进行实体对齐。具体的,通过半结构化抽取,将XML数据包文件内容抽取得到报表实体、指标实体和关系实体等第一实体信息,将半结构化数据转换为结构化关系。通过对报表应用平台的报表应用信息进行实体抽取得到第二实体信息,第二实体信息可包括已发布的报表实体、模型数据表实体和其他属性实体。第一实体信息和第二实体信息的抽取来源不同,需要对两部分抽取得到的实体进行实体对齐处理,抛弃干扰数据,例如可按照报表名称和报表发布路径将第一实体信息和第二实体信息进行关联,从而去除一些无效的实体信息,对齐后可得到指标实体、实体间关系和实体属性等信息,这些信息分别表示实体、实体的属性和各实体间的相互关系,均为形成指标知识图谱的必要元素。如图5所示。其中,对于第一实体信息中的报表实体的实体对齐,在一个具体例子中,可通过以下步骤实现:从Cognos的半结构化XML内容提取出所有后台报表ID、报表名称和发布路径等信息,构建第一报表实体,然后从结构化数据中提取用户前台发布的报表名称、发布路径、报表参数和报表访问量等信息,构建第二报表实体。第一报表实体与第二报表实体可以报表名称和发布路径关联,去除干扰信息,形成新的包含报表ID、报表名称、发布路径、报表参数、报表访问量等信息的实体,完成实体对齐。对于第一实体信息中的指标实体的实体对齐,在一个具体例子中,可通过以下步骤实现:从Cognos的半结构化XML内容提取出报表中的属性,并解析出报表层面的加工规则和对应报表模型的属性映射规则,导入模型的数据指引,根据模型字段类型说明来区分模型指标和属性,进行报表模型和指标的关联,识别报表模型中的指标,形成指标实体。
S320:将实体对齐后的第一实体信息的指标实体通过自然语言处理方法消歧和融合形成标准化实体信息。第一实体信息中的指标实体来源于用户制作报表时的标题,为了方便后续准确描述指标间的关系以及判断指标的应用场景,需要将指标先进行融合处理,将同义不同名的指标进行合并定义成同一个,反之需要将同名不同义的指标进行消歧处理进行分拆。需将XML抽取的指标进行语义上的消歧和融合判断处理,形成标准化实体信息,例如,如图6所示,消歧和融合具体可包括:消歧处理时,若指标实体名称一致,但引用数据表为不一致,则判断为不同。融合处理时,若指标实体引用的数据表一致,则判断为同一个;对指标实体名称进行自然语言语义分析,若相似度高,则判断为同一个,再根据指标实体对应的报表上下文人工进行判断是否需要合并。
在优选的实施方式中,如图7所示,所述S300还可包括:
S330:根据更新后的cognos报表样式文件和报表应用信息对标准化实体信息进行质量评估,若不合格,则重复S100~S320形成更新后的标准化实体信息。
在形成了标准化实体信息后,得到指标实体、报表实体、数据库信息以及实体间的关系和属性后,相应实体关系和属性已经达到了稳定,可应用于图谱分析应用。报表运行是个持续的过程,每天都会产生新的报表和指标,需要将增量信息内容融合到已经稳定的实体中。若数据发生更新后,需要重新进行质量评估,以保证实体、关系和属性之间的稳定,以便进一步应用到下一步的知识图谱应用中。其中,具体的,可将新增的信息根据本发明的方法得到新的实体,并形成新的报表指标知识图谱,通过回归验证进行质量评估并持续优化实体对齐方法,提升实体的可信度,确保实体的质量。
在优选的实施方式中,如图8所示,所述S400可包括:
S410:将所述标准化实体信息存储至图数据库中。
S420:通过图数据库得到报表实体与指标实体、指标实体与指标实体以及指标实体与数据库信息间的关系并形成知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
具体的,在S410中,可采取知识图谱的方式来展现指标实体与其他实体间的关系和属性,形成一套指标图谱。知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j。模式层构建在数据层之上,主要是通过多个概念模板来规范数据层的一系列事实表达。
图9示出了知识图谱模式层一个具体实施例的逻辑示意图。其中,报表实体存储所有已发布的报表,以报表名称name标识区分,类型定义为“type:Report”,引入报表的查询次数queryTimes作为其属性。指标实体以指标名称name标识区分,类型定义为“type:Index”。报表可包含多个指标,报表实体与指标实体间关系定义为“contain”,由报表实体指向指标实体,关系为一对多。数据表字段实体以表的字段名称name为标识,类型定义为“type:Field”。指标的加工规则,可能引用于多个数据表字段,指标实体与数据表字段实体间关系定义为“refer_to”,由指标实体指向数据表字段实体实体,关系为一对多。数据表实体以表名称name进行标识,类型定义为“type:Table”。数据表字段归属于数据表,数据表字段实体与数据表实体间关系定义为“belong_to”,关系为一对多。
在S420中,通过图数据库得到报表实体与指标实体、指标实体与指标实体以及指标实体与数据库信息间的关系并形成知识图谱。可根据现有的知识图谱技术根据图数据库中存储的标准化实体信息形成关于指标的知识图谱,以推进指标的应用。
其中,根据指标与报表间的关系,同一个报表可包含多个指标,同一个指标可隶属于多个报表。若以报表的访问次数作为指标的入度值来计算,值越大说明中心度越高,该指标应用得越多,其重要性也就越高;值越小说明中心度低,该指标使用得少,相对而言其重要性也会越低。对于中心度高的指标,要重点推广其应用,相应配备的资源要足够;而对于中心度低的指标,要相对弱化其应用。
根据指标之间关系,同一个报表可包含多个指标,指标之间存在亲密度之间的联系。若以报表的访问次数作为指标之间亲密度的入度值来计算,值越大说明亲密度越高,指标之间被关联使用就越多;值越小说明亲密度低,指标之间被关联使用就越少。对于亲密度高的指标,要提取出来重点发掘其应用价值。
根据指标与后台数据库表/数据库表字段的关系,同一个指标可引用多个数据库表字段,同一个数据库表字段可被多个指标引用,同一个数据库表包含多个数据库表字段,从而可获取指标加工来源字段,作为指标规则的来源说明;同时可获取到数据库表总共被多少个指标引用,若数据库表发生了变化,则相应影响指标的范围也就清晰明了。
在优选的实施方式中,形成指标知识图谱可推进指标应用。由此,如图10所示,所述方法还包括以下步骤的至少之一:
S510:确定所述知识图谱是否存在敏感信息。
具体的,报表用于多维展示用户定义的数据表信息,对于认定为包含敏感信息(如姓名、年龄、电话等)的报表用户不能直接下载,需在安全云桌面中安全浏览器中打开,防范泄露敏感信息。但报表中是否包含敏感信息,是用户在制作报表模板时自定义的,存在管理风险。
可选的,可通过以下3个方面去检查指标知识图谱,核实用户是否违规开放了敏感信息的下载。第一种,可从报表中抽取标题作为指标,直接判断指标名称是否为敏感信息,通过对指标名称和敏感词进行语义分析,判断其相似程度,如果相似程度高并且用户并未设置为使用安全浏览器,则识别为包含敏感信息。第二种,可从报表中抽取标题作为指标,通过解析出指标来源于报表数据源定义的数据表字段,通过对数据表字段说明和敏感词进行语义分析,判断其相似程度,如果相似程度高并且用户并未设置为使用安全浏览器,则识别为包含敏感信息。第三种,可从报表中抽取标题作为指标,通过解析出指标来源于报表数据源定义的数据表字段,对于该字段引用后台数据仓库表有相应的数据指引说明,通过对数据指引的字段和敏感词进行语义分析,判断其相似程度,如果相似程度高并且用户并未设置为使用安全浏览器,则识别为包含敏感信息。对于已识别为包含敏感信息的报表,可采取通知的方式告知用户整改,并定期对整改后的效果进行评价,形成对用户行为进行考核。
S520:确定所述知识图谱中的中心指标。
目前对于银行报表平台的实施方式为,总行技术管理员可以制作报表,发布到公共路径下供全行所有用户访问;分行技术管理员也可以制作报表,发布到公共路径下供本分行下辖用户访问,分行之间的用户不能共享。一般来说,对于共享度高的需求,并且数据规则适用全行,由总行集中开发部署;而对于具有分行特色数据规则的,由分行自行实施。在系统建设过程中,总行需求会逐步完善,尽量做到高覆盖度,以减少分行重复开发,做到统一全行口径。但往往需求的提升需要由总行业务部门发起,业务部门无法从全局了解到所有分行具体开发的报表和指标,这时需要技术系统通过分析分行用户行为来提供建议。
中心性(Centrality)是社交网络分析(Social network analysis,SNA)中常用的一个概念,用以表达社交网络中一个点或者一个人在整个网络中所在中心的程度,这个程度用数字来表示就被称作为中心度(也就是通过知道一个节点的中心性来了解判断这个节点在这个网络中所占据的重要性的概念)。同一个报表可包含多个指标,同一个指标可隶属于多个报表。指标中心度是指该指标所有报表实体包含的数,若以报表的访问次数作为指标的入度值来计算,值越大说明中心度越高,该指标应用得越多,其重要性也就越高;值越小说明中心度低,该指标使用得少,相对而言其重要性也会越低。对于中心度高的指标,要重点推广其应用,若中心度高的指标总行未进行覆盖,则提升为全行性的需求迫切性就越高。同时,通过提升全行性需求后,分行原有开发的报表就可以被替代下线,可大大减少生产运行环境报表的数量,提升服务器运行效率。
S530:确定所述知识图谱中的孤立指标。
按照目前报表平台的实施方式为,分行技术管理员也可以制作报表,总分行管理员各司其职共同协作,均可发布到公共路径下供全分行或者本分行下辖用户访问,但分行发布的表报在分行之间的用户不能共享。这样发布的报表越多,对用户可访问的报表也就越多,按照墨菲定律,可能存在百分之八十的报表日常不会被用户访问,而在这部分中很多报表是可被替代或下线处理的,或者需要更进一步的优化。
存在下列几种情况下,用户的报表可能不能被极少访问:(1)报表被其他更适用的报表替代,但未做下线处理。对于这类报表,识别出来后需推进进行下线处理,以减少生产环境运行报表的数量,提升服务器整体运行效率。(2)报表数据不准确,不被用户认可,用户极少再去主动访问。对于这类报表,识别出来后需推进进行分析,找出数据不准确的原因,加大报表推广力度。(3)报表用户体验不好,比如执行效率低,用户访问的主动性会相对较低。对于这类报表,结合报表的平均响应时间进行分析,对于重点应用优先进行性能优化处理。
S540:根据所述知识图谱分析进行指标影响性分析。
现状情况下指标多而分散,无法统筹业务系统中已发布实施的指标,无法统筹指标与后台数据库表之间的引用关系;在打通Cognos业务指标和后台数据库之间的关联关系之后,可以对指标的影响性进行运行分析做到下列效果:(1)后台数据库表若进行数据加工规则变更,可获取到对报表指标的影响范围,从而无法提前通知用户对指标规则进行变更处理,保证业务的延续性,提升用户体验。(2)后台数据库表若因上游系统结构调整而替代下线,可获取到对报表指标的影响范围,提前通知用户对指标进行替代表的变更处理,保证业务的延续性,提升用户体验。(3)后台数据库表若因上游供数延迟或因资源紧张、技术故障导致数据加工延迟,可获取到对报表指标的影响范围,进而结合报表访问量信息进行评估优先级,优先保障高优级作业进行资源分配,最大程度降低系统因突发情况导致对用户使用数据的影响。(4)通过用户制作报表间指标亲密度进行分析,亲密度越高的指标代表其被用户关联使用度越高,可以考虑对这部分指标进行后台数据库表级的整合,方便用户可直接单表进行报表访问,提升报表访问效率。
S550:根据所述知识图谱进行指标检索。
金融业务领域内的报表多达数十万张,共计几百万的指标和维度,用户使用群体广泛,现状情况下无法统筹业务系统中已发布实施的指标,无法获知指标在报表层的加工规则;在打通Cognos业务指标和后台数据库之间的关联关系之后,可以对报表的指标和指标规则进行检索,实施带来如下效果:(1)用户可按照指标来检索,查找已发布的指标所归属的报表路径,方便用户使用报表。(2)用户在定制报表前,可先一步检索指标规则,以确认是否已有相应指标的实现,减少报表的重复开发。
通过本发明的cognos报表指标的知识图谱分析方法能够为银行业金融机构加强数据安全和客户隐私保护,并对用户行为进行评价,能够为银行业金融机构加强数据治理,提高数据质量,充分发挥数据价值,实现数据共享,还能够提升系统运维水平,提升用户体验。
基于相同原理,本实施例还公开了一种cognos报表指标的知识图谱分析系统。如图11所示,所述系统包括第一实体抽取单元11、第二实体抽取单元12、实体信息处理单元13和知识图谱分析单元14。
其中,所述第一实体抽取单元11用于对cognos报表样式文件进行实体抽取得到第一实体信息。
所述第二实体抽取单元12用于对报表应用平台发布的报表对应的报表应用信息进行实体抽取得到第二实体信息。
所述实体信息处理单元13用于对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息。
所述知识图谱分析单元14用于根据所述标准化实体信息形成报表指标知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
由于该系统解决问题的原理与以上方法类似,因此本系统的实施可以参见方法的实施,在此不再赘述。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在一个典型的实例中计算机设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的由客户端执行的方法,或者,所述处理器执行所述程序时实现如上所述的由服务器执行的方法。
下面参考图12,其示出了适于用来实现本申请实施例的计算机设备600的结构示意图。
如图12所示,计算机设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶反馈器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口606。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (6)

1.一种cognos报表指标的知识图谱分析方法,其特征在于,包括:
对cognos报表样式文件进行实体抽取得到第一实体信息,具体包括:将用于存放报表样式的cognos报表样式文件导出至XML数据包文件中得到XML数据形式的cognos报表样式文件;对XML数据形式的cognos报表样式文件通过半结构化抽取得到第一实体信息,所述第一实体信息包括报表实体、指标实体、关系实体和属性实体;
对报表应用平台发布的报表对应的报表应用信息进行实体抽取得到第二实体信息,具体包括:获取报表应用平台发布的报表对应的报表信息;根据所述报表信息确定与报表关联的数据库信息;对包括所述报表信息和所述数据库信息的报表应用信息进行实体抽取得到第二实体信息,所述第二实体信息包括报表发布名称、报表发布路径、发布报表的授权岗位信息、报表设置参数、报表访问量以及报表运行的平均响应时间中的至少一种;
对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息,具体包括:将所述第一实体信息和第二实体信息进行实体对齐,将实体对齐后的第一实体信息的指标实体通过自然语言处理方法消歧和融合形成标准化实体信息,将所述第一实体信息和第二实体信息进行实体对齐具体包括:对于第一实体信息中的报表实体的实体对齐,从Cognos的半结构化XML内容中提取出所有后台报表ID、报表名称和发布路径,构建第一报表实体,然后从结构化数据中提取用户前台发布的报表名称、发布路径、报表参数和报表访问量,构建第二报表实体,第一报表实体与第二报表实体以报表名称和发布路径关联,去除干扰信息,形成新的包含报表ID、报表名称、发布路径、报表参数、报表访问量的实体,完成实体对齐;对于第一实体信息中的指标实体的实体对齐,从Cognos的半结构化XML内容提取出报表中的属性,并解析出报表层面的加工规则和对应报表模型的属性映射规则,导入模型的数据指引,根据模型字段类型说明来区分模型指标和属性,进行报表模型和指标的关联,识别报表模型中的指标,形成指标实体;
根据所述标准化实体信息形成报表指标知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
2.根据权利要求1所述的知识图谱分析方法,其特征在于,所述根据所述标准化实体信息形成报表指标知识图谱具体包括:
将所述标准化实体信息存储至图数据库中;
通过图数据库得到报表实体与指标实体、指标实体与指标实体以及指标实体与数据库信息间的关系并形成知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
3.根据权利要求1所述的知识图谱分析方法,其特征在于,所述方法还包括以下步骤的至少之一:
确定所述知识图谱是否存在敏感信息;
确定所述知识图谱中的中心指标;
确定所述知识图谱中的孤立指标;
根据所述知识图谱分析进行指标影响性分析;
根据所述知识图谱进行指标检索。
4.一种cognos报表指标的知识图谱分析系统,其特征在于,包括:
第一实体抽取单元,用于对cognos报表样式文件进行实体抽取得到第一实体信息,具体包括:将用于存放报表样式的cognos报表样式文件导出至XML数据包文件中得到XML数据形式的cognos报表样式文件;对XML数据形式的cognos报表样式文件通过半结构化抽取得到第一实体信息,所述第一实体信息包括报表实体、指标实体、关系实体和属性实体;
第二实体抽取单元,用于对报表应用平台发布的报表对应的报表应用信息进行实体抽取得到第二实体信息,具体包括:获取报表应用平台发布的报表对应的报表信息;根据所述报表信息确定与报表关联的数据库信息;对包括所述报表信息和所述数据库信息的报表应用信息进行实体抽取得到第二实体信息,所述第二实体信息包括报表发布名称、报表发布路径、发布报表的授权岗位信息、报表设置参数、报表访问量以及报表运行的平均响应时间中的至少一种;
实体信息处理单元,用于对所述第一实体信息和第二实体信息进行融合处理得到标准化实体信息,具体包括:将所述第一实体信息和第二实体信息进行实体对齐,将实体对齐后的第一实体信息的指标实体通过自然语言处理方法消歧和融合形成标准化实体信息,将所述第一实体信息和第二实体信息进行实体对齐具体包括:对于第一实体信息中的报表实体的实体对齐,从Cognos的半结构化XML内容中提取出所有后台报表ID、报表名称和发布路径,构建第一报表实体,然后从结构化数据中提取用户前台发布的报表名称、发布路径、报表参数和报表访问量,构建第二报表实体,第一报表实体与第二报表实体以报表名称和发布路径关联,去除干扰信息,形成新的包含报表ID、报表名称、发布路径、报表参数、报表访问量的实体,完成实体对齐;对于第一实体信息中的指标实体的实体对齐,从Cognos的半结构化XML内容提取出报表中的属性,并解析出报表层面的加工规则和对应报表模型的属性映射规则,导入模型的数据指引,根据模型字段类型说明来区分模型指标和属性,进行报表模型和指标的关联,识别报表模型中的指标,形成指标实体;
知识图谱分析单元,用于根据所述标准化实体信息形成报表指标知识图谱,根据所述知识图谱形成报表模板并向用户反馈。
5.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述程序时实现如权利要求1-3任一项所述方法。
6.一种计算机可读介质,其上存储有计算机程序,其特征在于,
该程序被处理器执行时实现如权利要求1-3任一项所述方法。
CN201911240177.8A 2019-12-06 2019-12-06 一种cognos报表指标的知识图谱分析方法及系统 Active CN110955801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911240177.8A CN110955801B (zh) 2019-12-06 2019-12-06 一种cognos报表指标的知识图谱分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911240177.8A CN110955801B (zh) 2019-12-06 2019-12-06 一种cognos报表指标的知识图谱分析方法及系统

Publications (2)

Publication Number Publication Date
CN110955801A CN110955801A (zh) 2020-04-03
CN110955801B true CN110955801B (zh) 2022-10-21

Family

ID=69980049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911240177.8A Active CN110955801B (zh) 2019-12-06 2019-12-06 一种cognos报表指标的知识图谱分析方法及系统

Country Status (1)

Country Link
CN (1) CN110955801B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434200A (zh) * 2020-11-30 2021-03-02 北京思特奇信息技术股份有限公司 一种数据展示方法、系统及电子设备
CN113051407B (zh) * 2021-03-26 2022-10-21 烽火通信科技股份有限公司 一种网络智能运维知识图谱协同构建和共享方法与装置
CN113703886B (zh) * 2021-07-21 2023-06-20 青岛海尔科技有限公司 用户系统行为监控方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN110377751A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 课件智能生成方法、装置、计算机设备及存储介质
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180159876A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Consolidating structured and unstructured security and threat intelligence with knowledge graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN110377751A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 课件智能生成方法、装置、计算机设备及存储介质
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
智能化报表工具的研究、设计与开发;于海波,张启伟,隋志巍,李海涛;《电脑知识与技术》;20191015;第15卷(第29期);第188-193页 *

Also Published As

Publication number Publication date
CN110955801A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
US11847574B2 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
US9323826B2 (en) Methods, apparatus and software for analyzing the content of micro-blog messages
US7886028B2 (en) Method and system for system migration
CN110955801B (zh) 一种cognos报表指标的知识图谱分析方法及系统
US11113317B2 (en) Generating parsing rules for log messages
TWI582622B (zh) 用於在特定裝備之情境中提供動態內容的方法、電腦可讀取儲存媒體及系統
US10083031B2 (en) Cognitive feature analytics
CN108540351B (zh) 分布式大数据服务的自动化测试方法
CN113157947A (zh) 知识图谱的构建方法、工具、装置和服务器
CN113360676A (zh) 一种基于知识图谱确定企业潜在关系的方法及装置
CN113094560A (zh) 基于数据中台的数据标签库构建方法、装置、设备及介质
US20210191923A1 (en) Platform for conversation-based insight search in analytics systems
Esteva et al. Data mining for “big archives” analysis: A case study
CN113867700B (zh) 模型构建方法、展示平台、服务器及存储介质
CN115408236A (zh) 一种日志数据审计系统、方法、设备及介质
US11144520B2 (en) Information system with versioning descending node snapshot
US11580125B2 (en) Information system with temporal data
CN114626366A (zh) 数据词汇表的维护
CN111143322A (zh) 一种数据标准治理系统及方法
CN115269879B (zh) 知识结构数据的生成方法、数据搜索方法和风险告警方法
US11977997B1 (en) Tagging systems and methods for efficient cloud service provisioning
Setiawan et al. The use of big data technology to support the transformation of public content management towards knowledge management
CN116127154A (zh) 知识标签推荐方法、装置、电子设备及存储介质
CN117390023A (zh) 数据合计方法、数据合计装置、设备及存储介质
CN117573653A (zh) 数据字典的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220913

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant