CN115688762A - 数据分析报告复用方法、装置、设备、介质和程序产品 - Google Patents

数据分析报告复用方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN115688762A
CN115688762A CN202210639246.8A CN202210639246A CN115688762A CN 115688762 A CN115688762 A CN 115688762A CN 202210639246 A CN202210639246 A CN 202210639246A CN 115688762 A CN115688762 A CN 115688762A
Authority
CN
China
Prior art keywords
paragraph
attribute
data analysis
data
analysis report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210639246.8A
Other languages
English (en)
Inventor
高兰天
胡屹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210639246.8A priority Critical patent/CN115688762A/zh
Publication of CN115688762A publication Critical patent/CN115688762A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本公开提供了一种数据分析报告复用方法,可以应用于人工智能领域及金融技术领域。该方法包括:以段落为单位,提取数据分析报告中的名词;根据名词的出现频率和名词在段落中的位置确定实体对象;获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容;根据标签属性和内容属性构建各段落的段落实体;根据各段落间的层次结构对各段落进行分类,得到分析主题;根据段落实体和分析主题构建知识图谱;根据知识图谱对数据分析报告进行复用。本公开还提供了一种数据分析报告复用装置、设备、存储介质和程序产品。

Description

数据分析报告复用方法、装置、设备、介质和程序产品
技术领域
本公开涉及人工智能领域及金融领域,具体地涉及一种数据分析报告复用方法、装置、设备、介质和程序产品。
背景技术
伴随数据资产的积累与大数据技术的广泛应用,各行业对数据分析的需求日益旺盛。通过形成科学有效、分析准确的数据报告,可以达到了解事物发展现状、洞察发展趋势等目的。但目前,科学规范、全面准确的数据分析报告仍对撰写人员有一定的知识储备要求,撰写门槛较高,难以满足大量、频繁的数据分析撰写需求。企业等团体培养专门数据分析人才成本较高且以理论居多,产出回报率低。
目前,相关的数据分析技术方案效率及准确度较低,需要针对特定的业务构建专门的数据分析框架与流程:一方面内容逻辑链相对固化且自动化程度较低,缺乏灵活性。另一方面则无法融合多维分析视角、利用多种工具辅助数据分析。
发明内容
鉴于上述问题,本公开提供了一种数据分析报告复用方法、装置、设备、介质和程序产品,用于至少部分解决以上技术问题。
根据本公开的第一个方面,提供了一种数据分析报告复用方法,包括:以段落为单位,提取数据分析报告中的名词;根据名词的出现频率和名词在段落中的位置确定实体对象;获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容;根据标签属性和内容属性构建各段落的段落实体;根据各段落间的层次结构对各段落进行分类,得到分析主题;根据段落实体和分析主题构建知识图谱;根据知识图谱对数据分析报告进行复用。
根据本公开的实施例,以段落为单位,提取数据分析报告中的名词包括:构建词向量;对词向量进行词性标注;提取主语和宾语,得到名词。
根据本公开的实施例,根据名词的出现频率和名词在段落中的位置确定实体对象包括:获取标签提取模型;将名词输入标签提取模型,得到标签提取模型的节点;根据段落长度设定滑动窗口;根据名词在滑动窗口中的共现次数和名词在段落中的位置计算节点的权重;根据节点的权重确定实体对象。
根据本公开的实施例,根据名词在滑动窗口中的共现次数和名词在段落中的位置计算节点间边的权重包括:在名词在滑动窗口中共现的情况下,为共现的节点赋予节点间边权重;在名词位于段落的前两句或后两句的情况下,为节点赋予权重。
根据本公开的实施例,获取实体对象对应的标签属性和内容属性包括:分别获取图表标签属性、数据标签属性、方法标签属性和代码标签属性;其中,图表标签属性为段落对应图表的描述内容、数据维度和可视化方法;数据标签属性为与段落相关联的数据源标签;方法标签属性为段落采用的分析方法和/或分析模型;代码标签属性为段落对应的代码块。
根据本公开的实施例,获取图表标签属性包括:建立段落的文本与图表的索引关系;利用卷积神经网络模型对图像进行分类识别,得到图像类别标签;根据索引关系和图像类别标签构建图表标签属性。
根据本公开的实施例,获取数据标签属性包括:获取预先构建的数据血缘字典;根据段落的文本,从数据血缘字典中匹配出数据源标签,得到数据标签属性。
根据本公开的实施例,获取方法标签属性包括:采用自然语言处理方法,从段落的文本中获取方法标签属性。
根据本公开的实施例,获取代码标签属性包括:获取代码注释内容;将段落的文本与代码注释内容进行匹配,得到代码标签属性。
根据本公开的实施例,根据各段落间的层次结构对各段落进行分类,得到分析主题包括:根据各段落的间隔数计算距离系数,得到上下文关系;抽取目录或大纲,得到各段落的层次关系;根据上下文关系和层次关系对各段落进行分类,得到分析主题。
根据本公开的实施例,根据知识图谱对数据分析报告进行复用包括:将知识图谱存储到图数据库中;根据图数据库构建搜索引擎;采用搜索引擎搜索数据分析报告的标题,得到与标题对应的段落实体和分析主题;对搜索到的段落实体和分析主题进行直接引用或者生成报告模板。
本公开的第二方面提供了一种数据分析报告复用装置,包括:名词获取模块,用于以段落为单位,提取数据分析报告中的名词;对象确定模块,用于根据名词的出现频率和名词在段落中的位置确定实体对象;属性获取模块,用于获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容;实体构建模块,用于根据标签属性和内容属性构建各段落的段落实体;主题分类模块,用于根据各段落间的层次结构对各段落进行分类,得到分析主题;图谱构建模块,用于根据段落实体和分析主题构建知识图谱;以及报告复用模块,用于根据知识图谱对数据分析报告进行复用。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的数据分析报告复用方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述任一实施例的数据分析报告复用方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施例的数据分析报告复用方法。
与现有技术相比,本公开提供的方法、装置、电子设备、存储介质和程序产品,至少具有以下有益效果:
(1)本公开通过构建结构化的段落实体,并将数据分析报告的各个段落所分析的数据类型进行分类,最终得到结构化的知识图谱,便于后续对数据分析报告的零散化复用。本公开的知识图谱构建方法通用,可以将不同类型的数据分析报告进行结构化整合,降低了数据分析报告的复用门槛,提高了复用效率。
(2)本公开结合数据分析报告的行文特点,将名词的位置信息加入节点间边权重的计算,提高了标签提取的精确度。
(3)本公开分别从图表标签属性、数据标签属性、方法标签属性和代码标签属性等方面构建实体对象的结构化展示属性,可以灵活提取其中某个或某些属性内容以及从数据源上多维度地提取分析内容,并且兼顾其可视化展示和代码环境创建,提高了数据分析报告的复用或撰写效率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据分析报告复用方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的数据分析报告复用方法的流程图;
图3示意性示出了根据本公开实施例的提取名词的方法流程图;
图4示意性示出了根据本公开实施例的确定实体对象的方法流程图;
图5示意性示出了根据本公开实施例的获取图表标签属性的方法流程图;
图6示意性示出了根据本公开实施例的获取数据标签属性的方法流程图;
图7示意性示出了根据本公开实施例的获取方法标签属性的方法流程图;
图8示意性示出了根据本公开实施例的获取代码标签属性的方法流程图;
图9示意性示出了根据本公开实施例的获取分析主题的方法流程图;
图10示意性示出了根据本公开实施例的知识图谱;
图11示意性示出了根据本公开实施例的复用数据分析报告的方法流程图;
图12示意性示出了根据本公开实施例的数据分析报告复用装置的结构框图;以及
图13示意性示出了根据本公开实施例的适于实现数据分析报告复用方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开实施例提供一种数据分析报告复用方法、装置、设备、介质和程序产品,可用于金融领域或其他领域。需要说明的是本公开的数据分析报告复用方法、装置、设备、介质和程序产品可用于金融领域,也可用于除金融领域之外的任意领域,本公开的数据分析报告复用方法、装置、设备、介质和程序产品的应用领域不做限定。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示意性示出了根据本公开实施例的数据分析报告复用方法、装置、设备、介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据分析报告复用方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据分析报告复用装置一般可以设置于服务器105中。本公开实施例所提供的数据分析报告复用方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据分析报告复用装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图11对公开实施例的数据分析报告复用方法进行详细描述。
图2示意性示出了根据本公开实施例的数据分析报告复用方法的流程图。
如图2所示,本公开的实施例提供了一种数据分析报告复用方法,例如包括:
S210,以段落为单位,提取数据分析报告中的名词。
S220,根据名词的出现频率和名词在段落中的位置确定实体对象。
S230,获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容。
S240,根据标签属性和内容属性构建各段落的段落实体。
S250,根据各段落间的层次结构对各段落进行分类,得到分析主题。
S260,根据段落实体和分析主题构建知识图谱。
S270,根据知识图谱对数据分析报告进行复用。
根据本公开的实施例,先通过提取数据分析报告中各段落的关键名词来找到该数据分析报告的分析主题、分析要点等,例如分析“下季度新签约客户数预测”中,客户数即为关键名词,也即需要重点分析的实体对象。然后,再从段落中找到与该关键名词相关联的图表、数据来源、分析方法、代码块等表示如何分析该关键名词的标签属性,以及这些标签属性对应的具体内容相关的属性,例如内容本身、内容来源、内容数量等。然后,结合标签属性和内容属性构建结构化的段落实体,便于对其存储和调用。数据分析报告的类型有很多,例如有分析用户数据的、分析经营数据的、分析产品数据的、分析行业数据的等等,同一篇分析报告中也可能在不同的段落分析上述一种或多种主题的数据,因而需要以段落为单位对分析不同主题的段落进行归类,便于从结构上清晰地对分析报告进行展示,并具体以知识图谱的形式展示出来供后续调用。
图3示意性示出了根据本公开实施例的提取名词的方法流程图。
根据本公开的实施例,如图3所示,例如通过操作S211~操作S213来提取各段落中的关键名词。
S211,构建词向量。
根据本公开的实施例,数据分析报告一般每个段落会分析一个主题或一个类型的数据,因而例如以段落为单位对数据分析报告进行文本标签抽取预处理。
具体地,对段落中的文字内容去除停用词并进行分词处理,再利用词嵌入技术(例如word2vec)构建词向量。在此基础上,根据业务实践,对所有词向量进行词性标注,仅保留文段主客体名词作为候选词,再将候选词作为标签抽取模型(例如textRank)的输入。
S212,对词向量进行词性标注。
根据本公开的实施例,在对段落中的各个词汇进行分词并标注词性后,存在名词、动词、形容词、副词等多种词性的词汇,并且在原来的句子中承担的作用也不同,例如作为主语、谓语、宾语、状语等成分。以主客体名词(即对应主语、宾语的名词)为对象,可以更快地找到数据分析的对象,便于后续加以分类及调用。
S213,提取主语和宾语,得到名词。
根据本公开的实施例,此处得到的作为主语、宾语的名词即为需要寻找的关键名词。
图4示意性示出了根据本公开实施例的确定实体对象的方法流程图。
根据本公开的实施例,如图4所示,例如通过操作S221~操作S225来确定需要重点拓展的实体对象。
S221,获取标签提取模型。
根据本公开的实施例,获取了名词后,由于其数量众多,并不是所有名词都适合用来表示数据分析对象,因而需要计算各个名词对于数据分析主题的权重,并将权重高的名词提取出来作为重点拓展的实体对象。本公开例如采用textRank作为标签提取模型,将预处理得到的名词作为语义单元,视为标签提取图模型中的节点。
S222,将名词输入标签提取模型,得到标签提取模型的节点。
S223,根据段落长度设定滑动窗口。
根据本公开的实施例,获取名词时,以段落为单位。在分析名词在段落中的权重时,同样以段落的长度来设定滑动窗口长度。例如将滑动窗口长度设定为一个段落的长度,若在一个滑动窗口内的语义单元出现共现,则认为这些语义单元有强烈语义关系,根据共现次数赋予节点间边的权重。
S224,根据名词在滑动窗口中的共现次数和名词在段落中的位置计算节点的权重。
根据本公开的实施例,关于权重计算,例如在名词在滑动窗口中共现的情况下,为共现的节点赋予节点间边权重。以及,在名词位于段落的前两句或后两句的情况下,为节点赋予权重。为了提升标签提取精确度,本公开将语义单元的位置信息加入节点间边权重的计算。例如,若语义单元存在于段首前两句或段尾后两句,则位置权重赋值为1,否则赋值为0。在得到节点间边权重后,利用pageRank算法可计算得到语义单元的权重。
S225,根据节点的权重确定实体对象。
根据本公开的实施例,根据业务需要,例如可以选择权重排名第一的语义单元作为实体对象来抽取。获取高权重的需要拓展开的实体对象,大大降低了工作量,也降低了系统的复杂度。
根据本公开的实施例,在获取实体对象后,对实体对象的分析维度可以有很多种,例如从图表的角度来分析、利用不同数据源对其的分析、采用不同分析方法的分析、从代码注释内容的角度来分析等。因而,获取实体对象对应的标签属性和内容属性例如包括:分别获取图表标签属性、数据标签属性、方法标签属性和代码标签属性。其中,图表标签属性例如为段落对应图表的描述内容、数据维度和可视化方法。数据标签属性例如为与段落相关联的数据源标签。方法标签属性例如为段落采用的分析方法和/或分析模型。代码标签属性例如为段落对应的代码块。
图5示意性示出了根据本公开实施例的获取图表标签属性的方法流程图。
根据本公开的实施例,如图5所示,例如通过操作S231~操作S2333来获取实体对象对应的图表标签属性。
S231,建立段落的文本与图表的索引关系。
根据本公开的实施例,首先根据文中的图表索引关键词,如:“如下表所示”、“如上图所示”、“如图5所示”等,建立段落文本与图表的索引关系。
S232,利用卷积神经网络模型对图像进行分类识别,得到图像类别标签。
根据本公开的实施例,针对段落关联的图表等可视化展现内容,例如利用卷积神经网络模型(CNN)进行图像分类识别,获取图像类别标签,如:直方图、条形图、时间序列图、散点图、地图等类别标签。
S233,根据索引关系和图像类别标签构建图表标签属性。
根据本公开的实施例,通过建立索引关系可以将图表描述的内容与段落内容联系起来,结合图表标题分词,获取图表描述内容(数据类别、数据源、时间维度等),可以构建段落图表的描述内容、数据维度与可视化方法等标签属性。
图6示意性示出了根据本公开实施例的获取数据标签属性的方法流程图。
根据本公开的实施例,如图6所示,例如通过操作S234~操作S235来获取实体对象对应的数据标签属性。
S234,获取预先构建的数据血缘字典。
根据本公开的实施例,数据血缘字典充分体现了被分析的数据间的关系,可以清楚了解到数据的来龙去脉。在数据积累的过程中,即可同步建立数据血缘字典。
S235,根据段落的文本,从数据血缘字典中匹配出数据源标签,得到数据标签属性。
根据本公开的实施例,通过已构建的数据血缘字典来进行段落关联数据的匹配,根据从段落内容提取的分析内容、数据图表、数据口径等信息,可以从数据血缘字典中自动匹配出数据仓库中最相近的数据源标签。通过获取数据标签属性,可以实现基于大数据的数据分析报告的利用,提高了数据分析的深度、广度,进而提升了数据分析的有效性和可靠性。
图7示意性示出了根据本公开实施例的获取方法标签属性的方法流程图。
根据本公开的实施例,如图7所示,例如通过操作S236来获取实体对象对应的方法标签属性。
S236,采用自然语言处理方法,从段落的文本中获取方法标签属性。
根据本公开的实施例,例如可以采用关键词识别、语义识别等自然语言处理方法,从段落中获取分析方法特征。例如,可从“与上年同期对比”判断出段落采用对比分析方法,可通过[″P值小于0.05″,″独立假设″]关键词组合判断段落采用了独立性检验。分析方法特征例如包括数据分析方法和数据分析模型。
图8示意性示出了根据本公开实施例的获取代码标签属性的方法流程图。
根据本公开的实施例,如图8所示,例如通过操作S237~操作S238来获取实体对象对应的代码标签属性。
S237,获取代码注释内容。
S238,将段落的文本与代码注释内容进行匹配,得到代码标签属性。
根据本公开的实施例,根据段落的关联数据、方法、模型等已抽取的标签信息与报告附带的代码中注释内容进行匹配,实现段落和代码模块的相互绑定。下一步根据代码模块的代码格式与头文件分别抽取其语言格式和依赖环境。获取代码标签属性后,可以直接从代码层面对待分析数据相关联的内容进行调用。
通过步骤S231~S238完成段落关联要素标签的属性抽取后,可以根据标签属性和内容属性构建各段落的段落实体。
具体地,将以上基于段落得到的分析内容、方法、数据、模型、代码、图表等作为段落实体的标签,每个标签抽取的具体内容作为该实体标签对应的实体属性(即内容属性),从而为每个段落实体构建一个专属的类,便于图数据库存储面向实体节点和关系的数据处理。一个典型的段落实体的数据结构如下所示:
Figure BDA0003681406080000121
Figure BDA0003681406080000131
图9示意性示出了根据本公开实施例的获取分析主题的方法流程图。
根据本公开的实施例,如图9所示,例如通过操作S251~操作S253来获取分析主题。
S251,根据各段落的间隔数计算距离系数,得到上下文关系。
根据本公开的实施例,利用分析报告的段落层次结构,从上下文及文章层次结构来抽取段落之间的映射关系,例如包括上下文关系和层次关系。对于上下文关系,例如利用间隔段落数,生成距离系数。段落间的距离表示两个段落标准化后的加权距离系数,分布于[0,1]之间,数字越小表示两个段落关联关系越强。
S252,抽取目录或大纲,得到各段落的层次关系。
根据本公开的实施例,对于层次关系,例如采用抽取目录或报告大纲等方式,来挖掘段落上下级或并列关系,得到关系类别。关系类别表示段落B相对于段落A的关联关系,如并列、包含、从属等。
S253,根据上下文关系和层次关系对各段落进行分类,得到分析主题。
图10示意性示出了根据本公开实施例的知识图谱。
根据本公开的实施例,结合层次及上下文关系,形成实体关系属性。提取出的段落关系例如包含所描述两个段落的段落id,关系类别和距离。其中:段落A表示段落A的唯一id,段落B表示段落B的唯一id。完整的段落关系表示,示例如下:
{段落A,段落B,并列,0.5},
{段落A,段落C,包含,0},
{段落B,段落C,包含,0}。
对段落进行分类后,结合段落主题内容,可以将不同主题的段落归类汇总,以形成如图10所示的知识图谱。段落主题例如可以是经营分析、用户分析、产品分析和行业分析中的任意一种或几种。将以上过程构建出的段落实体模型按照报告实体、段落实体、关系、属性的维度自动匹配,完成对知识图谱的构建,并存储于图数据库中。基于图数据库构建搜索引擎,可以实现对数据分析报告及分析过程资产的简单复用。
图11示意性示出了根据本公开实施例的复用数据分析报告的方法流程图。
根据本公开的实施例,如图11所示,例如通过操作S271~操作S274来复用数据分析报告。
S271,将知识图谱存储到图数据库中。
S272,根据图数据库构建搜索引擎。
S273,采用搜索引擎搜索数据分析报告的标题,得到与标题对应的段落实体和分析主题。
根据本公开的实施例,在构建好知识图谱后,可以将其存储到图数据库中,在需要调用时,对其进行主题检索。主题检索主要指将数据分析过程资产(即根据数据分析报告构建的结构化的段落实体)作为检索结果,用于基本的浏览查阅。检索结果例如以报告标题为一条展现数据,点击后则展现报告中所有段落实体的标签属性、内容属性与段落主题分类,展现方式例如分为可视化节点展现与结构化文本展现两种方式。默认展现与搜索主题相关的所有实体节点以及相应的标签属性内容,若用户在搜索时自定义勾选标签,则可个性化展示,例如仅选择“分析内容”标签,点击“搜索”后则只展现相关分析报告中所有“分析内容”部分。
S274,对搜索到的段落实体和分析主题进行直接引用或者生成报告模板。
根据本公开的实施例,除了对搜索结果的浏览查阅外,还可以对其进行快速引用或生成模板。快速引用指对数据分析过程资产的原始的、未加工的直接引用,适用于周期性态势分析等以对比分析为主题的分析报告撰写。对于主题搜索结果中的段落实体,可直接通过拖拽等方式,将其放置于搜索结果页右栏的文档页中,并以结构化文本展现,用户可直接复用或根据个性化需要自行编辑修改文本内容。基于此,用户可在对比分析等中快速复用已有的数据分析过程资产。
而生成模板是指基于某个主题的数据分析过程资产的可视化展示,可自动生成基于当前检索结果的数据分析报告初稿。客户基于某个主题的搜索结果,点击报告标题展现单篇报告后,选择标签属性内容(其中“分析时间范围”为必输项,“数据源”、“分析方法与模型”等为非必输项)。点击“模板生成”按钮,则按照当前报告段落实体标签属性与关系属性内容,生成完整的报告模板。其中,图表、数据源、模型与分析方法则按照用户选择的分析时间范围等设定,自动在数据分析过程资产中进行相应替换(若未指定,则复用原有资产)。生成的报告初稿展现在搜索结果页右栏,用户还可继续检索,选中满足分析需求的其他段落实体并拖拽至右侧文档编辑栏中,对现有分析框架内容进行微调。分析过程资产的快速复用为数据分析人员开展数据分析报告的快速输出提供了参考和辅助决策。
综上所述,本公开提供了一种数据分析报告复用方法,基于知识图谱技术,提供从维度梳理、数据源匹配、模型应用、图表输出的一站式打包服务,实现了对数据分析报告中多维度分析过程的抽取与资产沉淀,极大方便了初中级数据分析人员快速输出科学规范、多维分析、图表丰富的数据分析报告,提升了数据分析报告的复用效率。
基于上述数据分析报告复用方法,本公开还提供了一种数据分析报告复用装置。以下将结合图12对该装置进行详细描述。
图12示意性示出了根据本公开实施例的数据分析报告复用装置的结构框图。
如图12所示,该实施例的数据分析报告复用装置1200例如包括:名词获取模块1210、对象确定模块1220、属性获取模块1230、实体构建模块1240、主题分类模块1250、图谱构建模块1260和报告复用模块1270。
名词获取模块1210用于以段落为单位,提取数据分析报告中的名词。在一实施例中,名词获取模块1210可以用于执行前文描述的操作S210,在此不再赘述。
对象确定模块1220用于根据名词的出现频率和名词在段落中的位置确定实体对象。在一实施例中,对象确定模块1220可以用于执行前文描述的操作S220,在此不再赘述。
属性获取模块1230用于获取实体对象对应的标签属性和内容属性,标签属性用于表示分析实体对象的形式,内容属性用于表示分析实体对象的内容。在一实施例中,属性获取模块1230可以用于执行前文描述的操作S230,在此不再赘述。
实体构建模块1240用于根据标签属性和内容属性构建各段落的段落实体。在一实施例中,实体构建模块1240可以用于执行前文描述的操作S240,在此不再赘述。
主题分类模块1250用于根据各段落间的层次结构对各段落进行分类,得到分析主题。在一实施例中,主题分类模块1250可以用于执行前文描述的操作S250,在此不再赘述。
图谱构建模块1260用于根据段落实体和分析主题构建知识图谱。在一实施例中,图谱构建模块1260可以用于执行前文描述的操作S260,在此不再赘述。
报告复用模块1270用于根据知识图谱对数据分析报告进行复用。在一实施例中,报告复用模块1270可以用于执行前文描述的操作S270,在此不再赘述。
根据本公开的实施例,名词获取模块1210、对象确定模块1220、属性获取模块1230、实体构建模块1240、主题分类模块1250、图谱构建模块1260和报告复用模块1270中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,名词获取模块1210、对象确定模块1220、属性获取模块1230、实体构建模块1240、主题分类模块1250、图谱构建模块1260和报告复用模块1270中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,名词获取模块1210、对象确定模块1220、属性获取模块1230、实体构建模块1240、主题分类模块1250、图谱构建模块1260和报告复用模块1270中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图13示意性示出了根据本公开实施例的适于实现数据分析报告复用方法的电子设备的方框图。
如图13所示,根据本公开实施例的电子设备1300包括处理器1301,其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1303中,存储有电子设备1300操作所需的各种程序和数据。处理器1301、ROM 1302以及RAM 1303通过总线1304彼此相连。处理器1301通过执行ROM 1302和/或RAM1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1302和RAM 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1300还可以包括输入/输出(I/O)接口1305,输入/输出(I/O)接口1305也连接至总线1304。电子设备1300还可以包括连接至I/O接口1305的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可渎存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1302和/或RAM 1303和/或ROM 1302和RAM 1303以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
在该计算机程序被处理器1301执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1309被下载和安装,和/或从可拆卸介质1311被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (15)

1.一种数据分析报告复用方法,其特征在于,包括:
以段落为单位,提取数据分析报告中的名词;
根据所述名词的出现频率和所述名词在所述段落中的位置确定实体对象;
获取所述实体对象对应的标签属性和内容属性,所述标签属性用于表示分析所述实体对象的形式,所述内容属性用于表示分析所述实体对象的内容;
根据所述标签属性和所述内容属性构建各所述段落的段落实体;
根据各所述段落间的层次结构对各所述段落进行分类,得到分析主题;
根据所述段落实体和所述分析主题构建知识图谱;
根据所述知识图谱对所述数据分析报告进行复用。
2.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述以段落为单位,提取数据分析报告中的名词包括:
构建词向量;
对所述词向量进行词性标注;
提取主语和宾语,得到所述名词。
3.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述根据所述名词的出现频率和所述名词在所述段落中的位置确定实体对象包括:
获取标签提取模型;
将所述名词输入所述标签提取模型,得到所述标签提取模型的节点;
根据段落长度设定滑动窗口;
根据所述名词在所述滑动窗口中的共现次数和所述名词在所述段落中的位置计算所述节点的权重;
根据所述节点的权重确定所述实体对象。
4.根据权利要求3所述的数据分析报告复用方法,其特征在于,所述根据所述名词在所述滑动窗口中的共现次数和所述名词在所述段落中的位置计算节点间边的权重包括:
在所述名词在所述滑动窗口中共现的情况下,为共现的所述节点赋予节点间边权重;
在所述名词位于所述段落的前两句或后两句的情况下,为所述节点赋予权重。
5.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述获取所述实体对象对应的标签属性和内容属性包括:
分别获取图表标签属性、数据标签属性、方法标签属性和代码标签属性;
其中,所述图表标签属性为所述段落对应图表的描述内容、数据维度和可视化方法;
所述数据标签属性为与所述段落相关联的数据源标签;
所述方法标签属性为所述段落采用的分析方法和/或分析模型;
所述代码标签属性为所述段落对应的代码块。
6.根据权利要求5所述的数据分析报告复用方法,其特征在于,所述获取图表标签属性包括:
建立所述段落的文本与图表的索引关系;
利用卷积神经网络模型对图像进行分类识别,得到图像类别标签;
根据所述索引关系和所述图像类别标签构建所述图表标签属性。
7.根据权利要求5所述的数据分析报告复用方法,其特征在于,所述获取数据标签属性包括:
获取预先构建的数据血缘字典;
根据所述段落的文本,从所述数据血缘字典中匹配出数据源标签,得到所述数据标签属性。
8.根据权利要求5所述的数据分析报告复用方法,其特征在于,所述获取方法标签属性包括:
采用自然语言处理方法,从所述段落的文本中获取所述方法标签属性。
9.根据权利要求5所述的数据分析报告复用方法,其特征在于,所述获取代码标签属性包括:
获取代码注释内容;
将所述段落的文本与所述代码注释内容进行匹配,得到所述代码标签属性。
10.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述根据各所述段落间的层次结构对各所述段落进行分类,得到分析主题包括:
根据各所述段落的间隔数计算距离系数,得到上下文关系;
抽取目录或大纲,得到各所述段落的层次关系;
根据所述上下文关系和所述层次关系对各所述段落进行分类,得到所述分析主题。
11.根据权利要求1所述的数据分析报告复用方法,其特征在于,所述根据所述知识图谱对所述数据分析报告进行复用包括:
将所述知识图谱存储到图数据库中;
根据所述图数据库构建搜索引擎;
采用所述搜索引擎搜索所述数据分析报告的标题,得到与所述标题对应的所述段落实体和所述分析主题;
对搜索到的所述段落实体和所述分析主题进行直接引用或者生成报告模板。
12.一种数据分析报告复用装置,其特征在于,包括:
名词获取模块,用于以段落为单位,提取数据分析报告中的名词;
对象确定模块,用于根据所述名词的出现频率和所述名词在所述段落中的位置确定实体对象;
属性获取模块,用于获取所述实体对象对应的标签属性和内容属性,所述标签属性用于表示分析所述实体对象的形式,所述内容属性用于表示分析所述实体对象的内容;
实体构建模块,用于根据所述标签属性和所述内容属性构建各所述段落的段落实体;
主题分类模块,用于根据各所述段落间的层次结构对各所述段落进行分类,得到分析主题;
图谱构建模块,用于根据所述段落实体和所述分析主题构建知识图谱;以及
报告复用模块,用于根据所述知识图谱对所述数据分析报告进行复用。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~11中任一项所述的数据分析报告复用方法。
14.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~11中任一项所述的数据分析报告复用方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~11中任一项所述的数据分析报告复用方法。
CN202210639246.8A 2022-06-07 2022-06-07 数据分析报告复用方法、装置、设备、介质和程序产品 Pending CN115688762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210639246.8A CN115688762A (zh) 2022-06-07 2022-06-07 数据分析报告复用方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210639246.8A CN115688762A (zh) 2022-06-07 2022-06-07 数据分析报告复用方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN115688762A true CN115688762A (zh) 2023-02-03

Family

ID=85060480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210639246.8A Pending CN115688762A (zh) 2022-06-07 2022-06-07 数据分析报告复用方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN115688762A (zh)

Similar Documents

Publication Publication Date Title
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
US8108376B2 (en) Information recommendation device and information recommendation method
US8245135B2 (en) Producing a visual summarization of text documents
US7912701B1 (en) Method and apparatus for semiotic correlation
US9715531B2 (en) Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
US9720904B2 (en) Generating training data for disambiguation
US20090322756A1 (en) Using visual techniques to manipulate data
US20170075983A1 (en) Subject-matter analysis of tabular data
US11023503B2 (en) Suggesting text in an electronic document
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
US11182540B2 (en) Passively suggesting text in an electronic document
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN113544689A (zh) 为文档的来源观点生成并提供附加内容
US20220253719A1 (en) Schema augmentation system for exploratory research
Das et al. A CV parser model using entity extraction process and big data tools
US20230111911A1 (en) Generation and use of content briefs for network content authoring
US20090327877A1 (en) System and method for disambiguating text labeling content objects
Rafail et al. Natural language processing
US11669556B1 (en) Method and system for document retrieval and exploration augmented by knowledge graphs
CN116755688A (zh) 组件处理方法、装置、计算机设备及存储介质
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN111368036B (zh) 用于搜索信息的方法和装置
Amato et al. A hybrid approach for document analysis in digital forensic domain
CN115688762A (zh) 数据分析报告复用方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination