CN115408499B

CN115408499B - 政务数据分析报告图表自动化分析解读方法及系统

Info

Publication number: CN115408499B
Application number: CN202211359225.7A
Authority: CN
Inventors: 杨小明; 周金平; 涂旭青
Original assignee: Thinvent Digital Technology Co Ltd
Current assignee: Thinvent Digital Technology Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-02-07
Anticipated expiration: 2042-11-02
Also published as: CN115408499A

Abstract

本发明公开了一种政务数据分析报告图表自动化分析解读方法及系统，该方法包括：获取已产出的分析报告图表及对应的文字解读信息；从分析报告图表中提取出分析图表特征，并将文字解读信息归纳整理为文字解读模板；将文字解读模板作为预测变量，分析图表特征作为输入变量，构建随机森林模型；将待分析的目标分析报告图表输入至随机森林模型中进行预测，得到相应的目标文字解读模板，同时获取分析报告图表中的相关指标信息；将相关指标信息填入目标文字解读模板中，生成最终的图表文字解读结果。本发明能够解决人工分析解读耗时久、容易遗漏信息的问题。

Description

政务数据分析报告图表自动化分析解读方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种政务数据分析报告图表自动化分析解读方法及系统。

背景技术

随着各行各业信息化建设的不断发展，政府信息化建设已然成为各地政府管理先进化、效率化和持续化的重要工作方向。信息化技术有效打破各政府部门间的信息孤岛，完成跨部门数据的交汇融合，构建自然人、法人、物品和事件等多维度特征，从而高效的支持数据服务和挖掘数据内在的价值。

政务数据分析报告是数据价值挖掘的重要方式之一，其通过对专题场景的分析，以图表的形式展示各数据维度间的关联和对比，提取关键的指标和结论生成分析报告。数据分析报告的展示内容主要通过图表展示和文字解读，目前，图表的信息可视化技术已得到广泛应用，但对于图表信息内容的解读依然停留于业务人员基于业务知识的人工分析解读中，当需要分析的维度较多时，需要花费过多的时间，且容易遗漏信息。

发明内容

为此，本发明的一个实施例提出一种政务数据分析报告图表自动化分析解读方法，以解决人工分析解读耗时久、容易遗漏信息的问题。

根据本发明一实施例的政务数据分析报告图表自动化分析解读方法，包括：

获取已产出的分析报告图表及对应的文字解读信息；

从所述分析报告图表中提取出分析图表特征，并将所述文字解读信息归纳整理为文字解读模板；

将所述文字解读模板作为预测变量，所述分析图表特征作为输入变量，构建随机森林模型，其中，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数；

将待分析的目标分析报告图表输入至随机森林模型中进行预测，得到相应的目标文字解读模板，同时获取所述分析报告图表中的相关指标信息；

将所述相关指标信息填入所述目标文字解读模板中，生成最终的图表文字解读结果。

根据本发明实施例的政务数据分析报告图表自动化分析解读方法，首先从已有的分析报告图表中提取出分析图表特征，并将文字解读信息归纳整理为文字解读模板，然后构建随机森林模型，其中，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数，确保模型的预测准确性，最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测，即可得到相应的目标文字解读模板，然后将分析报告图表中的相关指标信息填入目标文字解读模板中，就生成了最终的图表文字解读结果，本发明实现了政务数据分析报告的图表进行自动化分析解读，能够有效的减少业务人员的数据分析工作量，避免遗漏信息，辅助新手关注业务逻辑重点，快速有效的挖掘数据的内在价值，形成完整的数据分析报告。

另外，根据本发明上述实施例的政务数据分析报告图表自动化分析解读方法，还可以具有如下附加的技术特征：

进一步地，所述方法还包括：

获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项；

根据各个文字解读子项的关键性得分以及差异性权重，计算各个文字解读子项的最终权重得分；

按照最终权重得分从高到低的顺序，在所述图表文字解读结果中对各个文字解读子项进行重新排序。

进一步地，根据各个文字解读子项的关键性得分以及差异性权重，计算各个文字解读子项的最终权重得分步骤中，对于第i个文字解读子项，采用下式计算最终权重得分：

S_i=a_i+[(X_i-min(X))/(max(X)-min(X))]*b_i

其中，S_i表示第i个文字解读子项的最终权重得分，a_i表示第i个文字解读子项的关键性得分，b_i表示第i个文字解读子项的差异性权重，X_i表示第i个文字解读子项的最大最小差异值，X表示所有文字解读子项的最大最小差异值组成的集合，min(X)表示集合中数值最小的最大最小差异值，max(X)表示集合中数值最大的最大最小差异值。

进一步地，所述随机森林模型的训练过程为：

将训练样本进行可放回随机抽样得到K组子数据集，K组子数据集的样本量与训练样本的数据集保持一致；

从训练样本的n个分析图表特征中随机抽样出m个最优的分析图表特征，其中，m≤n；

根据m个最优的分析图表特征，对每组子数据集构建最优决策树学习模型，以生成K个决策树结果；

根据K个决策树的结果，选取票数最多的最优决策树学习模型作为训练好的随机森林模型。

进一步地，所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比。

本发明的另一个实施例提出一种政务数据分析报告图表自动化分析解读系统，以解决人工分析解读耗时久、容易遗漏信息的问题。

根据本发明一实施例的政务数据分析报告图表自动化分析解读系统，包括：

第一获取模块，用于获取已产出的分析报告图表及对应的文字解读信息；

提取归纳模块，用于从所述分析报告图表中提取出分析图表特征，并将所述文字解读信息归纳整理为文字解读模板；

构建模块，用于将所述文字解读模板作为预测变量，所述分析图表特征作为输入变量，构建随机森林模型，其中，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数；

输入分析模块，用于将待分析的目标分析报告图表输入至随机森林模型中进行预测，得到相应的目标文字解读模板，同时获取所述分析报告图表中的相关指标信息；

填入生成模块，用于将所述相关指标信息填入所述目标文字解读模板中，生成最终的图表文字解读结果。

根据本发明实施例的政务数据分析报告图表自动化分析解读系统，首先从已有的分析报告图表中提取出分析图表特征，并将文字解读信息归纳整理为文字解读模板，然后构建随机森林模型，其中，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数，确保模型的预测准确性，最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测，即可得到相应的目标文字解读模板，然后将分析报告图表中的相关指标信息填入目标文字解读模板中，就生成了最终的图表文字解读结果，本发明实现了政务数据分析报告的图表进行自动化分析解读，能够有效的减少业务人员的数据分析工作量，避免遗漏信息，辅助新手关注业务逻辑重点，快速有效的挖掘数据的内在价值，形成完整的数据分析报告。

另外，根据本发明上述实施例的政务数据分析报告图表自动化分析解读系统，还可以具有如下附加的技术特征：

进一步地，所述系统还包括：

第二获取模块，用于获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项；

计算模块，用于根据各个文字解读子项的关键性得分以及差异性权重，计算各个文字解读子项的最终权重得分；

排序模块，用于按照最终权重得分从高到低的顺序，在所述图表文字解读结果中对各个文字解读子项进行重新排序。

进一步地，对于第i个文字解读子项，采用下式计算最终权重得分：

S_i=a_i+[(X_i-min(X))/(max(X)-min(X))]*b_i

进一步地，所述随机森林模型的训练过程为：

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一实施例的政务数据分析报告图表自动化分析解读方法的流程图；

图2是根据本发明一实施例的政务数据分析报告图表自动化分析解读系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明一实施例提出的政务数据分析报告图表自动化分析解读方法，所述方法包括步骤S101~S105：

S101，获取已产出的分析报告图表及对应的文字解读信息。

S102，从所述分析报告图表中提取出分析图表特征，并将所述文字解读信息归纳整理为文字解读模板。

其中，所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比。

图表类型例如为：柱状图；分析类型例如为：数值展示；字段变量名例如为：年份；字段因变量名例如为：贫困人数；表名例如为：贫困人口基本信息；显示值例如为：数值；值对比例如为：极值比。

对于图表文字解读信息，需要将其归纳整理为文字解读模板。例：柱状图——数值最高的选项A达**、数值相对最低选项B达**、最高和最低的差异值为**；相关性——选项A和选项B、选项B和选项C具有较高的相关性，而选项A和选项C基本不相关；箱线图——选项A和选项B对于C的影响较大等（其中A、B、C和**均为待填入的数值）。

S103，将所述文字解读模板作为预测变量，所述分析图表特征作为输入变量，构建随机森林模型，其中，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数。

基于步骤S102收集的样本（分析图表特征和文字解读模板），将文字解读模板作为预测变量Y，各个分析图表特征作为输入变量X，构建随机森林预测模型。将70%样本进行模型训练，其中，具体的，所述随机森林模型的训练过程为：

将剩余的30%样本进行模型测试，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数。

S104，将待分析的目标分析报告图表输入至随机森林模型中进行预测，得到相应的目标文字解读模板，同时获取所述分析报告图表中的相关指标信息。

S105，将所述相关指标信息填入所述目标文字解读模板中，生成最终的图表文字解读结果。

其中，在生成目标分析报告图时，已经有了相关指标信息（例如最大值，最小值，均值，差异值，离散度，对比值等），在只需将相关指标信息填入所述目标文字解读模板中的对应位置，就生成了最终的图表文字解读结果。

此外，作为一个具体示例，所述方法还包括：

其中，根据各个文字解读子项的关键性得分以及差异性权重，计算各个文字解读子项的最终权重得分步骤中，对于第i个文字解读子项，采用下式计算最终权重得分：

S_i=a_i+[(X_i-min(X))/(max(X)-min(X))]*b_i

其中，S_i表示第i个文字解读子项的最终权重得分，a_i表示第i个文字解读子项的关键性得分，b_i表示第i个文字解读子项的差异性权重，X_i表示第i个文字解读子项的最大最小差异值（即第i个文字解读子项的解读结果中的最大值减去最小值），X表示所有文字解读子项的最大最小差异值组成的集合，min(X)表示集合中数值最小的最大最小差异值，max(X)表示集合中数值最大的最大最小差异值。

通过上述步骤，能够根据权重选取分析结果中的关键性结论，并将其排序在前，从而使得业务人员方便的获取政务数据分析报告图表中主要的分析结果信息。

综上，根据本实施例提供的政务数据分析报告图表自动化分析解读方法，首先从已有的分析报告图表中提取出分析图表特征，并将文字解读信息归纳整理为文字解读模板，然后构建随机森林模型，其中，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数，确保模型的预测准确性，最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测，即可得到相应的目标文字解读模板，然后将分析报告图表中的相关指标信息填入目标文字解读模板中，就生成了最终的图表文字解读结果，本发明实现了政务数据分析报告的图表进行自动化分析解读，能够有效的减少业务人员的数据分析工作量，避免遗漏信息，辅助新手关注业务逻辑重点，快速有效的挖掘数据的内在价值，形成完整的数据分析报告。

请参阅图2，本发明一实施例提出的政务数据分析报告图表自动化分析解读系统，所述系统包括：

本实施例中，所述系统还包括：

本实施例中，对于第i个文字解读子项，采用下式计算最终权重得分：

S_i=a_i+[(X_i-min(X))/(max(X)-min(X))]*b_i

本实施例中，所述随机森林模型的训练过程为：

本实施例中，所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比。

根据本实施例提供的政务数据分析报告图表自动化分析解读系统，首先从已有的分析报告图表中提取出分析图表特征，并将文字解读信息归纳整理为文字解读模板，然后构建随机森林模型，其中，采用贪心算法构建随机森林模型的各个参数区间，进行多次组合模拟预测，并基于查准率、查全率及F1分数来确定随机森林模型的最终参数，确保模型的预测准确性，最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测，即可得到相应的目标文字解读模板，然后将分析报告图表中的相关指标信息填入目标文字解读模板中，就生成了最终的图表文字解读结果，本发明实现了政务数据分析报告的图表进行自动化分析解读，能够有效的减少业务人员的数据分析工作量，避免遗漏信息，辅助新手关注业务逻辑重点，快速有效的挖掘数据的内在价值，形成完整的数据分析报告。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通讯、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种政务数据分析报告图表自动化分析解读方法，其特征在于，包括：

获取已产出的分析报告图表及对应的文字解读信息；

从所述分析报告图表中提取出分析图表特征，并将所述文字解读信息归纳整理为文字解读模板，所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比；

2.根据权利要求1所述的政务数据分析报告图表自动化分析解读方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的政务数据分析报告图表自动化分析解读方法，其特征在于，根据各个文字解读子项的关键性得分以及差异性权重，计算各个文字解读子项的最终权重得分步骤中，对于第i个文字解读子项，采用下式计算最终权重得分：

S_i=a_i+[(X_i-min(X))/(max(X)-min(X))]*b_i

4.根据权利要求1所述的政务数据分析报告图表自动化分析解读方法，其特征在于，所述随机森林模型的训练过程为：

5.一种政务数据分析报告图表自动化分析解读系统，其特征在于，包括：

提取归纳模块，用于从所述分析报告图表中提取出分析图表特征，并将所述文字解读信息归纳整理为文字解读模板，所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比；

6.根据权利要求5所述的政务数据分析报告图表自动化分析解读系统，其特征在于，所述系统还包括：

7.根据权利要求6所述的政务数据分析报告图表自动化分析解读系统，其特征在于，对于第i个文字解读子项，采用下式计算最终权重得分：

S_i=a_i+[(X_i-min(X))/(max(X)-min(X))]*b_i

8.根据权利要求5所述的政务数据分析报告图表自动化分析解读系统，其特征在于，所述随机森林模型的训练过程为：