CN115408499B - 政务数据分析报告图表自动化分析解读方法及系统 - Google Patents

政务数据分析报告图表自动化分析解读方法及系统 Download PDF

Info

Publication number
CN115408499B
CN115408499B CN202211359225.7A CN202211359225A CN115408499B CN 115408499 B CN115408499 B CN 115408499B CN 202211359225 A CN202211359225 A CN 202211359225A CN 115408499 B CN115408499 B CN 115408499B
Authority
CN
China
Prior art keywords
chart
interpretation
analysis
character
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211359225.7A
Other languages
English (en)
Other versions
CN115408499A (zh
Inventor
杨小明
周金平
涂旭青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thinvent Digital Technology Co Ltd
Original Assignee
Thinvent Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thinvent Digital Technology Co Ltd filed Critical Thinvent Digital Technology Co Ltd
Priority to CN202211359225.7A priority Critical patent/CN115408499B/zh
Publication of CN115408499A publication Critical patent/CN115408499A/zh
Application granted granted Critical
Publication of CN115408499B publication Critical patent/CN115408499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种政务数据分析报告图表自动化分析解读方法及系统,该方法包括:获取已产出的分析报告图表及对应的文字解读信息;从分析报告图表中提取出分析图表特征,并将文字解读信息归纳整理为文字解读模板;将文字解读模板作为预测变量,分析图表特征作为输入变量,构建随机森林模型;将待分析的目标分析报告图表输入至随机森林模型中进行预测,得到相应的目标文字解读模板,同时获取分析报告图表中的相关指标信息;将相关指标信息填入目标文字解读模板中,生成最终的图表文字解读结果。本发明能够解决人工分析解读耗时久、容易遗漏信息的问题。

Description

政务数据分析报告图表自动化分析解读方法及系统
技术领域
本发明涉及数据处理技术领域,特别是涉及一种政务数据分析报告图表自动化分析解读方法及系统。
背景技术
随着各行各业信息化建设的不断发展,政府信息化建设已然成为各地政府管理先进化、效率化和持续化的重要工作方向。信息化技术有效打破各政府部门间的信息孤岛,完成跨部门数据的交汇融合,构建自然人、法人、物品和事件等多维度特征,从而高效的支持数据服务和挖掘数据内在的价值。
政务数据分析报告是数据价值挖掘的重要方式之一,其通过对专题场景的分析,以图表的形式展示各数据维度间的关联和对比,提取关键的指标和结论生成分析报告。数据分析报告的展示内容主要通过图表展示和文字解读,目前,图表的信息可视化技术已得到广泛应用,但对于图表信息内容的解读依然停留于业务人员基于业务知识的人工分析解读中,当需要分析的维度较多时,需要花费过多的时间,且容易遗漏信息。
发明内容
为此,本发明的一个实施例提出一种政务数据分析报告图表自动化分析解读方法,以解决人工分析解读耗时久、容易遗漏信息的问题。
根据本发明一实施例的政务数据分析报告图表自动化分析解读方法,包括:
获取已产出的分析报告图表及对应的文字解读信息;
从所述分析报告图表中提取出分析图表特征,并将所述文字解读信息归纳整理为文字解读模板;
将所述文字解读模板作为预测变量,所述分析图表特征作为输入变量,构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数;
将待分析的目标分析报告图表输入至随机森林模型中进行预测,得到相应的目标文字解读模板,同时获取所述分析报告图表中的相关指标信息;
将所述相关指标信息填入所述目标文字解读模板中,生成最终的图表文字解读结果。
根据本发明实施例的政务数据分析报告图表自动化分析解读方法,首先从已有的分析报告图表中提取出分析图表特征,并将文字解读信息归纳整理为文字解读模板,然后构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数,确保模型的预测准确性,最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测,即可得到相应的目标文字解读模板,然后将分析报告图表中的相关指标信息填入目标文字解读模板中,就生成了最终的图表文字解读结果,本发明实现了政务数据分析报告的图表进行自动化分析解读,能够有效的减少业务人员的数据分析工作量,避免遗漏信息,辅助新手关注业务逻辑重点,快速有效的挖掘数据的内在价值,形成完整的数据分析报告。
另外,根据本发明上述实施例的政务数据分析报告图表自动化分析解读方法,还可以具有如下附加的技术特征:
进一步地,所述方法还包括:
获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项;
根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分;
按照最终权重得分从高到低的顺序,在所述图表文字解读结果中对各个文字解读子项进行重新排序。
进一步地,根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分步骤中,对于第i个文字解读子项,采用下式计算最终权重得分:
Si=ai+[(Xi-min(X))/(max(X)-min(X))]*bi
其中,Si表示第i个文字解读子项的最终权重得分,ai表示第i个文字解读子项的关键性得分,bi表示第i个文字解读子项的差异性权重,Xi表示第i个文字解读子项的最大最小差异值,X表示所有文字解读子项的最大最小差异值组成的集合,min(X)表示集合中数值最小的最大最小差异值,max(X)表示集合中数值最大的最大最小差异值。
进一步地,所述随机森林模型的训练过程为:
将训练样本进行可放回随机抽样得到K组子数据集,K组子数据集的样本量与训练样本的数据集保持一致;
从训练样本的n个分析图表特征中随机抽样出m个最优的分析图表特征,其中,m≤n;
根据m个最优的分析图表特征,对每组子数据集构建最优决策树学习模型,以生成K个决策树结果;
根据K个决策树的结果,选取票数最多的最优决策树学习模型作为训练好的随机森林模型。
进一步地,所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比。
本发明的另一个实施例提出一种政务数据分析报告图表自动化分析解读系统,以解决人工分析解读耗时久、容易遗漏信息的问题。
根据本发明一实施例的政务数据分析报告图表自动化分析解读系统,包括:
第一获取模块,用于获取已产出的分析报告图表及对应的文字解读信息;
提取归纳模块,用于从所述分析报告图表中提取出分析图表特征,并将所述文字解读信息归纳整理为文字解读模板;
构建模块,用于将所述文字解读模板作为预测变量,所述分析图表特征作为输入变量,构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数;
输入分析模块,用于将待分析的目标分析报告图表输入至随机森林模型中进行预测,得到相应的目标文字解读模板,同时获取所述分析报告图表中的相关指标信息;
填入生成模块,用于将所述相关指标信息填入所述目标文字解读模板中,生成最终的图表文字解读结果。
根据本发明实施例的政务数据分析报告图表自动化分析解读系统,首先从已有的分析报告图表中提取出分析图表特征,并将文字解读信息归纳整理为文字解读模板,然后构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数,确保模型的预测准确性,最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测,即可得到相应的目标文字解读模板,然后将分析报告图表中的相关指标信息填入目标文字解读模板中,就生成了最终的图表文字解读结果,本发明实现了政务数据分析报告的图表进行自动化分析解读,能够有效的减少业务人员的数据分析工作量,避免遗漏信息,辅助新手关注业务逻辑重点,快速有效的挖掘数据的内在价值,形成完整的数据分析报告。
另外,根据本发明上述实施例的政务数据分析报告图表自动化分析解读系统,还可以具有如下附加的技术特征:
进一步地,所述系统还包括:
第二获取模块,用于获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项;
计算模块,用于根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分;
排序模块,用于按照最终权重得分从高到低的顺序,在所述图表文字解读结果中对各个文字解读子项进行重新排序。
进一步地,对于第i个文字解读子项,采用下式计算最终权重得分:
Si=ai+[(Xi-min(X))/(max(X)-min(X))]*bi
其中,Si表示第i个文字解读子项的最终权重得分,ai表示第i个文字解读子项的关键性得分,bi表示第i个文字解读子项的差异性权重,Xi表示第i个文字解读子项的最大最小差异值,X表示所有文字解读子项的最大最小差异值组成的集合,min(X)表示集合中数值最小的最大最小差异值,max(X)表示集合中数值最大的最大最小差异值。
进一步地,所述随机森林模型的训练过程为:
将训练样本进行可放回随机抽样得到K组子数据集,K组子数据集的样本量与训练样本的数据集保持一致;
从训练样本的n个分析图表特征中随机抽样出m个最优的分析图表特征,其中,m≤n;
根据m个最优的分析图表特征,对每组子数据集构建最优决策树学习模型,以生成K个决策树结果;
根据K个决策树的结果,选取票数最多的最优决策树学习模型作为训练好的随机森林模型。
进一步地,所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一实施例的政务数据分析报告图表自动化分析解读方法的流程图;
图2是根据本发明一实施例的政务数据分析报告图表自动化分析解读系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明一实施例提出的政务数据分析报告图表自动化分析解读方法,所述方法包括步骤S101~S105:
S101,获取已产出的分析报告图表及对应的文字解读信息。
S102,从所述分析报告图表中提取出分析图表特征,并将所述文字解读信息归纳整理为文字解读模板。
其中,所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比。
图表类型例如为:柱状图;分析类型例如为:数值展示;字段变量名例如为:年份;字段因变量名例如为:贫困人数;表名例如为:贫困人口基本信息;显示值例如为:数值;值对比例如为:极值比。
对于图表文字解读信息,需要将其归纳整理为文字解读模板。例:柱状图——数值最高的选项A达**、数值相对最低选项B达**、最高和最低的差异值为**;相关性——选项A和选项B、选项B和选项C具有较高的相关性,而选项A和选项C基本不相关;箱线图——选项A和选项B对于C的影响较大等(其中A、B、C和**均为待填入的数值)。
S103,将所述文字解读模板作为预测变量,所述分析图表特征作为输入变量,构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数。
基于步骤S102收集的样本(分析图表特征和文字解读模板),将文字解读模板作为预测变量Y,各个分析图表特征作为输入变量X,构建随机森林预测模型。将70%样本进行模型训练,其中,具体的,所述随机森林模型的训练过程为:
将训练样本进行可放回随机抽样得到K组子数据集,K组子数据集的样本量与训练样本的数据集保持一致;
从训练样本的n个分析图表特征中随机抽样出m个最优的分析图表特征,其中,m≤n;
根据m个最优的分析图表特征,对每组子数据集构建最优决策树学习模型,以生成K个决策树结果;
根据K个决策树的结果,选取票数最多的最优决策树学习模型作为训练好的随机森林模型。
将剩余的30%样本进行模型测试,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数。
S104,将待分析的目标分析报告图表输入至随机森林模型中进行预测,得到相应的目标文字解读模板,同时获取所述分析报告图表中的相关指标信息。
S105,将所述相关指标信息填入所述目标文字解读模板中,生成最终的图表文字解读结果。
其中,在生成目标分析报告图时,已经有了相关指标信息(例如最大值,最小值,均值,差异值,离散度,对比值等),在只需将相关指标信息填入所述目标文字解读模板中的对应位置,就生成了最终的图表文字解读结果。
此外,作为一个具体示例,所述方法还包括:
获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项;
根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分;
按照最终权重得分从高到低的顺序,在所述图表文字解读结果中对各个文字解读子项进行重新排序。
其中,根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分步骤中,对于第i个文字解读子项,采用下式计算最终权重得分:
Si=ai+[(Xi-min(X))/(max(X)-min(X))]*bi
其中,Si表示第i个文字解读子项的最终权重得分,ai表示第i个文字解读子项的关键性得分,bi表示第i个文字解读子项的差异性权重,Xi表示第i个文字解读子项的最大最小差异值(即第i个文字解读子项的解读结果中的最大值减去最小值),X表示所有文字解读子项的最大最小差异值组成的集合,min(X)表示集合中数值最小的最大最小差异值,max(X)表示集合中数值最大的最大最小差异值。
通过上述步骤,能够根据权重选取分析结果中的关键性结论,并将其排序在前,从而使得业务人员方便的获取政务数据分析报告图表中主要的分析结果信息。
综上,根据本实施例提供的政务数据分析报告图表自动化分析解读方法,首先从已有的分析报告图表中提取出分析图表特征,并将文字解读信息归纳整理为文字解读模板,然后构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数,确保模型的预测准确性,最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测,即可得到相应的目标文字解读模板,然后将分析报告图表中的相关指标信息填入目标文字解读模板中,就生成了最终的图表文字解读结果,本发明实现了政务数据分析报告的图表进行自动化分析解读,能够有效的减少业务人员的数据分析工作量,避免遗漏信息,辅助新手关注业务逻辑重点,快速有效的挖掘数据的内在价值,形成完整的数据分析报告。
请参阅图2,本发明一实施例提出的政务数据分析报告图表自动化分析解读系统,所述系统包括:
第一获取模块,用于获取已产出的分析报告图表及对应的文字解读信息;
提取归纳模块,用于从所述分析报告图表中提取出分析图表特征,并将所述文字解读信息归纳整理为文字解读模板;
构建模块,用于将所述文字解读模板作为预测变量,所述分析图表特征作为输入变量,构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数;
输入分析模块,用于将待分析的目标分析报告图表输入至随机森林模型中进行预测,得到相应的目标文字解读模板,同时获取所述分析报告图表中的相关指标信息;
填入生成模块,用于将所述相关指标信息填入所述目标文字解读模板中,生成最终的图表文字解读结果。
本实施例中,所述系统还包括:
第二获取模块,用于获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项;
计算模块,用于根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分;
排序模块,用于按照最终权重得分从高到低的顺序,在所述图表文字解读结果中对各个文字解读子项进行重新排序。
本实施例中,对于第i个文字解读子项,采用下式计算最终权重得分:
Si=ai+[(Xi-min(X))/(max(X)-min(X))]*bi
其中,Si表示第i个文字解读子项的最终权重得分,ai表示第i个文字解读子项的关键性得分,bi表示第i个文字解读子项的差异性权重,Xi表示第i个文字解读子项的最大最小差异值,X表示所有文字解读子项的最大最小差异值组成的集合,min(X)表示集合中数值最小的最大最小差异值,max(X)表示集合中数值最大的最大最小差异值。
本实施例中,所述随机森林模型的训练过程为:
将训练样本进行可放回随机抽样得到K组子数据集,K组子数据集的样本量与训练样本的数据集保持一致;
从训练样本的n个分析图表特征中随机抽样出m个最优的分析图表特征,其中,m≤n;
根据m个最优的分析图表特征,对每组子数据集构建最优决策树学习模型,以生成K个决策树结果;
根据K个决策树的结果,选取票数最多的最优决策树学习模型作为训练好的随机森林模型。
本实施例中,所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比。
根据本实施例提供的政务数据分析报告图表自动化分析解读系统,首先从已有的分析报告图表中提取出分析图表特征,并将文字解读信息归纳整理为文字解读模板,然后构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数,确保模型的预测准确性,最后只需将待分析的目标分析报告图表输入至随机森林模型中进行预测,即可得到相应的目标文字解读模板,然后将分析报告图表中的相关指标信息填入目标文字解读模板中,就生成了最终的图表文字解读结果,本发明实现了政务数据分析报告的图表进行自动化分析解读,能够有效的减少业务人员的数据分析工作量,避免遗漏信息,辅助新手关注业务逻辑重点,快速有效的挖掘数据的内在价值,形成完整的数据分析报告。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通讯、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (8)

1.一种政务数据分析报告图表自动化分析解读方法,其特征在于,包括:
获取已产出的分析报告图表及对应的文字解读信息;
从所述分析报告图表中提取出分析图表特征,并将所述文字解读信息归纳整理为文字解读模板,所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比;
将所述文字解读模板作为预测变量,所述分析图表特征作为输入变量,构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数;
将待分析的目标分析报告图表输入至随机森林模型中进行预测,得到相应的目标文字解读模板,同时获取所述分析报告图表中的相关指标信息;
将所述相关指标信息填入所述目标文字解读模板中,生成最终的图表文字解读结果。
2.根据权利要求1所述的政务数据分析报告图表自动化分析解读方法,其特征在于,所述方法还包括:
获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项;
根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分;
按照最终权重得分从高到低的顺序,在所述图表文字解读结果中对各个文字解读子项进行重新排序。
3.根据权利要求2所述的政务数据分析报告图表自动化分析解读方法,其特征在于,根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分步骤中,对于第i个文字解读子项,采用下式计算最终权重得分:
Si=ai+[(Xi-min(X))/(max(X)-min(X))]*bi
其中,Si表示第i个文字解读子项的最终权重得分,ai表示第i个文字解读子项的关键性得分,bi表示第i个文字解读子项的差异性权重,Xi表示第i个文字解读子项的最大最小差异值,X表示所有文字解读子项的最大最小差异值组成的集合,min(X)表示集合中数值最小的最大最小差异值,max(X)表示集合中数值最大的最大最小差异值。
4.根据权利要求1所述的政务数据分析报告图表自动化分析解读方法,其特征在于,所述随机森林模型的训练过程为:
将训练样本进行可放回随机抽样得到K组子数据集,K组子数据集的样本量与训练样本的数据集保持一致;
从训练样本的n个分析图表特征中随机抽样出m个最优的分析图表特征,其中,m≤n;
根据m个最优的分析图表特征,对每组子数据集构建最优决策树学习模型,以生成K个决策树结果;
根据K个决策树的结果,选取票数最多的最优决策树学习模型作为训练好的随机森林模型。
5.一种政务数据分析报告图表自动化分析解读系统,其特征在于,包括:
第一获取模块,用于获取已产出的分析报告图表及对应的文字解读信息;
提取归纳模块,用于从所述分析报告图表中提取出分析图表特征,并将所述文字解读信息归纳整理为文字解读模板,所述分析图表特征至少包括图表类型、分析类型、字段变量名、字段因变量名、表名及表注释、显示值、值对比;
构建模块,用于将所述文字解读模板作为预测变量,所述分析图表特征作为输入变量,构建随机森林模型,其中,采用贪心算法构建随机森林模型的各个参数区间,进行多次组合模拟预测,并基于查准率、查全率及F1分数来确定随机森林模型的最终参数;
输入分析模块,用于将待分析的目标分析报告图表输入至随机森林模型中进行预测,得到相应的目标文字解读模板,同时获取所述分析报告图表中的相关指标信息;
填入生成模块,用于将所述相关指标信息填入所述目标文字解读模板中,生成最终的图表文字解读结果。
6.根据权利要求5所述的政务数据分析报告图表自动化分析解读系统,其特征在于,所述系统还包括:
第二获取模块,用于获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项;
计算模块,用于根据各个文字解读子项的关键性得分以及差异性权重,计算各个文字解读子项的最终权重得分;
排序模块,用于按照最终权重得分从高到低的顺序,在所述图表文字解读结果中对各个文字解读子项进行重新排序。
7.根据权利要求6所述的政务数据分析报告图表自动化分析解读系统,其特征在于,对于第i个文字解读子项,采用下式计算最终权重得分:
Si=ai+[(Xi-min(X))/(max(X)-min(X))]*bi
其中,Si表示第i个文字解读子项的最终权重得分,ai表示第i个文字解读子项的关键性得分,bi表示第i个文字解读子项的差异性权重,Xi表示第i个文字解读子项的最大最小差异值,X表示所有文字解读子项的最大最小差异值组成的集合,min(X)表示集合中数值最小的最大最小差异值,max(X)表示集合中数值最大的最大最小差异值。
8.根据权利要求5所述的政务数据分析报告图表自动化分析解读系统,其特征在于,所述随机森林模型的训练过程为:
将训练样本进行可放回随机抽样得到K组子数据集,K组子数据集的样本量与训练样本的数据集保持一致;
从训练样本的n个分析图表特征中随机抽样出m个最优的分析图表特征,其中,m≤n;
根据m个最优的分析图表特征,对每组子数据集构建最优决策树学习模型,以生成K个决策树结果;
根据K个决策树的结果,选取票数最多的最优决策树学习模型作为训练好的随机森林模型。
CN202211359225.7A 2022-11-02 2022-11-02 政务数据分析报告图表自动化分析解读方法及系统 Active CN115408499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211359225.7A CN115408499B (zh) 2022-11-02 2022-11-02 政务数据分析报告图表自动化分析解读方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211359225.7A CN115408499B (zh) 2022-11-02 2022-11-02 政务数据分析报告图表自动化分析解读方法及系统

Publications (2)

Publication Number Publication Date
CN115408499A CN115408499A (zh) 2022-11-29
CN115408499B true CN115408499B (zh) 2023-02-07

Family

ID=84169314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211359225.7A Active CN115408499B (zh) 2022-11-02 2022-11-02 政务数据分析报告图表自动化分析解读方法及系统

Country Status (1)

Country Link
CN (1) CN115408499B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186331B (zh) * 2023-04-27 2023-08-04 北京亿信华辰软件有限责任公司 图表解读方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710625B (zh) * 2018-03-16 2022-03-22 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
US11010426B2 (en) * 2019-03-04 2021-05-18 Shashi Ranjan Kumar Automatic selection of visualizations representing data based on data analysis
US11645522B2 (en) * 2019-03-05 2023-05-09 Dhruv Siddharth KRISHNAN Method and system using machine learning for prediction of stocks and/or other market instruments price volatility, movements and future pricing by applying random forest based techniques
CN110428127B (zh) * 2019-06-19 2022-04-15 深圳壹账通智能科技有限公司 自动化分析方法、用户设备、存储介质及装置
CN110427411B (zh) * 2019-08-02 2022-04-08 河南开合软件技术有限公司 一种通过图层将关联数据进行可视化的方法
CN110674211B (zh) * 2019-09-29 2022-04-01 南京大学 一种Oracle数据库AWR报告的自动解析方法和设备
AU2019101189A4 (en) * 2019-10-02 2020-01-23 Han, Ming MISS A financial mining method for credit prediction
CN111523086A (zh) * 2020-04-10 2020-08-11 南通大学 一种基于对数线性回归和随机森林的房价走势分析方法
CN111291542B (zh) * 2020-05-13 2020-09-11 江西博微新技术有限公司 报告生成方法、系统、可读存储介质及计算机设备
US20210357766A1 (en) * 2020-05-18 2021-11-18 Northrop Grumman Systems Corporation Classification of maintenance reports for modular industrial equipment from free-text descriptions
CN111784486A (zh) * 2020-06-12 2020-10-16 苏宁金融科技(南京)有限公司 业务风险预测模型的构建方法、装置和计算机设备
WO2022045874A1 (en) * 2020-08-26 2022-03-03 Mimos Berhad A system and method to generate statistical and analytical report
CN113256409A (zh) * 2021-07-12 2021-08-13 广州思迈特软件有限公司 基于机器学习的银行零售客户流失预测方法
CN113901770A (zh) * 2021-10-29 2022-01-07 中国平安财产保险股份有限公司 一种基于随机森林模型的报表生成方法及相关设备
CN113932817B (zh) * 2021-12-15 2022-03-08 思创数码科技股份有限公司 航标偏移评估方法及系统

Also Published As

Publication number Publication date
CN115408499A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
Gardener Community ecology: analytical methods using R and Excel
CN110292775B (zh) 获取差异数据的方法及装置
Zhao et al. Comparing all-author and first-author co-citation analyses of information science
US10657368B1 (en) Automatic human-emulative document analysis
CN111241212B (zh) 知识图谱的构建方法及装置、存储介质、电子设备
DE112018002047T5 (de) Dokumentenanalyse mit mehreren faktoren
JP5527566B1 (ja) 特許マップの分析方法
US20150026635A1 (en) Method for generating control-code by a control-code-diagram
CN115408499B (zh) 政务数据分析报告图表自动化分析解读方法及系统
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN114239588A (zh) 文章处理方法、装置、电子设备及介质
CN112199937A (zh) 一种短文本相似度分析方法及其系统、计算机设备、介质
CN114419631A (zh) 一种基于rpa的网管虚拟系统
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模系统
JP2013174988A (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
CN110852059B (zh) 一种基于分组的文档内容差异对比可视化分析方法
CN111859091A (zh) 一种基于人工智能的搜索结果的聚合方法及装置
CN116226108A (zh) 可实现不同治理程度的数据治理方法及系统
CN113407678B (zh) 知识图谱构建方法、装置和设备
JP2020067998A (ja) 特許文献集合の分析方法
JP2012037787A (ja) プラント運転熟練度評価装置および方法
KR100809452B1 (ko) 컴퓨팅 장치를 이용한 특허분류 방법 및 시스템
JP6380871B1 (ja) 特許文献集合の分析方法
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant