CN111177495A

CN111177495A - 一种智能识别数据内容并生成相应行业报告的方法

Info

Publication number: CN111177495A
Application number: CN201911232324.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Yonghong Tech Co ltd
Current assignee: Beijing Yonghong Tech Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-05-19

Abstract

本发明公开了一种智能识别数据内容并生成相应行业报告的方法，涉及机器学习(Machine Learning,ML)，包括大数据收集、数据准备、数据建模、训练模型、评估模型和调整参数，通过机器学习对建立的模型进行训练和参数优化，建立智能报告模型，模型根据学习的结果将收集输入的数据集自动转化为可视化报告。本发明通过机器学习技术，解决繁琐的报表制作工作，通过机器学习，不断强化各行业中数据展示常用的可视化图形，以及对应的字段搭配关系，可以根据数据智能制作出报告，节省大量的人工。

Description

一种智能识别数据内容并生成相应行业报告的方法

技术领域

本发明涉及商业智能平台技术领域，更具体的说是涉及一种智能识别数据内容并生成相应行业报告的方法。

背景技术

目前，各种行业的报告还主要依赖于人员整理，比如银行需要制作一份月度报告，报告涉及到的数据比较多，关联了多个数据集，业务人员制作报告时首先要了解需要展示的包括哪些数据，需要采用什么方式或者图表去展示，这一步制作完成后，还需要考虑颜色需要怎么设置搭配，报告如何布局，所以相当耗费人工，并且准确率也不能保证。

机器学习在各行各业中已经有着广泛的运用，比如智能机器人、游戏AI、图像识别等。目前敏捷商业智能(BI)虽然能够满足非专业人员制作可视化报告的需求，但是却避免不了复杂的制作过程。由于没有统一的规范和风格，各企业和场景要求都不一样，业务人员往往需要对不同数据集的字段进行筛选组合，反复修改报告的布局，还需要图表选择生成可视化报告。在选择图表过程中也需要查看报告的人参与，过程比较耗费人力和时间，周期也往往比较长。但是，BI在数据管理和处理方面具有人力不可比拟的优势。如果BI系统能够根据数据信息自动制作报告，那么业务人员只需要后期进行微调即可完成报告，因此，BI根据数据集信息自动生成报告可以很大程度上提升工作效率，增强易用性。

但是，同时在现有敏捷BI系统中，根据不同行业规范和特点需要选择不同的数据处理方法和报告生成形式。

因此，如何根据不同行业规范和特点实现快速制作报告，从而提高针对不同行业智能生成报告方法的适用性和工作效率是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种智能识别数据内容并生成相应行业报告的方法，涉及机器学习(Machine Learning,ML)，包括大数据收集，数据准备，数据建模，训练模型，评估模型，调整参数，根据学习的结果将收集输入的数据集自动转化为可视化报告。本发明通过机器学习技术，解决繁琐的报表制作工作，通过机器学习，不断强化各行业中数据展示常用的可视化图形，以及对应的字段搭配关系，可以根据数据智能制作出报告，节省大量的人工。

为了实现上述目的，本发明采用如下技术方案：

一种智能识别数据内容并生成相应行业报告的方法，包括如下步骤：

步骤1：采集行业大数据，生成数据集，并将数据集划分成学习数据集和评估数据集；

步骤2：根据所述数据集携带信息和数据相关关系建立数据模型；

步骤3：将所述学习数据集输入所述数据模型进行学习训练获得训练模型，所述数据模型学习不同所述行业的数据得到不同结果；

步骤4：对所述训练模型进行评估，将所述评估数据集输入所述训练模型所述训练模型输出可视化图表，例如柱状图、饼图和表格等，反映数据集中数据字段之间的组合关系；将所述可视化图表与所述评估数据集展示的正确字段组合图表、数据字段组合进行对比，获得相似度结果，即比较图表和数据组合是否相同或相近，从而获得评估结果；

步骤5：根据所述评估结果，微调所述训练模型的参数，获得智能报告模型；

步骤6：将待整理数据集输入所述智能报告模型，输出所述待整理数据集的图表和报告。

优选的，所述信息包括行业信息、字段信息、数据特征和图表信息。

优选的，所述步骤1中对所述数据集在划分之间进行数据清洗，消除无效数据和噪点数据；所述学习数据集的数据量大于所述评估数据集的所述数据量。所述学习数据集的数据量占所述数据集的绝大部分。

优选的，所述步骤3中训练所述数据模型的具体步骤为：

步骤31：采用逻辑回归模型，其中建立所述逻辑回归模型过程中的拟合函数为h_θ(x)＝θ₀+θ₁x₁+θ₂x₂+…+θ_nx_n，其中x₁,x₂,x₃,…,x_n是所述学习数据集中选取的训练样本的n个特征值，θ为所述数据模型参数，所述训练样本输入所述拟合函数获得判定标签；

步骤32：利用sigmoid函数

求解类别判断模型P(y＝1|x；θ)，输入所述训练样本的所述特征值，获得实际标签；

步骤33：采用梯度下降方法根据所述训练样本获得的所述判定标签和所述实际标签的差值修正所述数据模型参数，当所述数据模型参数的变化值小于或等于设定最小变化值或者达到预设的迭代次数，一般设定最小变化值c＝0.001训练结束；否则进入所述步骤31输入下一组所述训练样本。

优选的，所述梯度下降方法的公式为：

通过求导得到：

优选的，所述步骤6中，所述待整理数据集为一组或若干组一种所述行业的所述数据集，所述智能报告模型根据所述待整理数据集携带的字段信息，对所述待整理数据集的字段维度和度量进行组合，输出对应的所述图表并布局输出所述报告。

优选的，所述步骤2中建立的所述数据模型可以采用线性模型或决策树模型或神经网络模型。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种智能识别数据内容并生成相应行业报告的方法，通过数据采集、数据建模、模型训练和模型优化建立一个可进行输入数据集识别分析并智能生成数据集对应行业报告的智能报告模型，在模型训练过程中通过机器学习可以将输入的数据集自动转化为可视化报告，通过机器学习技术解决了繁琐的报表制作工作，不断强化各行业中数据展示常用的可视化图形，以及对应的字段搭配关系，利用建立的模型智能制作出报告节省了大量的人工消耗，提高了图表和报告制作的效率和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的智能生成报告框图；

图2附图为本发明提供的sigmoid函数曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种智能识别数据内容并生成相应行业报告的方法，包括如下S：

S1：采集行业大数据，生成数据集，并将数据集划分成学习数据集和评估数据集；在对数据集在划分之前需要进行数据清洗，消除无效数据和噪点数据；学习数据集的数据量占数据集的绝大部分；

S2：根据数据集携带信息和数据相关关系建立数据模型；

S3：将学习数据集输入数据模型进行学习训练获得训练模型，数据模型学习不同所述行业的数据得到不同结果；具体过程如下：

S31：采用逻辑回归模型，其中建立逻辑回归模型过程中的拟合函数为h_θ(x)＝θ₀+θ₁x₁+θ₂x₂+…+θ_nx_n，其中x₁,x₂,x₃,…,x_n是学习数据集中选取的训练样本的n个特征值，θ为数据模型参数，训练样本输入拟合函数获得判定标签；S32：利用sigmoid函数

求解类别判断模型P(y＝1|x；θ)，输入训练样本的特征值，获得实际标签；

S33：采用梯度下降方法根据训练样本获得的判定标签和实际标签的差值修正数据模型参数，当数据模型参数不再改变或变化值很小，或者达到预设的迭代次数，训练结束；否则进入S31输入下一组训练样本。

S4：对训练模型进行评估，将评估数据集输入训练模型，训练模型输出可视化图表，反应所述评估数据集中数据字段之间的组合关系，将可视化图表与评估数据集展示的正确字段组合图表、数据字段组合进行对比，比较图表和数据组合是否相同或相近，从而获得评估结果；评估数据集和学习数据集都包含了数据和图表，表示了数据和图表的对应关系；在S3中对学习数据集进行学习时学习数据字段组合和数据字段组合关系，通过建立的训练模型输出的可视化图表显示的是数据字段组合以及数据字段组合关系；

S5：根据评估结果，微调训练模型的参数，获得智能报告模型；

S6：将待整理数据集输入智能报告模型组成的预测系统，输出待整理数据集的图表和报告；

智能报告模型根据待整理数据集的字段信息和数据特征，对待整理数据集的字段维度和度量进行组合，输出对应的图表并布局输出报告。

为了进一步优化上述技术方案，信息包括行业信息、字段信息、数据特征和图表信息。

为了进一步优化上述技术特征，所述字段信息包括字段名、字段类型、字段统计特征和字段组合特征；所述图表信息包括图表和图表关联信息。

为了进一步优化上述技术方案，梯度下降方法的公式为：

通过求导得到：

为了进一步优化上述技术方案，S2中建立的数据模型采用线性模型或决策树模型或神经网络模型。

实施例

数据模型采用逻辑回归模型，回归方法的核心就是为函数找到最合适的参数，使得函数的值和样本的值最接近。比如有两类数据，各有100个点组成，当把这些点画出来，会有一条线区分这两组数据，拟合出这个曲线(因为很有可能是非线性的)，就是回归。通过大量的数据找出这条线，并拟合出这条线的表达式，再有新数据，就以这条线为区分来实现分类。

本发明中逻辑回归模型的拟合函数假设为h_θ(x)＝θ₀+θ₁x₁+θ₂x₂+…+θ_nx_n，x₁,x₂,x₃,…,x_n是学习数据集中选取的训练样本的n个特征值，设置n＝5,。为了将“样本y(x)-y(拟合)”的差值压缩到一个0～1的区间，采用sigmoid函数作为转换函数，按照Sigmoid函数的形式求出P(y＝1|x；θ)，从而去判断每个样本所属的类别。

其中sigmoid函数的表达式为：

使用sigmoid函数，就是让样本经过运算后得到的结果限制在0～1之间，压缩数据的巨幅震荡，从而方便得到样本点的分类标签，分类以sigmoid函数的计算结果是否大于0.5为依据，sigmoid函数的曲线如图2所示，横坐标为x表示特征值，纵坐标为sigmoid(x)表示特征值映射的结果。

拟合函数的θ为要求解的数据模型参数，在求解过程中不断用样本特征值带入上式的拟合函数算式中，计算出结果后跟该样本的实际标签进行比较，根据差值来修正参数，然后再带入新的样本值进行计算，循环进行参数修正，直至无需修正或达到预设的迭代次数。

上述迭代过程用梯度下降方法来实现，使用梯度下降方法估计参数值或参数组合。在具体实现的过程中，不停地迭代运算直到θ的值几乎不再变化为止。

梯度下降算法，

通过求导得到，

在模型评估过程中，使用预留的评估数据集对训练模型的准确度进行评估，如果模型准确度不符合预期，则需要对模型相关参数进行微调整，从而获得更加准确的智能报告模型。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种智能识别数据内容并生成相应行业报告的方法，其特征在于，包括如下步骤：

步骤4：对所述训练模型进行评估，将所述评估数据集输入所述训练模型，所述训练模型输出可视化图表，将所述可视化图表与所述评估数据集展示的正确字段组合图表进行对比，获得相似度结果；

2.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法，其特征在于，所述信息包括行业信息、字段信息、数据特征和图表信息。

3.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法，其特征在于，所述步骤1中对所述数据集在划分之间进行数据清洗，消除无效数据和噪点数据；所述学习数据集的数据量大于所述评估数据集的所述数据量。

4.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法，其特征在于，所述步骤3中训练所述数据模型的具体步骤为：

步骤32：利用sigmoid函数

步骤33：采用梯度下降方法根据所述训练样本获得的所述判定标签和所述实际标签的差值修正所述数据模型参数，当所述数据模型参数的变化值小于或等于设定最小变化值，或者达到预设的迭代次数，训练结束；否则进入所述步骤31输入下一组所述训练样本。

5.根据权利要求4所述的一种智能识别数据内容并生成相应行业报告的方法，其特征在于，所述梯度下降方法的公式为：

通过求导得到：

6.根据权利要求2所述的一种智能识别数据内容并生成相应行业报告的方法，其特征在于，所述步骤6中，所述待整理数据集为一组或若干组一种所述行业的所述数据集，所述智能报告模型根据所述待整理数据集携带的所述字段信息，对所述待整理数据集的字段维度和度量进行组合，输出对应的所述图表并布局输出所述报告。

7.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法，其特征在于，所述步骤2中建立的所述数据模型采用线性模型或决策树模型或神经网络模型。