CN111177495A - 一种智能识别数据内容并生成相应行业报告的方法 - Google Patents

一种智能识别数据内容并生成相应行业报告的方法 Download PDF

Info

Publication number
CN111177495A
CN111177495A CN201911232324.7A CN201911232324A CN111177495A CN 111177495 A CN111177495 A CN 111177495A CN 201911232324 A CN201911232324 A CN 201911232324A CN 111177495 A CN111177495 A CN 111177495A
Authority
CN
China
Prior art keywords
data
model
data set
training
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911232324.7A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yonghong Tech Co ltd
Original Assignee
Beijing Yonghong Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yonghong Tech Co ltd filed Critical Beijing Yonghong Tech Co ltd
Priority to CN201911232324.7A priority Critical patent/CN111177495A/zh
Publication of CN111177495A publication Critical patent/CN111177495A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能识别数据内容并生成相应行业报告的方法,涉及机器学习(Machine Learning,ML),包括大数据收集、数据准备、数据建模、训练模型、评估模型和调整参数,通过机器学习对建立的模型进行训练和参数优化,建立智能报告模型,模型根据学习的结果将收集输入的数据集自动转化为可视化报告。本发明通过机器学习技术,解决繁琐的报表制作工作,通过机器学习,不断强化各行业中数据展示常用的可视化图形,以及对应的字段搭配关系,可以根据数据智能制作出报告,节省大量的人工。

Description

一种智能识别数据内容并生成相应行业报告的方法
技术领域
本发明涉及商业智能平台技术领域,更具体的说是涉及一种智能识别数据内容并生成相应行业报告的方法。
背景技术
目前,各种行业的报告还主要依赖于人员整理,比如银行需要制作一份月度报告,报告涉及到的数据比较多,关联了多个数据集,业务人员制作报告时首先要了解需要展示的包括哪些数据,需要采用什么方式或者图表去展示,这一步制作完成后,还需要考虑颜色需要怎么设置搭配,报告如何布局,所以相当耗费人工,并且准确率也不能保证。
机器学习在各行各业中已经有着广泛的运用,比如智能机器人、游戏AI、图像识别等。目前敏捷商业智能(BI)虽然能够满足非专业人员制作可视化报告的需求,但是却避免不了复杂的制作过程。由于没有统一的规范和风格,各企业和场景要求都不一样,业务人员往往需要对不同数据集的字段进行筛选组合,反复修改报告的布局,还需要图表选择生成可视化报告。在选择图表过程中也需要查看报告的人参与,过程比较耗费人力和时间,周期也往往比较长。但是,BI在数据管理和处理方面具有人力不可比拟的优势。如果BI系统能够根据数据信息自动制作报告,那么业务人员只需要后期进行微调即可完成报告,因此,BI根据数据集信息自动生成报告可以很大程度上提升工作效率,增强易用性。
但是,同时在现有敏捷BI系统中,根据不同行业规范和特点需要选择不同的数据处理方法和报告生成形式。
因此,如何根据不同行业规范和特点实现快速制作报告,从而提高针对不同行业智能生成报告方法的适用性和工作效率是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种智能识别数据内容并生成相应行业报告的方法,涉及机器学习(Machine Learning,ML),包括大数据收集,数据准备,数据建模,训练模型,评估模型,调整参数,根据学习的结果将收集输入的数据集自动转化为可视化报告。本发明通过机器学习技术,解决繁琐的报表制作工作,通过机器学习,不断强化各行业中数据展示常用的可视化图形,以及对应的字段搭配关系,可以根据数据智能制作出报告,节省大量的人工。
为了实现上述目的,本发明采用如下技术方案:
一种智能识别数据内容并生成相应行业报告的方法,包括如下步骤:
步骤1:采集行业大数据,生成数据集,并将数据集划分成学习数据集和评估数据集;
步骤2:根据所述数据集携带信息和数据相关关系建立数据模型;
步骤3:将所述学习数据集输入所述数据模型进行学习训练获得训练模型,所述数据模型学习不同所述行业的数据得到不同结果;
步骤4:对所述训练模型进行评估,将所述评估数据集输入所述训练模型所述训练模型输出可视化图表,例如柱状图、饼图和表格等,反映数据集中数据字段之间的组合关系;将所述可视化图表与所述评估数据集展示的正确字段组合图表、数据字段组合进行对比,获得相似度结果,即比较图表和数据组合是否相同或相近,从而获得评估结果;
步骤5:根据所述评估结果,微调所述训练模型的参数,获得智能报告模型;
步骤6:将待整理数据集输入所述智能报告模型,输出所述待整理数据集的图表和报告。
优选的,所述信息包括行业信息、字段信息、数据特征和图表信息。
优选的,所述步骤1中对所述数据集在划分之间进行数据清洗,消除无效数据和噪点数据;所述学习数据集的数据量大于所述评估数据集的所述数据量。所述学习数据集的数据量占所述数据集的绝大部分。
优选的,所述步骤3中训练所述数据模型的具体步骤为:
步骤31:采用逻辑回归模型,其中建立所述逻辑回归模型过程中的拟合函数为hθ(x)=θ01x12x2+…+θnxn,其中x1,x2,x3,…,xn是所述学习数据集中选取的训练样本的n个特征值,θ为所述数据模型参数,所述训练样本输入所述拟合函数获得判定标签;
步骤32:利用sigmoid函数
Figure BDA0002303897840000031
求解类别判断模型P(y=1|x;θ),输入所述训练样本的所述特征值,获得实际标签;
步骤33:采用梯度下降方法根据所述训练样本获得的所述判定标签和所述实际标签的差值修正所述数据模型参数,当所述数据模型参数的变化值小于或等于设定最小变化值或者达到预设的迭代次数,一般设定最小变化值c=0.001训练结束;否则进入所述步骤31输入下一组所述训练样本。
优选的,所述梯度下降方法的公式为:
Figure BDA0002303897840000032
通过求导得到:
Figure BDA0002303897840000033
优选的,所述步骤6中,所述待整理数据集为一组或若干组一种所述行业的所述数据集,所述智能报告模型根据所述待整理数据集携带的字段信息,对所述待整理数据集的字段维度和度量进行组合,输出对应的所述图表并布局输出所述报告。
优选的,所述步骤2中建立的所述数据模型可以采用线性模型或决策树模型或神经网络模型。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种智能识别数据内容并生成相应行业报告的方法,通过数据采集、数据建模、模型训练和模型优化建立一个可进行输入数据集识别分析并智能生成数据集对应行业报告的智能报告模型,在模型训练过程中通过机器学习可以将输入的数据集自动转化为可视化报告,通过机器学习技术解决了繁琐的报表制作工作,不断强化各行业中数据展示常用的可视化图形,以及对应的字段搭配关系,利用建立的模型智能制作出报告节省了大量的人工消耗,提高了图表和报告制作的效率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的智能生成报告框图;
图2附图为本发明提供的sigmoid函数曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种智能识别数据内容并生成相应行业报告的方法,包括如下S:
S1:采集行业大数据,生成数据集,并将数据集划分成学习数据集和评估数据集;在对数据集在划分之前需要进行数据清洗,消除无效数据和噪点数据;学习数据集的数据量占数据集的绝大部分;
S2:根据数据集携带信息和数据相关关系建立数据模型;
S3:将学习数据集输入数据模型进行学习训练获得训练模型,数据模型学习不同所述行业的数据得到不同结果;具体过程如下:
S31:采用逻辑回归模型,其中建立逻辑回归模型过程中的拟合函数为hθ(x)=θ01x12x2+…+θnxn,其中x1,x2,x3,…,xn是学习数据集中选取的训练样本的n个特征值,θ为数据模型参数,训练样本输入拟合函数获得判定标签;S32:利用sigmoid函数
Figure BDA0002303897840000041
求解类别判断模型P(y=1|x;θ),输入训练样本的特征值,获得实际标签;
S33:采用梯度下降方法根据训练样本获得的判定标签和实际标签的差值修正数据模型参数,当数据模型参数不再改变或变化值很小,或者达到预设的迭代次数,训练结束;否则进入S31输入下一组训练样本。
S4:对训练模型进行评估,将评估数据集输入训练模型,训练模型输出可视化图表,反应所述评估数据集中数据字段之间的组合关系,将可视化图表与评估数据集展示的正确字段组合图表、数据字段组合进行对比,比较图表和数据组合是否相同或相近,从而获得评估结果;评估数据集和学习数据集都包含了数据和图表,表示了数据和图表的对应关系;在S3中对学习数据集进行学习时学习数据字段组合和数据字段组合关系,通过建立的训练模型输出的可视化图表显示的是数据字段组合以及数据字段组合关系;
S5:根据评估结果,微调训练模型的参数,获得智能报告模型;
S6:将待整理数据集输入智能报告模型组成的预测系统,输出待整理数据集的图表和报告;
智能报告模型根据待整理数据集的字段信息和数据特征,对待整理数据集的字段维度和度量进行组合,输出对应的图表并布局输出报告。
为了进一步优化上述技术方案,信息包括行业信息、字段信息、数据特征和图表信息。
为了进一步优化上述技术特征,所述字段信息包括字段名、字段类型、字段统计特征和字段组合特征;所述图表信息包括图表和图表关联信息。
为了进一步优化上述技术方案,梯度下降方法的公式为:
Figure BDA0002303897840000051
通过求导得到:
Figure BDA0002303897840000052
为了进一步优化上述技术方案,S2中建立的数据模型采用线性模型或决策树模型或神经网络模型。
实施例
数据模型采用逻辑回归模型,回归方法的核心就是为函数找到最合适的参数,使得函数的值和样本的值最接近。比如有两类数据,各有100个点组成,当把这些点画出来,会有一条线区分这两组数据,拟合出这个曲线(因为很有可能是非线性的),就是回归。通过大量的数据找出这条线,并拟合出这条线的表达式,再有新数据,就以这条线为区分来实现分类。
本发明中逻辑回归模型的拟合函数假设为hθ(x)=θ01x12x2+…+θnxn,x1,x2,x3,…,xn是学习数据集中选取的训练样本的n个特征值,设置n=5,。为了将“样本y(x)-y(拟合)”的差值压缩到一个0~1的区间,采用sigmoid函数作为转换函数,按照Sigmoid函数的形式求出P(y=1|x;θ),从而去判断每个样本所属的类别。
其中sigmoid函数的表达式为:
Figure BDA0002303897840000061
使用sigmoid函数,就是让样本经过运算后得到的结果限制在0~1之间,压缩数据的巨幅震荡,从而方便得到样本点的分类标签,分类以sigmoid函数的计算结果是否大于0.5为依据,sigmoid函数的曲线如图2所示,横坐标为x表示特征值,纵坐标为sigmoid(x)表示特征值映射的结果。
拟合函数的θ为要求解的数据模型参数,在求解过程中不断用样本特征值带入上式的拟合函数算式中,计算出结果后跟该样本的实际标签进行比较,根据差值来修正参数,然后再带入新的样本值进行计算,循环进行参数修正,直至无需修正或达到预设的迭代次数。
上述迭代过程用梯度下降方法来实现,使用梯度下降方法估计参数值或参数组合。在具体实现的过程中,不停地迭代运算直到θ的值几乎不再变化为止。
梯度下降算法,
Figure BDA0002303897840000062
通过求导得到,
Figure BDA0002303897840000063
在模型评估过程中,使用预留的评估数据集对训练模型的准确度进行评估,如果模型准确度不符合预期,则需要对模型相关参数进行微调整,从而获得更加准确的智能报告模型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种智能识别数据内容并生成相应行业报告的方法,其特征在于,包括如下步骤:
步骤1:采集行业大数据,生成数据集,并将数据集划分成学习数据集和评估数据集;
步骤2:根据所述数据集携带信息和数据相关关系建立数据模型;
步骤3:将所述学习数据集输入所述数据模型进行学习训练获得训练模型,所述数据模型学习不同所述行业的数据得到不同结果;
步骤4:对所述训练模型进行评估,将所述评估数据集输入所述训练模型,所述训练模型输出可视化图表,将所述可视化图表与所述评估数据集展示的正确字段组合图表进行对比,获得相似度结果;
步骤5:根据所述评估结果,微调所述训练模型的参数,获得智能报告模型;
步骤6:将待整理数据集输入所述智能报告模型,输出所述待整理数据集的图表和报告。
2.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法,其特征在于,所述信息包括行业信息、字段信息、数据特征和图表信息。
3.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法,其特征在于,所述步骤1中对所述数据集在划分之间进行数据清洗,消除无效数据和噪点数据;所述学习数据集的数据量大于所述评估数据集的所述数据量。
4.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法,其特征在于,所述步骤3中训练所述数据模型的具体步骤为:
步骤31:采用逻辑回归模型,其中建立所述逻辑回归模型过程中的拟合函数为hθ(x)=θ01x12x2+…+θnxn,其中x1,x2,x3,…,xn是所述学习数据集中选取的训练样本的n个特征值,θ为所述数据模型参数,所述训练样本输入所述拟合函数获得判定标签;
步骤32:利用sigmoid函数
Figure FDA0002303897830000021
求解类别判断模型P(y=1|x;θ),输入所述训练样本的所述特征值,获得实际标签;
步骤33:采用梯度下降方法根据所述训练样本获得的所述判定标签和所述实际标签的差值修正所述数据模型参数,当所述数据模型参数的变化值小于或等于设定最小变化值,或者达到预设的迭代次数,训练结束;否则进入所述步骤31输入下一组所述训练样本。
5.根据权利要求4所述的一种智能识别数据内容并生成相应行业报告的方法,其特征在于,所述梯度下降方法的公式为:
Figure FDA0002303897830000022
通过求导得到:
Figure FDA0002303897830000023
6.根据权利要求2所述的一种智能识别数据内容并生成相应行业报告的方法,其特征在于,所述步骤6中,所述待整理数据集为一组或若干组一种所述行业的所述数据集,所述智能报告模型根据所述待整理数据集携带的所述字段信息,对所述待整理数据集的字段维度和度量进行组合,输出对应的所述图表并布局输出所述报告。
7.根据权利要求1所述的一种智能识别数据内容并生成相应行业报告的方法,其特征在于,所述步骤2中建立的所述数据模型采用线性模型或决策树模型或神经网络模型。
CN201911232324.7A 2019-12-05 2019-12-05 一种智能识别数据内容并生成相应行业报告的方法 Pending CN111177495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911232324.7A CN111177495A (zh) 2019-12-05 2019-12-05 一种智能识别数据内容并生成相应行业报告的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911232324.7A CN111177495A (zh) 2019-12-05 2019-12-05 一种智能识别数据内容并生成相应行业报告的方法

Publications (1)

Publication Number Publication Date
CN111177495A true CN111177495A (zh) 2020-05-19

Family

ID=70655460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911232324.7A Pending CN111177495A (zh) 2019-12-05 2019-12-05 一种智能识别数据内容并生成相应行业报告的方法

Country Status (1)

Country Link
CN (1) CN111177495A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434201A (zh) * 2020-12-04 2021-03-02 高慧军 基于大数据的数据可视化方法及大数据云服务器
CN113312350A (zh) * 2021-05-27 2021-08-27 广东电网有限责任公司东莞供电局 仓储配送管理报表生成方法、装置和存储介质
CN114579829A (zh) * 2022-01-10 2022-06-03 江西卫生职业学院 一种计算机网络数据可视化方法、装置和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055427A1 (en) * 2014-10-15 2016-02-25 Brighterion, Inc. Method for providing data science, artificial intelligence and machine learning as-a-service
CN106484667A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 展示数据的方法及装置
CN108509644A (zh) * 2018-04-12 2018-09-07 成都优易数据有限公司 一种具备模型预警更新机制的数据挖掘方法
CN109523316A (zh) * 2018-11-16 2019-03-26 杭州珞珈数据科技有限公司 商业服务模型的自动化建模方法
CN109800277A (zh) * 2018-12-18 2019-05-24 合肥天源迪科信息技术有限公司 一种机器学习平台及基于该平台的数据模型优化方法
US20190244137A1 (en) * 2018-02-08 2019-08-08 Roblox Corporation Using machine learning to estimate or forecast resource use with time-varying demand in gaming platforms

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055427A1 (en) * 2014-10-15 2016-02-25 Brighterion, Inc. Method for providing data science, artificial intelligence and machine learning as-a-service
CN106484667A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 展示数据的方法及装置
US20190244137A1 (en) * 2018-02-08 2019-08-08 Roblox Corporation Using machine learning to estimate or forecast resource use with time-varying demand in gaming platforms
CN108509644A (zh) * 2018-04-12 2018-09-07 成都优易数据有限公司 一种具备模型预警更新机制的数据挖掘方法
CN109523316A (zh) * 2018-11-16 2019-03-26 杭州珞珈数据科技有限公司 商业服务模型的自动化建模方法
CN109800277A (zh) * 2018-12-18 2019-05-24 合肥天源迪科信息技术有限公司 一种机器学习平台及基于该平台的数据模型优化方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434201A (zh) * 2020-12-04 2021-03-02 高慧军 基于大数据的数据可视化方法及大数据云服务器
CN113312350A (zh) * 2021-05-27 2021-08-27 广东电网有限责任公司东莞供电局 仓储配送管理报表生成方法、装置和存储介质
CN114579829A (zh) * 2022-01-10 2022-06-03 江西卫生职业学院 一种计算机网络数据可视化方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN111177495A (zh) 一种智能识别数据内容并生成相应行业报告的方法
CN108596335B (zh) 一种基于深度强化学习的自适应众包方法
CN101710304A (zh) 一种软件过程实施质量评测方法
CN108491991B (zh) 基于工业大数据产品工期的约束条件分析系统与方法
CN109636467A (zh) 一种品牌的互联网数字资产的综合评估方法及系统
CN112163624A (zh) 基于深度学习和极值理论的数据异常判断方法及系统
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN114546365B (zh) 一种流程可视化的建模方法、服务器、计算机系统及介质
EP1672578A1 (en) Method and system for analyzing the risk of a project
CN112348101A (zh) 一种基于异常数据分析的轧钢燃耗预警方法及系统
JP4299508B2 (ja) 製造プロセスにおける操業と品質の関連分析装置、関連分析方法及びコンピュータ読み取り可能な記憶媒体
CN117235606A (zh) 特种不锈钢的生产质量管理方法及系统
CN116070995B (zh) 一种基于大数据分析的商铺进销存管理系统及方法
WO2020085114A1 (ja) 情報処理装置、情報処理方法、および、プログラム
CN113033469B (zh) 工器具损坏识别方法、装置、设备、系统及可读存储介质
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法
CN111583394B (zh) 一种基于特征识别的知识化工艺性检查方法及系统
CN110837460B (zh) 页面评测方法、模型构建方法及设备
CN113191569A (zh) 一种基于大数据的企业管理方法及系统
CN109948421B (zh) 基于pca和属性配置文件的高光谱图像分类方法
CN112215514A (zh) 一种经营分析报告生成方法及系统
TW202133089A (zh) 最佳化驅動決策之方法及其電腦程式產品
CN111598418A (zh) 基于均衡度的项目排序方法、装置、设备和存储介质
CN115935533B (zh) 基于参数的产品智能设计系统
CN117892091B (zh) 基于人工智能的数据智能分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519

RJ01 Rejection of invention patent application after publication