CN116795950A - 基于人工智能的数据挖掘分析自动生成报告方法及系统 - Google Patents

基于人工智能的数据挖掘分析自动生成报告方法及系统 Download PDF

Info

Publication number
CN116795950A
CN116795950A CN202310605427.3A CN202310605427A CN116795950A CN 116795950 A CN116795950 A CN 116795950A CN 202310605427 A CN202310605427 A CN 202310605427A CN 116795950 A CN116795950 A CN 116795950A
Authority
CN
China
Prior art keywords
data
report
analysis
artificial intelligence
data mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310605427.3A
Other languages
English (en)
Inventor
钟志
钟鸿燕
王刚
王帮海
方文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huali College
Guangzohu Nuowei Information Technology Co ltd
Guangdong University of Technology
Original Assignee
Guangzhou Huali College
Guangzohu Nuowei Information Technology Co ltd
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huali College, Guangzohu Nuowei Information Technology Co ltd, Guangdong University of Technology filed Critical Guangzhou Huali College
Priority to CN202310605427.3A priority Critical patent/CN116795950A/zh
Publication of CN116795950A publication Critical patent/CN116795950A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分析技术领域,且公开了一种基于人工智能的数据挖掘分析自动生成报告方法及系统,包括数据采集、数据预处理、数据挖掘、结构化处理、生成结构化报告五个模块,主要采用自然语言处理技术和数据挖掘算法作为主体进行生成报告,可以实现数据采集、预处理、挖掘分析、结构化处理、生成报告全流程智能化,可用于从各种范围大且多样的数据库中提取最有效最优质的数据,在各大网站里,该系统用自然语言处理技术和数据挖掘算法,快速准确自动的将提取分析处理的数据显示在用户者面前。同时,该系统可各大网站后台管理者进行无缝隙衔接,及时发现潜在的风险和问题,快速准确的将错误的数据发送给管理员,方便网站的维护。

Description

基于人工智能的数据挖掘分析自动生成报告方法及系统
技术领域
本发明属于数据分析技术领域,具体涉及一种基于人工智能的数据挖掘分析自动生成报告方法及系统。
背景技术
数据挖掘分析是一个有目的进行收集、整理、加工和分析数据从而提炼出有价信息的过程。传统的数据分析和报告往往需要大量的人力和时间成本,数据多,范围广,可能产生的数据不准确性以及错误多,受到人为主观因素较多,从而会导致分析结果不准确和报告质量不稳定。且数据量的多样化也会给数据分析增加难度。
为此,我们提出一种在字段多、范围广,人为不能准确收集数据信息的情况下,采用自然语言处理技术和数据挖掘算法,模拟人收集整合信息能力,实现对数据的自动化分析和结构化报告的生成的基于人工智能的数据挖掘分析自动生成报告方法及系统来解决上述问题。
发明内容
本发明的目的在于提供针对数据多,范围广,可能产生的数据不准确性以及错误多等项目设计一种基于人工智能的数据挖掘分析自动生成报告方法及系统,解决了字段多、范围广的情况下,人为不能准确收集数据信息这一问题,采用自然语言处理技术和数据挖掘算法,模拟人收集整合信息能力,实现对数据的自动化分析和结构化报告的生成,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于人工智能的数据挖掘分析自动生成报告方法,包括以下步骤:
S1、确定分析数据以及分析目标;
S2、从数据源中采集数据;
S3、采用Python语言预处理数据;
S4、对数据进行分析和挖掘,提取数据的特征和规律,对数据进行分类;
S5、对挖掘出的数据信息进行结构化处理;
S6、根据预设模板和领域知识,利用自然语言生成技术和模板填充算法,生成结构化的报告;
S7、将自动生成的报告进行人工审核和修正;
S8、输出报告。
优选的,所述步骤S2中,数据采集中包括文本、图像以及视频的数据采集。
优选的,所述步骤S3中,数据的预处理包括对采集的数据进行清洗、去重、分词工作,目的是让数据更佳清晰化、精准化。
优选的,所述步骤S4中,利用机器学习和数据挖掘算法对数据进行分析和挖掘,用pandas、scikit-learn和TensorFlow对数据进行特征选择、模型训练和模型优化,以实现对数据的快速建模和预测,利用循环神经网络和注意力机制,提高自动生成报告的准确性和语言流畅度。
另外R语言也是一种专门用于统计分析和数据可视化的语言,拥有丰富的数据分析和建模工具,例如ggplot2、dplyr、caret等。
优选的,所述步骤S5中,运用自然语言处理技术将挖掘出的数据信息进行结构化处理,包括词法分析、句法分析和语义分析,让数据易于总结生成,提高数据挖掘分析的精准度。
优选的,所述步骤S8中,输出报告时,对于审核无误的报告直接进行审核后的输出,实现自动化的报告生成和分发,对于审核出现问题的报告,再次循环地进行数据预处理、数据挖掘分析以及进行结构化处理,循环往复,直至审核无误生成结构化报告。
一种基于人工智能的数据挖掘分析自动生成报告的系统,包括:
数据采集模块,用于从数据源中采集所需数据;
数据预处理模块,用于对采集的数据进行预处理;
数据挖掘模块,用于对数据进行分析和挖掘,提取出数据的特征和规律;
自然语言处理模块,用于对挖掘出的数据信息进行自然语言处理;
报告生成模块,用于生成结构化的报告;
所述系统还包括报告审核模块,用于审核生成的报告。
本发明的技术效果和优点:
(1)结合自然语言处理技术和数据挖掘算法,实现了对数据的自动化分析和结构化报告的生成。面对庞大繁琐的数据库,该系统可以提高数据结构化报告生成效率,节省时间成本。
(2)利用循环神经网络和注意力机制,提高了自动生成报告的准确性和语言流畅度。较于人工分析而言,该系统可以提高语法精确度,语言简洁清晰,能够有利于收集者分析读取数据。
(3)提出了一种基于领域知识的数据挖掘方法,可以根据具体领域的需求进行定制化的报告生成,减少领域范围,将数据精确到具体的领域,从而为收集者分析生成出更加具体化、标准化的数据报告。
(4)设计了自动检测加人工检测双结合的方法,在系统数据挖掘和自动生成报告的过程中,针对每一个具体领域制定化报告生成个案,该系统会自动检测报告语言的流畅度和准确度,对报告进行结构化处理,让生成报告更加简洁清晰。系统的自动检测无误后将会进行人工检测。如果审核不过关,将由审核人员进行改进和完善,来达到报告精准的要求。同时在系统运行中出现问题时,工作人员会及时改动程序来解决问题。
(5)本发明通过对大量数据进行深入挖掘和分析,可以快速高效地生成数据报告,提升工作效率和准确性,降低成本,具有广泛的应用价值。同时具有高效、准确、自动化等特点。
附图说明
图1为本发明基于人工智能的数据挖掘分析自动生成报告方法的方法流程图;
图2为本发明基于人工智能的数据挖掘分析自动生成报告系统的系统模块图;
图3为本发明基于人工智能的数据挖掘分析自动生成报告方法的逻辑流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1-3所示的一种基于人工智能的数据挖掘分析自动生成报告方法,包括以下步骤:
S1、面对庞大且多样的数据库时,须先确定所需要分析的数据和分析目标;
S2、在确定好分析的数据和分析的目标后,该自动生成报告系统会自动从数据源中采集数据;
S3、采用Python语言预处理数据;
S4、对数据进行分析和挖掘,提取数据的特征和规律,对数据进行分类;
S5、对挖掘出的数据信息进行结构化处理;
S6、根据预设模板和领域知识,利用自然语言生成技术和模板填充算法,生成结构化的报告;
S7、将自动生成的报告进行人工审核和修正;
S8、输出报告。
具体地,所述步骤S2中,数据采集中包括文本、图像以及视频的数据采集。
具体地,所述步骤S3中,数据的预处理包括对采集的数据进行清洗、去重、分词等工作,目的是让数据更佳清晰化、精准化。
具体地,所述步骤S4中,运用机器学习和数据挖掘算法对数据进行分析和挖掘,用pandas、scikit-learn和TensorFlow对数据进行特征选择、模型训练和模型优化,以实现对数据的快速建模和预测,利用循环神经网络和注意力机制,提高自动生成报告的准确性和语言流畅度。
另外R语言也是一种专门用于统计分析和数据可视化的语言,拥有丰富的数据分析和建模工具,例如ggplot2、dplyr、caret等。
具体地,所述步骤S5中,运用自然语言处理技术将挖掘出的数据信息进行结构化处理,包括词法分析、句法分析和语义分析,让数据易于总结生成,提高数据挖掘分析的精准度。
具体地,所述步骤S8中,输出报告时,对于审核无误的报告直接进行审核后的输出,实现自动化的报告生成和分发,对于审核出现问题的报告,再次循环地进行数据预处理、数据挖掘分析以及进行结构化处理,循环往复,直至审核无误生成结构化报告。
一种基于人工智能的数据挖掘分析自动生成报告的系统,包括:
数据采集模块,用于从数据源中采集所需数据;
数据预处理模块,用于对采集的数据进行预处理;
数据挖掘模块,用于对数据进行分析和挖掘,提取出数据的特征和规律;
自然语言处理模块,用于对挖掘出的数据信息进行自然语言处理;
报告生成模块,用于生成结构化的报告;
该基于人工智能的数据挖掘分析自动生成报告方法及系统,包括数据采集、数据预处理、数据挖掘、结构化处理、生成结构化报告五个模块,主要采用自然语言处理技术和数据挖掘算法作为主体进行生成报告,通过对大量数据进行深入挖掘和分析,可以快速高效地生成数据报告,提升工作效率和准确性,降低成本,具有广泛的应用价值;
系统可以实现数据采集、预处理、挖掘分析、结构化处理、生成报告全流程智能化。可用于从各种范围大且多样的数据库中提取最有效最优质的数据。在各大网站里,该系统用自然语言处理技术和数据挖掘算法,快速准确自动的将提取分析处理的数据显示在用户者面前。同时,该系统可各大网站后台管理者进行无缝隙衔接。及时发现潜在的风险和问题,快速准确的将错误的数据发送给管理员,从而增加数据的准确性,也方便网站的维护;
该人工智能的数据挖掘分析自动生成报告方法及系统,利用机器学习、自然语言处理等技术,可以自主完成数据分析,知识提取,自然语言生成和可视化展示等全过程并生成准确的报告;
可以提高数据分析的效率和准确性,同时可以早发现潜在的风险和问题并采取措施避免或降低风险。各种数据分析也有从人为提取转向智能提取的迫切需要。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于人工智能的数据挖掘分析自动生成报告方法,其特征在于,包括以下步骤:
S1、确定分析数据以及分析目标;
S2、从数据源中采集数据;
S3、采用Python语言预处理数据;
S4、对数据进行分析和挖掘,提取数据的特征和规律,对数据进行分类;
S5、对挖掘出的数据信息进行结构化处理;
S6、利用自然语言生成技术和模板填充算法,生成结构化的报告;
S7、将自动生成的报告进行人工审核和修正;
S8、输出报告。
2.根据权利要求1所述的一种基于人工智能的数据挖掘分析自动生成报告方法,其特征在于:所述步骤S2中,数据采集中包括文本、图像以及视频的数据采集。
3.根据权利要求1所述的一种基于人工智能的数据挖掘分析自动生成报告方法,其特征在于:所述步骤S3中,数据的预处理包括对采集的数据进行清洗、去重、分词工作。
4.根据权利要求1所述的一种基于人工智能的数据挖掘分析自动生成报告方法,其特征在于:所述步骤S4中,利用机器学习和数据挖掘算法对数据进行分析和挖掘,用pandas、scikit-learn和TensorFlow对数据进行特征选择、模型训练和模型优化。
5.根据权利要求1所述的一种基于人工智能的数据挖掘分析自动生成报告方法,其特征在于:所述步骤S5中,运用自然语言处理技术将挖掘出的数据信息进行结构化处理,包括词法分析、句法分析和语义分析。
6.根据权利要求1所述的一种基于人工智能的数据挖掘分析自动生成报告方法,其特征在于:所述步骤S8中,输出报告时,对于审核无误的报告直接进行审核后的输出,对于审核出现问题的报告,再次循环地进行数据预处理、数据挖掘分析以及进行结构化处理,循环往复,直至审核无误生成结构化报告。
7.根据权利要求1所述的一种基于人工智能的数据挖掘分析自动生成报告的系统,其特征在于,包括:
数据采集模块,用于从数据源中采集所需数据;
数据预处理模块,用于对采集的数据进行预处理;
数据挖掘模块,用于对数据进行分析和挖掘,提取出数据的特征和规律;
自然语言处理模块,用于对挖掘出的数据信息进行自然语言处理;
报告生成模块,用于生成结构化的报告。
8.根据权利要求1所述的一种基于人工智能的数据挖掘分析自动生成报告的系统,其特征在于:所述系统还包括报告审核模块,用于审核生成的报告。
CN202310605427.3A 2023-05-26 2023-05-26 基于人工智能的数据挖掘分析自动生成报告方法及系统 Pending CN116795950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310605427.3A CN116795950A (zh) 2023-05-26 2023-05-26 基于人工智能的数据挖掘分析自动生成报告方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310605427.3A CN116795950A (zh) 2023-05-26 2023-05-26 基于人工智能的数据挖掘分析自动生成报告方法及系统

Publications (1)

Publication Number Publication Date
CN116795950A true CN116795950A (zh) 2023-09-22

Family

ID=88043095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310605427.3A Pending CN116795950A (zh) 2023-05-26 2023-05-26 基于人工智能的数据挖掘分析自动生成报告方法及系统

Country Status (1)

Country Link
CN (1) CN116795950A (zh)

Similar Documents

Publication Publication Date Title
CN111709235A (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
CN109710930A (zh) 一种基于深度神经网络的中文简历解析方法
CN111859046A (zh) 一种基于污染要素源解析的水污染溯源系统及方法
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
CN105389303B (zh) 一种异源语料自动融合方法
CN115062675A (zh) 一种基于神经网络的全光谱污染溯源方法及云系统
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
CN113094512A (zh) 一种工业生产制造中故障分析系统及方法
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN112598142B (zh) 一种风电机组检修工作质量审查辅助方法与系统
CN113408253A (zh) 一种作业评阅系统及方法
CN116934278A (zh) 一种建筑施工方案审核方法与装置
CN116795950A (zh) 基于人工智能的数据挖掘分析自动生成报告方法及系统
CN114880471A (zh) 一种基于文本分类算法的电子病历质量评估方法及系统
CN111460160B (zh) 一种基于强化学习的流式文本数据的事件聚类方法
CN117501275A (zh) 用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统
CN113377962A (zh) 一种基于图像识别和自然语言处理的智能过程模拟方法
CN114547231A (zh) 一种数据溯源的方法和系统
CN117112780B (zh) 一种基于文本摘要模型的非结构化日志解析方法及装置
CN116720196B (zh) 一种代码同源性检测方法及系统
CN115938540B (zh) 一种基于云平台的情景互动儿童康复训练系统
CN117235248A (zh) 一种基于自然语言大模型的数据可视化分析方法
CN118037372A (zh) 一种电子发票的自动记账系统
CN117216211A (zh) 生成式ai的数据构建和输出方法、系统及机器人
CN117520557A (zh) 一种基于异步注意力机制的事故原因知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination