CN115438142A - 一种对话式交互数据分析报告系统 - Google Patents
一种对话式交互数据分析报告系统 Download PDFInfo
- Publication number
- CN115438142A CN115438142A CN202110611469.9A CN202110611469A CN115438142A CN 115438142 A CN115438142 A CN 115438142A CN 202110611469 A CN202110611469 A CN 202110611469A CN 115438142 A CN115438142 A CN 115438142A
- Authority
- CN
- China
- Prior art keywords
- analysis
- data
- data analysis
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种对话式交互数据分析报告系统。第一步,通过采集分析人员的语音输入,获取数据分析需求关键信息,并确保用户语音信息的及时及完整性输入;第二步,解析语音转换系统发送的数据分析需求文本,从中获取分析关键词,匹配数据分析规则;第三步,解析结果,执行对应结算程序,得到可视化结果;第四步,进行统计分析和数据挖掘工作,生成最终的数据分析报告。本系统的优点是:充分应用了大数据技术及人工智能分析技术,联动所有数据库资源,应用路径优化及数据展示优化技术,有效提升数据分析速度和数据展示的效果。
Description
技术领域
本发明涉及一种对话式交互数据分析报告系统。涉及的原始语音先经输入模块转化为文本,再经语音识别调动数据搜索引擎,启动分析路径进行数据分析,生成分析报告及数据可视化展示,实现数据分析结果的自动化、形象化展示。
背景技术
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大程度上开发数据的功能,发挥数据的作用。传统数据分析流程是通过需求分析、人工数据提取、手动数据分析、得出分析结论。而数据分析的自动生成流程则有基于埋点分析和漏斗分析的分析报表生成方案和基于国网指标体系的通用电力企业数据分析系统。基于埋点分析和漏斗分析方案是基于分析人员预设置的埋点分析配置信息,确定埋点的分析信息和分析指标,如时间粒度、待分析时间范围等,然后通过数据查询和报表生成程序,生成数据分析报表。基于国网指标体系的通用电力企业数据分析系统是将源数据通过数据接入模块存储到系统存储模块,利用计算机软件进行数据分析,将最终的数据分析报告展示出来。
随着人机交互对话系统(CN109829052A、CN108877797A、CN109192205B、202011359592)和数据分析报告自动生成系统(CN201610138023.8)的开发,缩短了数据分析时间和自动化数据分析,但对于复杂的数据分析系统,不仅需要数据分析,而且需要数据挖掘和预测。
本发明完善了现有技术的不足,通过对话方式,经语音识别调动数据搜索引擎,启动分析路径进行数据分析和数据挖掘,生成分析报告及数据多样化展示。
发明内容
本发明由输入模块、解析模块、分析模块、报告模块四部分组成,如图1(对话式交互数据分析报告系统架构图)所示。
第一步:输入模块。本步骤的目的是采集数据分析人员的分析需求,系统通过采集分析人员的语音输入,获取数据分析需求关键信息,并确保用户语音信息的及时及完整性输入,包括:(1)用户语音输入需要分析的内容,系统将用户输入的模拟语音信息转换为数字语音信息,然后将语音信息发送至文本转换模块;(2)文本转换模块接收到语音信息,采用预先设置的算法将语音信息转换为文本信息,传递给文本解析系统。
第二步:解析模块。本步骤的目的是解析语音转换系统发送的数据分析需求文本,从中获取分析关键词,匹配数据分析规则。本发明所提供的系统采用关键词算法,将数据分析需求文本中的关键信息提取成有一定顺序的词语,通过和预设值的实际业务场景关键词,应用电子表格软件(excel)里的纵向查找函数(vlookup)进行模糊匹配,获取需要分析的内容、相关联数据源表名称、相关字段名称等信息。其中各子模块的功能如图2(最优分析路径选择过程)所示,具体为:(1)语音文本转换模块:将输入语音信息识别转换为文本信息,方便后台进行识别;语音识别模块:关联语音库信息,进行语音文本识别,获取关键有用信息;数据地图搜索引擎:关联数据库中所有元数据,启动引擎搜索语音文本中对应的所有数据信息;分析路径生成模块:利用大数据分析技术,科学化进行分析,识别最佳数据分析路径,减少数据搜索及生成时长。数据分析语句生成模块:系统根据分析路径,自动生成数据分析的最佳技术语句。(2)语义识别模块:语义分析技术是人工智能的一个分支,是自然语言处理的几个核心任务之一,目前已经实现了集词法分析、句子理解、意图分类及句子以度量的一体化语义理解算法体系。该模块采用深度学习技术中在自然语言处理方面最有效的循环神经网络技术(RNNs),能够对任何长度的序列数据进行处理,实现词向量表达、语句合法性检查、词性标注等,配合语义库进行实际业务场景的深度理解,精确高效的分析出实际需求,为数据分析自动化生成系统提供强有力的支撑。(3)语义库的构建:语义库是业务知识融合库,库中包含了从业务数据库根据一定规则导入进来的数据所构建核心基础表,将业务信息及对应业务指标以一定的规则输入语义库,搭建出一个专业的业务知识融台库。语义库的构建包括业务模型和数据模型,与其它语义库业务回复不同,其主要配合语义识别模块理解语义下的深层信息,实现数据分析的直观化展示,与现有语音识别转文本存在本质的不同。由语义解析后生成SQL的过程,目前采用的是计算机编程语言 (Fython)脚本生成,后续可优化调整为算法提高分析语句生成效率,生成SQL的过程已经涵盖了分析路径的选择,可在每个节点进行最优分析路径的选择。(4)分析路径生成模块:预先设置固定的分析路径,如拆解、归纳等,通过语义识别模块对语义进行分析判断后,根据实际需求及数据实现智能化判别分析路径,选择最佳分析路径,实现最优化判别。(5)数据分析语句生成模块:提取关键词之后,使用RNNs中实现的词性标注算法,利用事先制定好的规则对具有多个词性的词进行消岐,最后保留一个正确的词性,如该词是名词,到表或列的词义库找对应的表信息或列信息,组成查询语句;如该词是时间词或条件词,即到时间词库和条件词库中找对应的语法格式;如条件表达大于多少时,取对应的大于号“>”,最后组合条件语句。SQL语句拼凑完成后执行,根据查询结果进行显示。
第三步:分析模块。本步骤的目的是根据步骤二的解析结果,执行对应结算程序,得到可视化结果。其中各子模块功能如下。数据分析执行模块:执行技术语句,生成对应数据分析结果;数据可视化引擎:使用大数据可视化引擎(DHAgeney)等工具,识别最佳展示方式,将分析结果进行可视化展示,实现最优展示结果。
第四步:报告模块。本步骤的目的是用分析报告引擎,进行统计和数据挖掘工作,生成最终的数据分析报告。首先清洗各项指标数据,进行数据挖掘分析,深层次挖掘潜在业务逻辑,然后通过数据建模预测未来数据走势,最后输出数据分析报告。其中的数据分析报告包括三部分内容,一是数据常规统计分析,二是数据波动归因分析,三是对预测未来数据走势。数据统计分析可以是由数据库中直接提取的字段数据,或是通过计算生成的各项业务指标数据。比如,可以是将业务数据按时间刻度、业务类别、地理区域进行整体统计、描述性分析展示,也可以是数据的同比、环比变化率的分析。常规分析中,基于所配置的分析信息,生成数据查询代码。具体内容包括,基于分析关键字确定数据源表位置及数据字段名,基于分析时间信息确定数据查询时间限定,最后调用数据查询引擎执行生成的SQL语句获取数据。基于分析指标所配置的计算公式,将查询的数据进行计算,获得各项指标的值,基于所配置的图表信息设置,将上述值列出不同的图表类型。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施方式对本发明作详细的描述,但不限定本发明的实施范围。
实施例1
在移动通信某企业的结算业务数据分析部署该系统,应用服务器采用主从式部署,机器型号 (HUAWEI2288HV5 4214CPU*2单电SR430C 32G内存4T硬盘*2),业务数据模型30个,数据量千万级,语音输入设备采用PS-318台式有线话筒,语义库收集业务相关语义147万条词条,元数据库搜索生成3567 个常用数据。第一步,用语音输入设备辅入业务分析需求(如:请查询今年结算的收入及支出情况);第二步,系统对该条输入进行语义解析,理解为查询年度结算收入表中收入金额字段支出表中支出金额字段;第三步,向数据库提交查询请求,以柱图加表格的形式展示并保存为中间结果;第四步,生成演示文档(PPT) 或便携式文档(PDF)格式报告。
性能测试:数据分析平均反馈时间20-25s,语音语义正确解析率98.5%,计算公式:正确转成文本的语音条数/语音输入总条数*100%,语义词条正确匹配率87%(随语义库词条量增加而增加),计算公式:正确匹配词条数/总解析词条数*100%。
实施例2
在移动通信某企业的社会渠道酬金业务数据分析部署该系统,应用服务器采用主从式部署,机器型号 (HUAWEI2288HV5 4214CPU*2单电SR430C 32G内存4T硬盘*2),业务数据模型55个,数据量千万级,语音输入设备采用PS-318台式有线话筒,语义库收集业务相关语义20万条词条,元数据库搜索生成5776 个常用数据。第一步,用语音输入设备输入业务分析需求(如:请查询本年度社会渠道酬金和业务量情况);第二步,系统对该条输入进行语义解析,理解为:查询年度社会渠道酬金汇总表中酬金金额字段和业务办理量字段:第三步,向数据库提交查询请求,以柱图加表格的形式展示并保存为中间结果;第四步,生成PPT或PDF格式报告。
性能测试:数据分析平均反馈时间20-25s,语音语义正确解析率95.1%,计算公式:正确转成文本的语音条数/语音输入总条数*100%;语义词条正确匹配率89%(随语义库词条量增加而增加),计算公式:正确匹配词条数/总解析词条数*100%。
附图说明
图1,对话式交互数据分析报告系统架构图
图2,最优分析路径选择过程。
Claims (3)
1.一种对话式交互数据分析报告系统,是由输入模块、解析模块、分析模块、报告模块组成的,其特征在于:所述的输入模块用于采集分析人员的语音输入,获取数据分析需求关键信息,并确保用户语音信息的及时及完整性输入;所述的解析模块用于解析语音转换系统发送的数据分析需求文本,从中获取分析关键词,匹配数据分析规则;所述的分析模块用于执行对应结算程序,得到可视化结果;所述的报告模块用于进行统计分析和数据挖掘工作,生成最终的数据分析报告。
2.根据权利要求1所述对话式交互数据分析报告系统,其特征在于:所述的分析模块中指标构建规则按照一定的指标构造规则,计算数据分析报告各项指标。具体的包括分析时间信息、分析指标信息、图表配置信息等。其中所述的分析时间信息包括分析起止时间、时间间隔类型等信息,所述分析指标信息包括分析关键字、计算公式选择等信息,所述图表配置信息包括图表类型、图标元素、图表尺寸等信息。
3.根据权利要求1所述对话式交互数据分析报告系统,其特征在于:所述的报告模块中多样化数据输出结果报告包括数据常规统计分析、数据波动归因分析、对预测未来数据走势分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611469.9A CN115438142B (zh) | 2021-06-02 | 2021-06-02 | 一种对话式交互数据分析报告系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611469.9A CN115438142B (zh) | 2021-06-02 | 2021-06-02 | 一种对话式交互数据分析报告系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115438142A true CN115438142A (zh) | 2022-12-06 |
CN115438142B CN115438142B (zh) | 2023-07-11 |
Family
ID=84239826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110611469.9A Active CN115438142B (zh) | 2021-06-02 | 2021-06-02 | 一种对话式交互数据分析报告系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438142B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101437039A (zh) * | 2007-11-15 | 2009-05-20 | 华为技术有限公司 | 一种移动搜索的方法、系统和设备 |
US20110029853A1 (en) * | 2009-08-03 | 2011-02-03 | Webtrends, Inc. | Advanced visualizations in analytics reporting |
US20110206198A1 (en) * | 2004-07-14 | 2011-08-25 | Nice Systems Ltd. | Method, apparatus and system for capturing and analyzing interaction based content |
US20130262107A1 (en) * | 2012-03-27 | 2013-10-03 | David E. Bernard | Multimodal Natural Language Query System for Processing and Analyzing Voice and Proximity-Based Queries |
CN106649223A (zh) * | 2016-12-23 | 2017-05-10 | 北京文因互联科技有限公司 | 基于自然语言处理的金融报告自动生成方法 |
US20170351689A1 (en) * | 2016-06-06 | 2017-12-07 | Gauthaman Vasudevan | System and method for automated key-performance-indicator discovery |
US20190095507A1 (en) * | 2017-09-25 | 2019-03-28 | Appli Inc. | Systems and methods for autonomous data analysis |
CN109710733A (zh) * | 2018-11-28 | 2019-05-03 | 北京永洪商智科技有限公司 | 一种基于智能语音识别的数据交互方法和系统 |
CN110188163A (zh) * | 2019-04-13 | 2019-08-30 | 上海策友信息科技有限公司 | 基于自然语言的智能数据处理系统 |
CN110413708A (zh) * | 2019-07-23 | 2019-11-05 | 杭州城市大数据运营有限公司 | 一种面向业务术语的数据分析系统 |
US20200074374A1 (en) * | 2018-08-31 | 2020-03-05 | Kinaxis Inc. | Conversational business tool |
US20200210647A1 (en) * | 2018-07-24 | 2020-07-02 | MachEye, Inc. | Automated Summarization of Extracted Insight Data |
CN111694940A (zh) * | 2020-05-14 | 2020-09-22 | 平安科技(深圳)有限公司 | 一种用户报告的生成方法及终端设备 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
CN111753527A (zh) * | 2020-06-29 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于自然语言处理的数据分析方法、装置和计算机设备 |
-
2021
- 2021-06-02 CN CN202110611469.9A patent/CN115438142B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110206198A1 (en) * | 2004-07-14 | 2011-08-25 | Nice Systems Ltd. | Method, apparatus and system for capturing and analyzing interaction based content |
CN101437039A (zh) * | 2007-11-15 | 2009-05-20 | 华为技术有限公司 | 一种移动搜索的方法、系统和设备 |
US20110029853A1 (en) * | 2009-08-03 | 2011-02-03 | Webtrends, Inc. | Advanced visualizations in analytics reporting |
US20130262107A1 (en) * | 2012-03-27 | 2013-10-03 | David E. Bernard | Multimodal Natural Language Query System for Processing and Analyzing Voice and Proximity-Based Queries |
US20170351689A1 (en) * | 2016-06-06 | 2017-12-07 | Gauthaman Vasudevan | System and method for automated key-performance-indicator discovery |
CN106649223A (zh) * | 2016-12-23 | 2017-05-10 | 北京文因互联科技有限公司 | 基于自然语言处理的金融报告自动生成方法 |
US20190095507A1 (en) * | 2017-09-25 | 2019-03-28 | Appli Inc. | Systems and methods for autonomous data analysis |
US20200210647A1 (en) * | 2018-07-24 | 2020-07-02 | MachEye, Inc. | Automated Summarization of Extracted Insight Data |
US20200074374A1 (en) * | 2018-08-31 | 2020-03-05 | Kinaxis Inc. | Conversational business tool |
CN109710733A (zh) * | 2018-11-28 | 2019-05-03 | 北京永洪商智科技有限公司 | 一种基于智能语音识别的数据交互方法和系统 |
CN110188163A (zh) * | 2019-04-13 | 2019-08-30 | 上海策友信息科技有限公司 | 基于自然语言的智能数据处理系统 |
CN110413708A (zh) * | 2019-07-23 | 2019-11-05 | 杭州城市大数据运营有限公司 | 一种面向业务术语的数据分析系统 |
CN111694940A (zh) * | 2020-05-14 | 2020-09-22 | 平安科技(深圳)有限公司 | 一种用户报告的生成方法及终端设备 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
CN111753527A (zh) * | 2020-06-29 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于自然语言处理的数据分析方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
杨利军 等: "\"图书馆个性化服务中的大数据可视化分析与应用研究\"", 《现代情报》, vol. 35, no. 07, pages 68 - 72 * |
Also Published As
Publication number | Publication date |
---|---|
CN115438142B (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN110674271B (zh) | 一种问答处理方法及装置 | |
US11521603B2 (en) | Automatically generating conference minutes | |
CN114547329A (zh) | 建立预训练语言模型的方法、语义解析方法和装置 | |
CN111274267A (zh) | 一种数据库查询方法、装置及计算机可读取存储介质 | |
US20090210411A1 (en) | Information Retrieving System | |
CN104933081A (zh) | 一种搜索建议提供方法及装置 | |
CN113704451A (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN112948534A (zh) | 一种智能人机对话的交互方法、系统和电子设备 | |
CN111859969B (zh) | 数据分析方法及装置、电子设备、存储介质 | |
CN114547072A (zh) | 自然语言查询转换sql方法、系统、设备及存储介质 | |
Lommatzsch et al. | An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases. | |
JP2020135135A (ja) | 対話コンテンツ作成支援方法およびシステム | |
CN111767334A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
Barbieri et al. | A natural language querying interface for process mining | |
CN111125145A (zh) | 一种通过自然语言获取数据库信息的自动化系统 | |
Patil et al. | Novel technique for script translation using NLP: performance evaluation | |
CN113672699A (zh) | 基于知识图谱的nl2sql生成方法 | |
CN113297251A (zh) | 多源数据检索方法、装置、设备及存储介质 | |
CN112749238A (zh) | 搜索排序方法、装置、电子设备以及计算机可读存储介质 | |
CN103020311A (zh) | 一种用户检索词的处理方法及系统 | |
CN114090620B (zh) | 查询请求的处理方法及装置 | |
CN115438142B (zh) | 一种对话式交互数据分析报告系统 | |
CN103019924B (zh) | 输入法智能性评测系统和方法 | |
CN114969347A (zh) | 缺陷查重实现方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |