CN117149804A - 数据处理方法、装置、电子设备及存储介质 - Google Patents
数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117149804A CN117149804A CN202311040650.4A CN202311040650A CN117149804A CN 117149804 A CN117149804 A CN 117149804A CN 202311040650 A CN202311040650 A CN 202311040650A CN 117149804 A CN117149804 A CN 117149804A
- Authority
- CN
- China
- Prior art keywords
- query
- data
- natural language
- information
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000002787 reinforcement Effects 0.000 claims abstract description 31
- 238000005516 engineering process Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 18
- 230000000007 visual effect Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 14
- 238000007405 data analysis Methods 0.000 claims description 13
- 238000012800 visualization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 238000013079 data visualisation Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置,属于计算机技术领域。所述方法包括:响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取自然语言查询请求对应的查询数据信息;通过预设意图识别模型对查询数据信息和自然语言查询请求进行意图识别,得到自然语言查询请求对应的数据查询语句;基于强化学习技术对数据查询语句进行优化,得到优化数据查询语句;执行优化数据查询语句,得到查询结果。本方法无需手动编写数据查询语句,大大提高了效率。同时,通过识别查询意图,并根据查询意图采用深度学习模型自动生成数据查询语句,并通过强化学习技术优化数据查询语句,在提高查询效率的同时,还可以提升查询结果的准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及数据处理方法、装置、电子设备,以及计算机可读存储介质。
背景技术
商业智能工具是一种用于数据可视化、交互式分析和报告生成的软件。这些工具提供了各种图表和可视化方式,可以帮助用户更直观地理解数据。
然而,现有技术中的商业智能工具缺乏对数据之间关联的深入理解,在处理复杂数据关系时,需要用户手动建立数据模型,这需要花费大量的时间和精力,数据查询和分析效率低下。同时,商业智能工具的自然语言查询功能也存在一定的局限性,无法准确识别查询意图,存在查询结果不准确,需要用户进行多次反复查询的情况。
可见,现有技术中的数据查询分析方法仍需要改进。
发明内容
本申请实施例提供一种数据处理方法及装置、电子设备及存储介质,能够提升数据查询和数据分析的效率和准确度。
第一方面,本申请实施例提供了一种数据处理方法,包括:
响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;
通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;
基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;
执行所述优化数据查询语句,得到查询结果。
第二方面,本申请实施例提供了一种数据处理装置,包括:
查询数据信息获取模块,用于响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;
数据查询语句获取模块,用于通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;
数据查询语句优化模块,用于基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;
数据查询模块,用于执行所述优化数据查询语句,得到查询结果。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的数据处理方法的步骤。
本申请实施例公开的数据处理方法,通过响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;执行所述优化数据查询语句,得到查询结果,无需手动编写数据查询语句,大大提高了效率。同时,通过识别查询意图,并根据查询意图采用深度学习模型(如生成式大模型)自动生成数据查询语句,并进一步通过强化学习技术优化数据查询语句,在提高查询效率的同时,还可以提升查询结果的准确度。进一步的,可以提升基于查询结果进行数据分析的效率和准确度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例公开的数据处理方法流程图之一;
图2是本申请实施例公开的数据处理方法流程图之二;
图3是本申请实施例公开的数据处理方法应用于一示例场景中的交互示意图;
图4是本申请实施例公开的数据处理装置的结构示意图之一;
图5是本申请实施例公开的数据处理装置的结构示意图之二;
图6示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
图7示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开的一种数据处理方法,如图1所示,所述方法包括:步骤110至步骤140。
步骤110,响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息。
本申请实施例中公开的数据处理方法,应用于数据分析系统的服务端或数据分析平台的服务端,所述数据分析系统或数据分析平台还可以包括:客户端,所述客户端用于提供人机交互界面,供用户输入数据查询信息,以及,展示服务端返回的查询结果。
可选的,所述客户端可以为网页、应用程序、小程序等形式,本申请实施例中对客户端的具体形式不做限定。
客户端可以根据用户的输入,向服务端发送自然语言描述的查询请求,本申请实施例中记为“自然语言查询请求”。例如,所述自然语言查询请求可以为:“A城市XX月YY日订单完成数量”。
服务端接收到客户端发送的自然语言查询请求之后,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息。
可选的,所述查询数据信息用于描述客户端查询的数据关联的数据表schema信息。例如,查询数据信息可以为A城市的XX月YY日的订单数据表的schema信息。
schema在数据库中表示的是数据库对象集合,它包含了各种对象,比如:表、视图、存储过程、索引等等。schema信息表示相应数据库对象中的属性信息等。
本申请的实施例中,所述地图数据是预先建立的。
参考图2,所述基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息之前,还包括:步骤100和步骤102。
步骤100,对待处理数据源进行数据解析和/或抽象处理,得到数据表schema信息,其中,所述待处理数据源包括:预设数据库和/或非结构化数据;
步骤102,根据得到的数据表schema信息,以及,所述待处理数据源的知识图谱,生成数据地图。
其中,所述预设数据库可以为关系型数据库或其他数据库。所述非结构化数据可以为预设业务数据。
本申请的实施例中,所述知识图谱可以理解为数据表血缘图谱以及数据表schema与数据库实例的关联关系。所述知识图谱与待查询数据对应,可以预先配置。
在数据查询和分析应用中,往往需要查询多种数据源的数据,并且,数据源的数据结构可能不同。现有技术中的数据查询和分析工具通常指支持单一格式的数据库查询,或者,对多种数据源进行查询时,由于多数据源之间关系复杂,会出现查询结果不准确的情况。
本申请的实施例中,通过数据地图采集并聚合多种待处理数据源的数据,并进行预处理,从而为后续步骤提供全面、快速查询数据的基础。
可选的,通过采集数据库schema,提取数据加工事实表(ETL表)的血缘关系,获得相关构建数据地图基本信息。可选的,数据地图的结构和内容包括:表字段、分区、索引等信息,以及表血缘图库结构。
可选的,数据地图可以实现为一个服务,用于存储所有数据库表的schema信息和血缘依赖信息。
例如,可以利用知识图谱技术构建数据地图,通过对数据表的schema信息进行解析和抽象,将数据表之间的关系建立起来。例如,使用现有技术中的图嵌入算法库(如OpenNE)中的随机游走算法DeepWalk或Node2Vec,将数据地图和知识图谱中的节点和边映射到低维向量空间,以便进行相似性计算和节点分类。生成的数据地图中包括数据表的schema信息,以及数据表之间的依赖关系。
可选的,所述基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息,包括:对所述自然语言查询请求进行关键信息提取,得到数据表查询关键词;查询所述数据地图,获取与所述数据表查询关键词匹配的所述数据表schema信息,作为所述自然语言查询请求对应的查询数据信息,所述查询数据信息包括以下一种或多种信息:数据表信息、数据表schema信息。
当用户输入查询请求时,可以根据数据地图进行优化,数据地图会结合现有schema数据中包含哪些表信息,以及各表之间的血缘关系(如表之间的依赖关系、关联关系)快速定位到相关的数据表和字段,从而提高查询效率和准确性。
例如,对于所述自然语言查询请求“A城市XX月YY日订单完成数量”进行关键信息提取,得到数据表查询关键词“A城市”、“XX月YY日”和“订单”。之后,根据数据表查询关键词查询所述数据地图,数据地图根据预先建立的数据表schema信息,查找各数据表查询关键词相似的数据表schema信息,以及各相似的数据表依赖的数据表的schema信息,作为与所述数据表查询关键词匹配的所述数据表schema信息。具体举例而言,用户输入“A城市XX月YY日订单完成数量”之后,服务端基于预先构建的数据地图可以获取到A城市XX月YY日的订单数据表,以及该数据表的schema信息,例如包括:表名、字段信息等。
步骤120,通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句。
接下来,将所述查询数据信息和所述自然语言查询请求共同作为预设意图识别模型的输入,通过预设意图识别模型,基于所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句。
可选的,所述预设意图识别模型是基于深度学习技术预先训练的。
例如,可以使用TensorFlow(是一个基于数据流编程(dataflow programming)的符号数学系统)构建一个双向LSTM(Long Short-Term Memory,长短期记忆网络)模型,作为意图识别模型。意图识别模型的输入为查询语句的词向量序列,输出为数据查询语句。例如,数据查询语句可以为SQL(Structured Query Language,结构化查询语言)语句。
在本申请的一些实施例中,预设意图识别模型可以包括:特征提取层和特征映射层。预设意图识别模型可以通过以下方法训练。
首先对意图文本的样本数据进行预处理。例如,对意图文本进行分词、去停用词等预处理,之后,对预处理得到的文本基于词语进行向量化处理,得到词向量序列。本申请的实施例中,对词语进行向量化处理的技术手段为现有技术(如Word2Vec),此处不再赘述。
然后,通过意图识别模型的特征提取层对输入的词向量序列进行特征提取,得到语义表示向量。
之后,通过意图识别模型的特征映射层对语义表示向量进行意图分类。其中,特征映射层可以为全连接层,通过全连接层对语义表示向量进行分类,得到数据查询语句。
最后,根据得到的数据查询语句和相应意图文本对应的数据查询语句计算模型损失,并基于模型损失优化训练意图识别模型。
在本申请的另一些实施例中,所述预设意图识别模型为基于预先训练的生成式大模型搭建的深度学习模型。
可选的,所述通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句,包括:结合所述查询数据信息和所述自然语言查询请求,生成意图文本;对所述意图文本进行预处理,得到词向量序列;将所述词向量序列输入至所述预设意图识别模型,获取所述预设意图识别模型输出的数据查询语句,作为所述自然语言查询请求对应的数据查询语句。
在数据查询或分析阶段,以所述自然语言查询请求为“Text1”,前述步骤得到的所述查询数据信息为“Text2”为例,将所述查询数据信息和所述自然语言查询请求拼接为形如“Text1 Text2”的意图文本。具体举例而言,对于自然语言查询请求“今日完单量是多少?”,前述步骤得到的所述查询数据信息为“完单量对应的表是表D,日期是XX月YY日”,则生成的意图文本可以表示为:“查询完单量,完单量对应的表是表A,日期是XX月YY日,然后生成SQL语句”。
之后,采用预设向量编码方法对意图文本中的词语进行编码,得到各词语的词向量。可选的,各词语的词向量按照所述词语在意图文本中的位置前后排列,得到意图文本的词向量序列。之后,将所述词向量序列输入至所述预设意图识别模型,所述预设意图识别模型将输出对应的数据查询语句。该数据查询语句即为所述自然语言查询请求对应的数据查询语句。例如,数据查询语句可以为:select count(*)from tableA。
步骤130,基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句。
预设意图识别模型输出的数据查询语句,是按照文本语义生成的数据查询语句,在准确度和时效性上不一定是最优语句。本申请的一些实施例中,为了提升数据查询质量和效率,进一步对意图识别模型输出的数据查询语句进行优化。
可选的,所述基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句,包括:对所述数据查询语句进行解析,得到查询状态信息,所述查询状态信息包括以下一种或多种信息:查询表信息、查询字段信息、查询条件信息、查询方式信息;以所述查询状态信息作为预先训练的深度强化学习网络的状态输入,获取所述深度强化学习网络输出的查询策略的动作,将所述动作作为优化数据查询语句,其中,所述深度强化学习网络根据查询策略的动作对应的查询结果的准确性指标和查询时间指标及性能奖励计算。
本申请的一些实施例中,使用Keras-RL库(Python的增强型学习库)构建一个DQN模型(Deep Q-Learning Network深度强化学习网络),用于对所述数据查询语句进行优化。在DQN模型训练过程中,以数据查询语句作为状态输入,输出为查询策略的动作,即优化后的数据查询语句。查询策略通过与环境交互(如查询执行时间、准确性等指标)来更新Q值,从而优化查询策略。查询策略的优化过程,本质是指找到一个最优查询动作的过程。
DQN模型的训练过程举例如下:
(1)状态表示:将当前查询状态表示为一个向量,包括:查询表信息、查询字段信息、查询条件信息、查询方式信息等;
(2)动作选择:利用DQN模型选择下一步的查询动作,包括选择下一个查询表信息、查询字段信息、查询条件信息、查询方式信息等;
(3)奖励计算:根据查询结果的准确性和查询时间的长短计算奖励分数,用于DQN模型的更新和学习;
(4)模型更新:利用奖励信号对DQN进行更新和学习,不断优化查询策略。
可选的,奖励分数可以通过以下公式计算:
奖励分数=准确性指标*权重因子1+查询时间指标*权重因子2;
其中,准确性指标是一个介于0和1之间的数值,表示数据查询语句返回的查询结果与用户期望结果的匹配程度。查询时间指标是一个正数,表示数据查询语句处理查询所花费的时间。权重因子1和权重因子2是用于平衡准确性和查询时间的权重,可以根据具体需求进行调整。
DQN模型训练完成之后,在数据查询或分析阶段,将对所述数据查询语句进行解析,得到的查询状态信息作为深度强化学习网络的状态输入,所述深度强化学习网络经过强化学习,输出优化后的数据查询语句。
本申请的另一些实施例中,还可以根据用户的历史查询记录和反馈信息,动态调整查询策略。例如,可以汇总用户历史咨询问题,并进行分类,学习,然后,进行对应数据索引优化,提高查询数据的热度,并根据热度对查询策略进行优化。如,数据查询语句优选高热度数据表。
步骤140,执行所述优化数据查询语句,得到查询结果。
得到优化后的数据查询语句之后,则可以通过执行该优化数据查询语句,获取数据查询结果。
可选的,所述查询结果为原始数据。
本申请的一些实施例中,如图2所示,所述执行所述优化数据查询语句,得到查询结果之后,还包括:步骤150和/或步骤160。
步骤150,将所述查询结果反馈给所述客户端进行展示。
本申请的一些实施例中,服务端获取到查询结果之后,可以直接将原始查询结果反馈给客户端,由客户端进行原始数据展示。
步骤160,对所述查询结果进行可视化处理,得到可视化数据处理结果,并将所述可视化数据处理结果反馈给所述客户端进行展示。
本申请的另一些实施例中,为了提高数据解释能力和可读性,可以进一步对查询结果进行可视化数据处理,得到可视化数据处理结果,之后,将所述可视化数据处理结果反馈给客户端,由客户端进行可视化数据展示。
可选的,对所述查询结果进行可视化处理,得到可视化数据处理结果,包括:利用数据可视化技术将所述查询结果转换为图表,将所述图表作为可视化数据处理结果;和/或,基于所述查询结果生成自然语言描述的汇总说明,将所述汇总说明作为可视化数据处理结果。
例如,可以利用数据可视化技术将查询结果以图表的形式展示给用户。具体举例而言,可以使用现有技术中的机器学习库(如scikit-learn库)中的PCA(主成分分析、降维)方法,将高维查询结果降维至2D或3D空间,然后使用现有技术中的绘图库(如matplotlib库)进行可视化,包括折线图、柱状图、饼图等。具体实现过程如下:将查询结果转化为可视化数据,包括数据分类、数据聚合等;利用可视化库生成图表,包括图表类型、图表样式等。
本申请的另一些实施例中,还可以采用其他方法将查询结果中的原始数据绘制成图表,本申请实施例中对将所述查询结果转换为图表的具体实施方式不做限定。
本申请的一些实施例中,在基于所述查询结果生成自然语言描述的汇总说明,将所述汇总说明作为可视化数据处理结果时,可以通过预先训练的生成式大模型,基于所述查询结果生成自然语言描述的汇总说明,将所述汇总说明作为可视化数据处理结果。例如,通过对查询结果中的数据进行聚类、汇总,得到汇总数据,之后,根据汇总数据和自然语言查询请求构造生成式大模型的输入,并将生成式大模型的输出作为自然语言描述的汇总说明。
本申请的另一些实施例中,在基于所述查询结果生成自然语言描述的汇总说明,将所述汇总说明作为可视化数据处理结果时,还可以使用文本摘要算法,将多个相关的查询结果合并为一个简洁的摘要。例如,对于一个新闻应用的查询结果,可以使用文本摘要技术,将多个新闻标题和摘要合并为一个摘要,作为汇总说明,以便用户快速了解相关新闻的内容。
本申请的又一些实施例中,在基于所述查询结果生成自然语言描述的汇总说明,将所述汇总说明作为可视化数据处理结果时,还可以使用TensorFlow构建一个Seq2Seq(sequence to sequence)模型,输入为查询结果的结构化数据序列,输出为自然语言描述。可以使用预训练的词向量进行迁移学习,并添加注意力机制提高生成质量。具体实现过程如下:将查询结果转化为自然语言的表示形式,包括数据分类、数据聚合等;利用预先训练的生成式大模型(如GPT-3、BERT等)生成自然语言文本,包括文本的语法、语义等。具体举例而言,若自然语言查询请求为:“今日完单量是多少?”,查询结果为:“resul t:count1000”,则生成的汇总说明可以为:“今日完单量为1000单”。
本申请的其他实施例中,还可以采用其他方法基于所述查询结果生成自然语言描述的汇总说明,此处不再赘述。
通过将查询结果转换成图表和/或自然语言描述的汇总说明,可以提高查询结果的可读性和数据解释能力,能够帮助用户更好地理解数据。
为了是本申请实施例公开的数据处理方法更清楚,下面结合图3所示的实施场景,进一步对本申请实施例公开的数据处理方法的实施过程进行举例说明。
如图3所示,用于本申请实施例公开的数据处理方法的数据分析系统可以包括:客户端、服务端,其中,服务端部署有:流程控制模块、数据地图、意图识别模型、深度强化学习网络、可视化服务、生成式大模型和数据表。所述数据分析系统中各组成部分的交互流程图下:
客户端根据用户操作,向服务端发送自然语言查询请求;
流程控制模块查询数据地图;
数据地图根据预先建立的数据表关系和Schema信息,返回查询数据信息;
流程控制模块根据查询数据信息和自然语言查询请求,生成意图文本;
流程控制模块基于意图文本,调用意图识别模型;
意图识别模型输出数据查询语句;
流程控制模块将数据查询语句作为深度强化学习网络的输入,触发查询策略优化;
深度强化学习网络根据查询结果执行查询策略优化;
流程控制模块获取执行优化数据查询语句查询得到的查询结果;
流程控制模块调用可视化服务对查询结果进行可视化处理,生成图表;
流程控制模块调用生成式大模型根据查询结果,生成汇总说明;
流程控制模块将查询结果、图表和汇总说明发送到客户端进行展示。
本申请的一些实施例中,可视化服务、生成式大模型和数据表还可以相对于服务端独立部署,以第三方应用的形式与本申请实施例公开的数据处理方法集成实施。
本申请实施例公开的数据处理方法,通过响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;执行所述优化数据查询语句,得到查询结果,无需手动编写数据查询语句,大大提高了效率。同时,通过识别查询意图,并根据查询意图采用深度学习模型(如生成式大模型)自动生成数据查询语句,并进一步通过强化学习技术优化数据查询语句,在提高查询效率的同时,还可以提升查询结果的准确度。进一步的,可以提升基于查询结果进行数据分析的效率和准确度。
另一方面,通过生成数据地图,可以集成多个大数据平台、大数据元数据管理平台和智能服务等,实现多源数据的自动化查询和汇总说明,适用范围更广,还可以实现多源数据的综合查询和分析。
进一步的,通过对查询结果进行可视化处理,使得用户可以更直观地查看和理解查询结果,改善了用户体验。
本申请实施例还公开了一种数据处理装置,如图4所示,所述装置包括:
查询数据信息获取模块410,用于响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;
数据查询语句获取模块420,用于通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;
数据查询语句优化模块430,用于基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;
数据查询模块440,用于执行所述优化数据查询语句,得到查询结果。
可选的,如图5所示,所述基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息之前,所述装置还包括:
数据地图生成模块400,用于对待处理数据源进行数据解析和/或抽象处理,得到数据表schema信息,其中,所述待处理数据源包括:预设数据库和/或非结构化数据;
所述数据地图生成模块400,还用于根据得到的数据表schema信息,以及,所述待处理数据源的知识图谱,生成数据地图。
可选的,所述查询数据信息获取模块410,进一步用于:
对所述自然语言查询请求进行关键信息提取,得到数据表查询关键词;
查询所述数据地图,获取与所述数据表查询关键词匹配的所述数据表schema信息,作为所述自然语言查询请求对应的查询数据信息,所述查询数据信息包括以下一种或多种信息:数据表信息、数据表schema信息。
可选的,所述预设意图识别模型是基于深度学习技术预先训练的,所述数据查询语句获取模块420,用于:
结合所述查询数据信息和所述自然语言查询请求,生成意图文本;
对所述意图文本进行预处理,得到词向量序列;
将所述词向量序列输入至所述预设意图识别模型,获取所述预设意图识别模型输出的数据查询语句,作为所述自然语言查询请求对应的数据查询语句。
可选的,所述数据查询语句优化模块430,进一步用于:
对所述数据查询语句进行解析,得到查询状态信息,所述查询状态信息包括以下一种或多种信息:查询表信息、查询字段信息、查询条件信息、查询方式信息;
以所述查询状态信息作为预先训练的深度强化学习网络的状态输入,获取所述深度强化学习网络输出的查询策略的动作,将所述动作作为优化数据查询语句,其中,所述深度强化学习网络根据查询策略的动作对应的查询结果的准确性指标和查询时间指标及性能奖励计算。
可选的,如图5所示,所述执行所述优化数据查询语句,得到查询结果之后,所述装置还包括:
查询结果输出模块450,用于将所述查询结果反馈给所述客户端进行展示;和/或,对所述查询结果进行可视化处理,得到可视化数据处理结果,并将所述可视化数据处理结果反馈给所述客户端进行展示。
可选的,所述对所述查询结果进行可视化处理,得到可视化数据处理结果,包括:
利用数据可视化技术将所述查询结果转换为图表,将所述图表作为可视化数据处理结果;和/或,
基于所述查询结果生成自然语言描述的汇总说明,将所述汇总说明作为可视化数据处理结果。
本申请实施例公开的数据处理装置,用于实现本申请实施例中所述的数据处理方法,装置的各模块的具体实施方式不再赘述,可参见方法实施例相应步骤的具体实施方式。
本申请实施例公开的数据处理装置,通过响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;执行所述优化数据查询语句,得到查询结果,无需手动编写数据查询语句,大大提高了效率。同时,通过识别查询意图,并根据查询意图采用深度学习模型(如生成式大模型)自动生成数据查询语句,并进一步通过强化学习技术优化数据查询语句,在提高查询效率的同时,还可以提升查询结果的准确度。进一步的,可以提升基于查询结果进行数据分析的效率和准确度。
另一方面,通过生成数据地图,可以集成多个大数据平台、大数据元数据管理平台和智能服务等,实现多源数据的自动化查询和汇总说明,适用范围更广,还可以实现多源数据的综合查询和分析。
进一步的,通过对查询结果进行可视化处理,使得用户可以更直观地查看和理解查询结果,改善了用户体验。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种数据处理方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图6示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器610和存储器620及存储在所述存储器620上并可在处理器610上运行的程序代码630,所述处理器610执行所述程序代码630时实现上述实施例中所述的方法。所述存储器620可以为计算机程序产品或者计算机可读介质。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码630的存储空间6201。例如,用于程序代码630的存储空间6201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码630为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码,当所述计算机可读代码在电子设备上运行时,导致所述电子设备执行根据上述实施例的方法。
本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的数据处理方法的步骤。
这样的计算机程序产品可以为计算机可读存储介质,该计算机可读存储介质可以具有与图6所示的电子设备中的存储器620类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图7所述的便携式或者固定存储单元。通常,存储单元包括计算机可读代码630’,所述计算机可读代码630’为由处理器读取的代码,这些代码被处理器执行时,实现上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;
通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;
基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;
执行所述优化数据查询语句,得到查询结果。
2.根据权利要求1所述的方法,其特征在于,所述基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息之前,还包括:
对待处理数据源进行数据解析和/或抽象处理,得到数据表schema信息,其中,所述待处理数据源包括:预设数据库和/或非结构化数据;
根据得到的数据表schema信息,以及,所述待处理数据源的知识图谱,生成数据地图。
3.根据权利要求2所述的方法,其特征在于,所述基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息,包括:
对所述自然语言查询请求进行关键信息提取,得到数据表查询关键词;
查询所述数据地图,获取与所述数据表查询关键词匹配的所述数据表schema信息,作为所述自然语言查询请求对应的查询数据信息,所述查询数据信息包括以下一种或多种信息:数据表信息、数据表schema信息。
4.根据权利要求1所述的方法,其特征在于,所述预设意图识别模型是基于深度学习技术预先训练的,所述通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句,包括:
结合所述查询数据信息和所述自然语言查询请求,生成意图文本;
对所述意图文本进行预处理,得到词向量序列;
将所述词向量序列输入至所述预设意图识别模型,获取所述预设意图识别模型输出的数据查询语句,作为所述自然语言查询请求对应的数据查询语句。
5.根据权利要求1所述的方法,其特征在于,所述基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句,包括:
对所述数据查询语句进行解析,得到查询状态信息,所述查询状态信息包括以下一种或多种信息:查询表信息、查询字段信息、查询条件信息、查询方式信息;
以所述查询状态信息作为预先训练的深度强化学习网络的状态输入,获取所述深度强化学习网络输出的查询策略的动作,将所述动作作为优化数据查询语句,其中,所述深度强化学习网络根据查询策略的动作对应的查询结果的准确性指标和查询时间指标及性能奖励计算。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述执行所述优化数据查询语句,得到查询结果之后,还包括:
将所述查询结果反馈给所述客户端进行展示;和/或,
对所述查询结果进行可视化处理,得到可视化数据处理结果,并将所述可视化数据处理结果反馈给所述客户端进行展示。
7.根据权利要求6所述的方法,其特征在于,所述对所述查询结果进行可视化处理,得到可视化数据处理结果,包括:
利用数据可视化技术将所述查询结果转换为图表,将所述图表作为可视化数据处理结果;和/或,
基于所述查询结果生成自然语言描述的汇总说明,将所述汇总说明作为可视化数据处理结果。
8.一种数据处理装置,其特征在于,所述装置包括:
查询数据信息获取模块,用于响应于接收到客户端发送的自然语言查询请求,基于预先生成的数据地图获取所述自然语言查询请求对应的查询数据信息;
数据查询语句获取模块,用于通过预设意图识别模型对所述查询数据信息和所述自然语言查询请求进行意图识别,得到所述自然语言查询请求对应的数据查询语句;
数据查询语句优化模块,用于基于强化学习技术对所述数据查询语句进行优化,得到优化数据查询语句;
数据查询模块,用于执行所述优化数据查询语句,得到查询结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至7任意一项所述的数据处理方法。
10.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至7任意一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311040650.4A CN117149804A (zh) | 2023-08-17 | 2023-08-17 | 数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311040650.4A CN117149804A (zh) | 2023-08-17 | 2023-08-17 | 数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117149804A true CN117149804A (zh) | 2023-12-01 |
Family
ID=88901805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311040650.4A Pending CN117149804A (zh) | 2023-08-17 | 2023-08-17 | 数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117149804A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493427A (zh) * | 2024-01-03 | 2024-02-02 | 广州光点信息科技股份有限公司 | 基于ai大语言模型的数据大屏生成方法及系统 |
-
2023
- 2023-08-17 CN CN202311040650.4A patent/CN117149804A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493427A (zh) * | 2024-01-03 | 2024-02-02 | 广州光点信息科技股份有限公司 | 基于ai大语言模型的数据大屏生成方法及系统 |
CN117493427B (zh) * | 2024-01-03 | 2024-03-29 | 广州光点信息科技股份有限公司 | 基于ai大语言模型的数据大屏生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6118414B2 (ja) | インデックス付き文字列マッチングを用いたコンテキストブラインドデータ変換 | |
US8131684B2 (en) | Adaptive archive data management | |
US8627208B2 (en) | Application generator for data transformation applications | |
US11468342B2 (en) | Systems and methods for generating and using knowledge graphs | |
US9613125B2 (en) | Data store organizing data using semantic classification | |
US9239872B2 (en) | Data store organizing data using semantic classification | |
CN104216913A (zh) | 问题回答框架 | |
US11500865B1 (en) | Multiple stage filtering for natural language query processing pipelines | |
CN111782763A (zh) | 基于语音语义的信息检索方法、及其相关设备 | |
US12007988B2 (en) | Interactive assistance for executing natural language queries to data sets | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
EP4035024A1 (en) | Semantic parsing of natural language query | |
US11887011B2 (en) | Schema augmentation system for exploratory research | |
CN112069783A (zh) | 一种病历输入法及其输入系统 | |
CN117149804A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110413882B (zh) | 信息推送方法、装置及设备 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN113821588A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN111126073B (zh) | 语义检索方法和装置 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
US20150193210A1 (en) | Application generator for data transformation applications | |
CN114445043B (zh) | 基于开放生态化云erp异质图用户需求精准发现方法及系统 | |
US11726994B1 (en) | Providing query restatements for explaining natural language query results | |
Ma et al. | Api prober–a tool for analyzing web api features and clustering web apis | |
CN112148751A (zh) | 用于查询数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |