CN114490970A - 支持自然语言交互的问答式数据可视化方法及系统 - Google Patents
支持自然语言交互的问答式数据可视化方法及系统 Download PDFInfo
- Publication number
- CN114490970A CN114490970A CN202111651480.4A CN202111651480A CN114490970A CN 114490970 A CN114490970 A CN 114490970A CN 202111651480 A CN202111651480 A CN 202111651480A CN 114490970 A CN114490970 A CN 114490970A
- Authority
- CN
- China
- Prior art keywords
- visualization
- data
- natural language
- question
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种支持自然语言交互的问答式数据可视化方法及系统,其中包括,将待分析数据按照预定的数据格式自动生成标准的数据集,针对所述数据集使用自然语言的方式,描述数据的可视化意图;将所述数据的可视化意图翻译成对应的可视化查询语言;基于所述可视化查询语言自动地生成可视化结果。本申请可为用户提供问答式数据可视化的交互模式,大大地降低了数据可视化分析的人力成本,提高数据可视化分析效率,加速数据分析的知识发现过程。
Description
技术领域
本发明属于信息检索技术领域,尤指一种支持自然语言交互的问答式数据可视化方法及系统。
背景技术
在大数据时代,数据的体量呈现爆炸式地增长趋势,面对复杂多样且价值密度低的数据,如何快速地从数据中发现规律和知识已经成为数据智能分析和挖掘的必要手段之一。数据可视化通过可视化图表的方式,融合人类的视觉感知特性,是一种解构复杂信息和理解数据的有效手段之一,是数据智能分析常采用的分析方式。例如,用户通过数据可视化的方式,可视化航班延误时长、航空公司和时间的关系,可以分析不同航空公司的航班延误特点,从而得出分析性结论。
在现有的研究和实践中,数据可视化系统在很大程度上依赖用户进行数据的理解,进行数据转换操作,通过界面UI交互或者编程的方式创建可视化。因此,当前的数据可视化分析存在以下3个挑战:(1)数据分析门槛高:即需要用户掌握数据分析的技能;(2)交互模式高耗时:即用户往往需用循环迭代上述的可视化分析流程;(3)分析结果不精准:即用户将自己的大脑中的数据可视化分析意图转换成工具的逻辑操作,存在转换不精准的情况。针对上述3个挑战,本申请实施例提供了一个支持自然语言交互的问答式数据可视化系统,可以支持用户以自然语言的方式直接指定数据可视化的意图,系统理解用户的自然语言查询意图,智能地创建相应的可视化结果反馈给用户,为用户提供问答式数据可视化的交互模式,大大地降低了数据可视化分析的人力成本,提高数据可视化分析效率,加速数据分析的知识发现过程。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种支持自然语言交互的问答式数据可视化方法,用于为用户提供问答式数据可视化的交互模式,大大地降低了数据可视化分析的人力成本,提高数据可视化分析效率,加速数据分析的知识发现过程。
本发明的第二个目的在于提出一种支持自然语言交互的问答式数据可视化系统。
为达上述目的,本发明第一方面实施例提出了一种支持自然语言交互的问答式数据可视化方法,包括:将待分析数据按照预定的数据格式自动生成标准的数据集,针对所述数据集使用自然语言的方式,描述数据的可视化意图;将所述数据的可视化意图翻译成对应的可视化查询语言;基于所述可视化查询语言自动地生成可视化结果。
本发明实施例提出的支持自然语言交互的问答式数据可视化方法,可以支持用户以自然语言的方式直接指定数据可视化的意图,系统理解用户的自然语言查询意图,基于用户的可视化查询意图,翻译成计算机系统能理解的查询语言,并智能地创建相应的可视化结果反馈给用户。
另外,根据本发明上述实施例的支持自然语言交互的问答式数据可视化方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述针对所述数据集使用自然语言的方式,描述数据的可视化意图,还包括:通过交互组件提供可视化图表模板。
进一步地,在本发明的一个实施例中,针对所述数据集以及数据的可视化意图和所述可视化图表模板,进行预处理。
进一步地,在本发明的一个实施例中,所述预处理,包括序列化、分词和向量化。
进一步地,在本发明的一个实施例中,根据序列化、分词两种预处理机制,将所述数据集D以及数据的可视化意图N和所述可视化图表模板C分别处理,如下式所示:
TD={d1,d2,...,dk},
TC={c1,c2,...,ci},
TN={n1,n2,...,nj},
所述数据集D以及数据的可视化意图N和所述可视化图表模板C最终被处理成词嵌入向量,如下式所示:
X=[X1,X2,...,Xm]。
进一步地,在本发明的一个实施例中,所述将所述数据的可视化意图翻译成对应的可视化查询语言,包括:根据向量进行编码和解码工作,其中,所述编码和解码工作是基于改进的Transformer模型进行。
进一步地,在本发明的一个实施例中,所述Transformer模型通过特殊的注意力机制提高其表达能力,所述注意力机制计算如下式所示:
其中,Q,K,V分别为所述编码器在计算Attention过程中的中间矩阵,E为强制注意力矩阵。
进一步地,在本发明的一个实施例中,在基于所述可视化查询语言自动地生成可视化结果之后,还包括:
渲染可视化结果,并集成了多种可视化交互操作,包括:可视化缩放、下钻、上钻、区域选择和多图联动。
为达上述目的,本发明第二方面实施例提出了一种支持自然语言交互的问答式数据可视化系统,包括以下模块:输入模块,用于将待分析数据按照预定的数据格式自动生成标准的数据集,针对所述数据集使用自然语言的方式,描述数据的可视化意图;自然语言查询理解与翻译模块,用于将所述数据的可视化意图翻译成对应的可视化查询语言;可视化智能生成模块,用于基于所述可视化查询语言自动地生成可视化结果。
进一步地,在本发明的一个实施例中,所述支持自然语言交互的问答式数据可视化系统,还包括渲染模块,用于:
用于渲染可视化结果,并集成了多种可视化交互操作,包括:可视化缩放、下钻、上钻、区域选择和多图联动。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种支持自然语言交互的问答式数据可视化方法的流程示意图。
图2为本发明实施例所提供的一种支持自然语言交互的问答式数据可视化系统的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的支持自然语言交互的问答式数据可视化方法和系统。
图1为本发明实施例所提供的一种支持自然语言交互的问答式数据可视化方法的流程示意图。
如图1所示,该支持自然语言交互的问答式数据可视化方法包括以下步骤:
S101:将待分析数据按照预定的数据格式自动生成标准的数据集,针对数据集使用自然语言的方式,描述数据的可视化意图;
针对现实场景中,用于数据可视化分析的数据集是由用户提供的,本申请首先支持用户指定用于数据分析的数据,系统将所述数据集融自动地处理成预定的数据格式和标准的数据集D并存储在计算机系统中。
S102:将数据的可视化意图翻译成对应的可视化查询语言;
进一步地,在本发明的一个实施例中,针对数据集使用自然语言的方式,描述数据的可视化意图,包括:通过交互组件提供可视化图表模板。
进一步地,在本发明的一个实施例中,针对数据集以及数据的可视化意图和所述可视化图表模板,进行预处理。
进一步地,在本发明的一个实施例中,预处理包括:序列化、分词和向量化。
具体地,用户针对所述数据集D使用自然语言的方式,描述用户的数据可视化意图N。例如,用户可以输入“Show me the trend of XXX,died,and recovered cases inUtah”(展示某地的确诊、死亡和康复病例)。用户使用自然语言的方式表达其数据可视化意图,还可选择地通过交互组件提供诸如可视化图表模板C(如折线图模板)作为额外的输入。
其中,针对数据集D以及用户的自然语言查询N,和一个可选提供的可视化图表模板C,进行预处理,其中,序列化是将用户指定的数据集的关键信息、用户自然语言查询和其它额外操作序列化成一个序列;分词是将所述的序列通过某种策略切分成一系词(token)。根据两种预处理机制,可以将所述用户输入N,C,D分别处理成以下式子所示:
TD={d1,d2,...,dk},
TC={c1,c2,...,ci},
TN={n1,n2,...,nj},
在所述的向量化处理阶段,本申请的实施例对T中的每一个词进行3种方式进行所述序列T的嵌入(embedding),分别是词嵌入(token embedding)、类型嵌入(typeembedding)和位置嵌入(position embedding)。
对所述T中的每个词,进行上述三种嵌入方式之后,可对词嵌入进行对位相加,得出最终的嵌入向量:
因此,所述的用户输入N,C,D会被最终处理成词嵌入向量:
X=[X1,X2,...,Xm]。
进一步地,在本发明的一个实施例中,将所述数据的可视化意图翻译成对应的可视化查询语言,包括:
根据向量进行编码和解码工作,其中,所述编码和解码工作是基于改进的Transformer模型进行。
具体地,根据词嵌入向量进行编码和解码工作。所述的编码和解码工作是基于改进的Transformer模型进行;
进一步地,在本发明的一个实施例中,Transformer模型通过特殊的注意力机制提高其表达能力,所述注意力机制计算如下式所示:
其中,Q,K,V分别为所述编码器在计算Attention过程中的中间矩阵,E为强制注意力矩阵,用于调整实施例所述用户自然语言理解与翻译模型的自然语言查询理解中的词与词之间的关系。
具体地,本申请实施例所述的编码器,在解码器工作阶段,会自动地输出计算机系能理解的查询语言。在本申请实施例解码器工作阶段,引入了数据可视化感知的解码工作策略,即引入可视化领域知识,指导编码器更好地生成计算机系能理解的查询语言,提高解码质量。
上述过程基于训练数据进行模型的训练之后,可以达到较好的模型表现,从而基于对用户输入的理解基础上,自动地生成计算机系统能理解的查询语言,实现用户自然语言查询的理解与翻译。
S103:基于可视化查询语言自动地生成可视化结果。
其中,本申请实施例可以结合用户或者系统支持的可视化查询语言,自动地创建可视化结果。
进一步地,在本发明的一个实施例中,在基于所述可视化查询语言自动地生成可视化结果之后,还包括:
渲染可视化结果,并集成了多种可视化交互操作,包括:可视化缩放、下钻、上钻、区域选择和多图联动。
本发明实施例提出的支持自然语言交互的问答式数据可视化方法,支持用户以自然语言的方式直接指定数据可视化的意图,系统理解用户的自然语言查询意图,智能地创建相应的可视化结果反馈给用户,为用户提供问答式数据可视化的交互模式,大大地降低了数据可视化分析的人力成本,提高数据可视化分析效率,加速数据分析的知识发现过程。
在本申请的示例性实施例中,为了实现上述目的,本申请实施例解决了在现实场景中,数据可视化分析的几个挑战:(1)数据分析门槛高:即需要用户掌握数据分析的技能;(2)交互模式高耗时:即用户往往需用循环迭代上述的可视化分析流程;(3)分析结果不精准:即用户将自己的大脑中的数据可视化分析意图转换成工具的逻辑操作,存在转换不精准的情况。综上所述,本申请实施例提出了一个支持多维度自适应的端到端数据可视化分析系统,提供端到端的数据智能分析框架,大大地降低了数据分析的人力成本,提高数据分析效率,加速数据分析流程。
为了实现上述实施例,本发明还提出一种支持自然语言交互的问答式数据可视化系统。
图2为本发明实施例提供的一种支持自然语言交互的问答式数据可视化系统的结构示意图。
如图2所示,该支持自然语言交互的问答式数据可视化系统包括:输入模块10,自然语言查询理解与翻译模块20,可视化智能生成模块30,其中,输入模块用于将待分析数据按照预定的数据格式自动生成标准的数据集,针对所述数据集使用自然语言的方式,描述数据的可视化意图;自然语言查询理解与翻译模块用于将所述数据的可视化意图翻译成对应的可视化查询语言;可视化智能生成模块用于基于所述可视化查询语言自动地生成可视化结果。
进一步地,在本发明的一个实施例中,还包括渲染模块40,用于渲染可视化结果,并集成了多种可视化交互操作,包括:可视化缩放、下钻、上钻、区域选择和多图联动。
本申请实施例系统的用户输入模块可以支持用户指定用于数据可视化分析的数据集D,用户以自然语言的方式输入其数据可视化的意图N,输入模块还支持输入其它必要的信息,例如可视化图表模板C。该模块可以对用户的输入信息进行预处理,模块的预处理装置包括但不限于对输入信息进行序列化、分词和向量化。
本申请实施例系统的用户自然语言查询理解与翻译模块主要根据用户的输入,基于用户的输入信息,理解用户的自然语言查询N,并将用户的自然语言查询N翻译成计算机系统能理解的查询语言Q。具体地,用户自然语言查询理解与翻译模块包含了模型包括了对用户输入的编码模型和解码模型,包括:
将所述的用户输入的预处理结果输入所述编码模型,得到用户输入的特征表示;根据用户输入的各个部分的注意力权重,对所述的特征表示进行调整;根据所述调整后的特征表示,得到所述的用户输入的最终特征表示;
将所述的用户输入的最终特征表示输入所述解码模型,得到多个目标字符,这些目标字符是可以被计算机系统理解的查询语言Q。
本申请实施例系统的可视化智能生成模块根据所述上一模块产生的查询语言Q,智能地创建相应的可视化结果V,并呈现给用户。该模块提供了一种智能创建可视化的装置,可以根据所述的查询语言Q和用户输入信息,智能地创建符合用户自然语言查询意图的可视化结果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种支持自然语言交互的问答式数据可视化方法,其特征在于,包括以下步骤:
将待分析数据按照预定的数据格式自动生成标准的数据集,针对所述数据集使用自然语言的方式,描述数据的可视化意图;
将所述数据的可视化意图翻译成对应的可视化查询语言;
基于所述可视化查询语言自动地生成可视化结果。
2.根据权利要求1所述的方法,其特征在于,所述针对所述数据集使用自然语言的方式,描述数据的可视化意图,还包括:
通过交互组件提供可视化图表模板。
3.根据权利要求2所述的方法,其特征在于,还包括:
针对所述数据集以及数据的可视化意图和所述可视化图表模板,进行预处理。
4.根据权利要求3所述的方法,其特征在于,所述预处理,包括序列化、分词和向量化。
6.根据权利要求1所述的方法,其特征在于,所述将所述数据的可视化意图翻译成对应的可视化查询语言,包括:
根据向量进行编码和解码工作,其中,所述编码和解码工作是基于改进的Transformer模型进行。
8.根据权利要求1所述的方法,其特征在于,在基于所述可视化查询语言自动地生成可视化结果之后,还包括:
渲染可视化结果,并集成了多种可视化交互操作,包括:可视化缩放、下钻、上钻、区域选择和多图联动。
9.一种支持自然语言交互的问答式数据可视化系统,其特征在于,包括以下模块:
输入模块,用于将待分析数据按照预定的数据格式自动生成标准的数据集,针对所述数据集使用自然语言的方式,描述数据的可视化意图;
自然语言查询理解与翻译模块,用于将所述数据的可视化意图翻译成对应的可视化查询语言;
可视化智能生成模块,用于基于所述可视化查询语言自动地生成可视化结果。
10.一种支持自然语言交互的问答式数据可视化系统,其特征在于,还包括:
渲染模块,用于渲染可视化结果,并集成了多种可视化交互操作,包括:可视化缩放、下钻、上钻、区域选择和多图联动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111651480.4A CN114490970A (zh) | 2021-12-30 | 2021-12-30 | 支持自然语言交互的问答式数据可视化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111651480.4A CN114490970A (zh) | 2021-12-30 | 2021-12-30 | 支持自然语言交互的问答式数据可视化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114490970A true CN114490970A (zh) | 2022-05-13 |
Family
ID=81497178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111651480.4A Pending CN114490970A (zh) | 2021-12-30 | 2021-12-30 | 支持自然语言交互的问答式数据可视化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490970A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544157A (zh) * | 2022-10-27 | 2022-12-30 | 重庆忽米网络科技有限公司 | 一种基于自然语言理解的工业数据可视化分析方法 |
CN116663534A (zh) * | 2023-08-02 | 2023-08-29 | 中国标准化研究院 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
-
2021
- 2021-12-30 CN CN202111651480.4A patent/CN114490970A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544157A (zh) * | 2022-10-27 | 2022-12-30 | 重庆忽米网络科技有限公司 | 一种基于自然语言理解的工业数据可视化分析方法 |
CN116663534A (zh) * | 2023-08-02 | 2023-08-29 | 中国标准化研究院 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114490970A (zh) | 支持自然语言交互的问答式数据可视化方法及系统 | |
DE60032846T2 (de) | Verfahren und System zur Anbietung von Alternativen für von stochastischen Eingabequellen abgeleitete Texte | |
CN110765966A (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN110570481A (zh) | 基于风格迁移的书法字库自动修复方法及系统 | |
CN113011337B (zh) | 一种基于深度元学习的汉字字库生成方法及系统 | |
CN109525892B (zh) | 视频关键场景提取方法及装置 | |
CN105005642A (zh) | 一种三维模型批量格式转换及轻量化方法 | |
CN106528684A (zh) | 一种建立工程材料数据库的方法及系统 | |
CN113343705A (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
JP3038521B2 (ja) | 製品図面作成装置 | |
WO2019044064A1 (ja) | データ合成装置および方法 | |
CN113095431A (zh) | 一种基于注意力机制的图像描述方法、系统及装置 | |
CN117274450B (zh) | 基于人工智能的动画形象生成系统及方法 | |
CN117078921B (zh) | 一种基于多尺度边缘信息的自监督小样本汉字生成方法 | |
DE102021124537A1 (de) | Energiebasierte variational autoencoder | |
CN116188618B (zh) | 基于结构化语义图的图像生成方法及装置 | |
CN116939288A (zh) | 视频生成方法及其装置、计算机设备 | |
CN116503296A (zh) | 一种手术场景图像转换方法 | |
EP4198844A1 (en) | Artificial intelligence feedback method and artificial intelligence feedback system | |
CN111930997A (zh) | 一种智能生成故事线可视化的系统和方法 | |
CN115033997B (zh) | 基于ar的建筑施工设计系统 | |
CN117558394B (zh) | 一种基于跨模态网络的胸部x线影像报告生成方法 | |
Song et al. | Coarse-to-fine segmentation for indoor scenes with progressive supervision | |
CN112270727B (zh) | 基于ai技术绘制毒株蛋白质图像的方法 | |
CN116630573A (zh) | 一种基于反馈机制的点云上采样方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |