CN114201602B - 为可视化数据分析生成自然语言语句的方法及装置 - Google Patents
为可视化数据分析生成自然语言语句的方法及装置 Download PDFInfo
- Publication number
- CN114201602B CN114201602B CN202210135210.6A CN202210135210A CN114201602B CN 114201602 B CN114201602 B CN 114201602B CN 202210135210 A CN202210135210 A CN 202210135210A CN 114201602 B CN114201602 B CN 114201602B
- Authority
- CN
- China
- Prior art keywords
- query
- analysis
- node
- nodes
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例中提供了一种为可视化数据分析生成自然语言语句的方法及装置。该方法包括:获取可视化数据分析的可视化配置信息;根据可视化配置信息生成中间语言语法树;根据中间语言语法树生成自然语言语句,其中自然语言语句用于指示可视化数据分析的分析内容。该方法及装置有利于用户准确理解可视化数据分析的分析内容。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及一种为可视化数据分析生成自然语言语句的方法及装置。
背景技术
部分数据分析场景中可能对数据存储系统中的数据进行可视化数据分析,例如用户可以通过可视化语言(Visual language,VL)输入可视化配置信息,基于可视化配置信息从数据存储系统中查询的查询结果通过可视化数据分析图表呈现给用户等。当可视化数据分析图表或可视化配置信息被呈现给用户时,用户可能难以理解可视化数据分析的分析内容。
发明内容
本说明书一个或多个实施例中提供了一种为可视化数据分析生成自然语言语句的方法及装置。
第一方面,提供了一种为可视化数据分析生成自然语言语句的方法,包括:获取可视化数据分析的可视化配置信息;根据所述可视化配置信息生成中间语言语法树;根据所述中间语言语法树生成自然语言语句,其中所述自然语言语句用于指示所述可视化数据分析的分析内容。
在一种可能的实施方式中,所述可视化配置信息用于对数据存储系统进行查询以生成可视化分析图表;或者,所述可视化配置信息是基于可视化分析图表生成的。
在一种可能的实施方式中,所述可视化配置信息指示可视化数据分析涉及的以下各项信息中的至少一项:分析维度、分析指标以及筛选条件。
在一种可能的实施方式中,所述根据所述可视化配置信息生成中间语言语法树,包括:根据预先定义的逻辑节点、所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,生成中间语言语法树。
在一种可能的实施方式中,所述逻辑节点包括查询节点、筛选条件节点以及数据项节点;所述根据预先定义的逻辑节点、所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,生成中间语言语法树,包括:根据所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,确定若干查询步骤各自对应的数据项和子查询条件,所述若干查询步骤用于指示基于所述可视化配置信息从数据存储系统中查询目标数据的逻辑过程;生成所述若干查询步骤各自对应的查询子树,其中所述查询子树的根节点为所述查询节点,所述数据项的父节点为所述数据项节点,所述查询子树中还包括基于所述子查询条件生成的并且以所述筛选条件节点为父节点的条件子树;根据所述若干查询子树生成中间语言语法树。
在一种可能的实施方式中,所述逻辑节点还包括数据项组节点,所述数据项组节点为所述数据项节点的父节点;和/或,所述逻辑节点还包括筛选条件组节点和逻辑关系节点,所述筛选条件节点的父节点为所述逻辑关系节点,所述逻辑关系节点的父节点为所述筛选条件组节点。
在一种可能的实施方式中,所述根据所述中间语言语法树生成自然语言语句,包括:根据所述中间语言语法树生成若干语法单元,其中单个所述语法单元对应至少一个所述条件子树,或者单个所述语法单元对应至少一个所述数据项;以及,根据所述若干语法单元生成自然语言语句。
在一种可能的实施方式中,所述根据所述中间语言语法树生成自然语言语句,还包括:根据所述中间语言语法树获取所述若干语法单元各自所属的词法分类。所述根据所述若干语法单元生成自然语言语句,包括:根据所述若干语法单元以及其各自所属的词法分类生成自然语言语句。
第二方面,提供了一种为可视化数据分析生成自然语言语句的装置,包括:信息获取单元,配置为获取可视化数据分析的可视化配置信息;语法构建单元,配置为根据所述可视化配置信息生成中间语言语法树;语句生成单元,配置为根据所述中间语言语法树生成自然语言语句,其中所述自然语言语句用于指示所述可视化数据分析的分析内容。
在一种可能的实施方式中,所述可视化配置信息用于对数据存储系统进行查询以生成可视化分析图表;或者,所述可视化配置信息是基于可视化分析图表生成的。
在一种可能的实施方式中,所述可视化配置信息指示可视化数据分析涉及的以下各项信息中的至少一项:分析维度、分析指标以及筛选条件。
在一种可能的实施方式中,所述语法构建单元,配置为根据预先定义的逻辑节点、所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,生成中间语言语法树。
在一种可能的实施方式中,所述语法构建单元,具体配置为根据所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,确定若干查询步骤各自对应的数据项和子查询条件,所述若干查询步骤用于指示基于所述可视化配置信息从数据存储系统中查询目标数据的逻辑过程;生成所述若干查询步骤各自对应的查询子树,其中所述查询子树的根节点为所述查询节点,所述数据项的父节点为所述数据项节点,所述查询子树中还包括基于所述子查询条件生成的并且以所述筛选条件节点为父节点的条件子树;根据所述若干查询子树生成中间语言语法树。
在一种可能的实施方式中,所述逻辑节点还包括数据项组节点,所述数据项组节点为所述数据项节点的父节点;和/或,所述逻辑节点还包括筛选条件组节点和逻辑关系节点,所述筛选条件节点的父节点为所述逻辑关系节点,所述逻辑关系节点的父节点为所述筛选条件组节点。
在一种可能的实施方式中,所述语句生成单元,配置为根据所述中间语言语法树生成若干语法单元,其中单个所述语法单元对应至少一个所述条件子树,或者单个所述语法单元对应至少一个所述数据项;根据所述若干语法单元生成自然语言语句。
在一种可能的实施方式中,所述语句生成单元,具体配置为根据所述中间语言语法树获取所述若干语法单元各自所属的词法分类;根据所述若干语法单元以及其各自所属的词法分类生成自然语言语句。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算设备中执行时,计算设备实现第一方面中任一项所述的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现第一方面中任一项所述的方法。
通过本说明书一个或多个实施例中提供的方法及装置,获得可视化数据分析的可视化配置信息后,根据该可视化配置信息生成中间语言语法树,然后根据该中间语言语法树生成能够指示可视化数据分析的分析内容的自然语言语句,使用户可以通过该自然语言语句准确理解可视化数据分析的分析内容。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书实施例中提供的技术方案的技术场景的示意图;
图2为本说明书实施例中提供的一种为可视化数据分析生成自然语言语句的流程图;
图3为本说明书实施例中示例性提供的一种获得可视化配置信息的示意图;
图4为本说明书实施例中示例性提供的另一种获得可视化配置信息的示意图;
图5为本说明书实施例中示例性提供的中间语言语法树的示意图;
图6为本说明书实施例中示例性提供的生成中间语言语法树的过程示意图;
图7为示例性提供的一种为可视化数据分析生成自然语言语句的装置的示意图。
具体实施方式
下面结合附图,对本说明书所提供的各个非限制性实施例进行详细描述。
图1为本说明书实施例中提供的技术方案的技术场景的示意图。为降低用户对数据存储系统中的数据的使用门槛,部分数据分析场景中可能对数据存储系统中的数据进行可视化数据分析,其中数据存储系统例如为数据库、文件管理系统或具有特定格式的文件等。用户可通过可视化语言(Visual language,VL)输入可视化配置信息,基于可视化配置信息从数据存储系统中查询的查询结果通过可视化数据分析图表呈现给用户。当可视化分析图表或可视化配置信息被呈现给用户时,用户可能难以理解可视化数据分析的分析内容。
鉴于以上问题,本说明书实施例中提供了一种为可视化数据分析生成自然语言语句的方法及装置。获得可视化数据分析的可视化配置信息后,根据该可视化配置信息生成中间语言语法树,然后根据该中间语言语法树生成能够指示可视化数据分析的分析内容的自然语言语句,使用户可以通过该自然语言语句准确理解可视化数据分析的分析内容。
图2为本说明书实施例中提供的一种为可视化数据分析生成自然语言语句的方法的流程图。其中该方法可以由任何具有计算/处理能力的装置、设备、平台或设备集群执行,该方法至少可以包括如图2中所示的步骤21~步骤25。
首先,在步骤21,获取可视化数据分析的可视化配置信息。
可视化配置信息用于指示可视化数据分析涉及的以下各项信息中的至少一项:分析维度、分析指标以及筛选条件。其中可视化配置信息通常需要能够指示筛选条件,对于分析指标和分析维度而言通常是可选的。
在一种可能的实施方式中,可以通过图形用户界面获得可视化数据分析的可视化配置信息。例如请参照图3所示的图形用户界面,用户可在图形用户界面中通过输入、选择或拖动数据的方式,在分析指标、分析维度以及筛选条件等字段中增加数据,形成由前述各个字段以及位于其中的各个数据组成的可视化配置信息。基于该实施方式,可视化配置信息还可以用于对数据存储系统进行查询以生成可视化分析图表,可视化分析图表可以与后续生成的自然语言语句相组合的提供给用户,使得用户能够根据自然语言语句准确理解可视化分析图表的分析内容;此外参照图3所示的图形用户界面,自然语言语句还可以呈现在图形用户界面中,如此使得用户不仅可以准确的了解可视化配置信息的分析内容,还可以基于自然语言语句对其输入的可视化配置信息进行修改/重置,从而使得后续过程中能够基于该可视化配置信息从数据存储系统准确的查询到符合用户期望的查询结果。
在一种可能的实施方式中,可以根据已生成的可视化分析图表生成该可视化分析图表对应的可视化配置信息;其中该可视化分析图表可以是对数据存储系统进行查询以生成的,也可以是对通过图形用户界面呈现的既有可视化分析图表进行相应操作以生成的新的可视化分析图表。例如请参考图4,假设已生成的可视化分析图表为折线图,该折线图的配置信息中指示了该折线图中X轴表征订单日期、Y轴表征总金额、按照不同城市拆分多个折线、订单日期对应的筛选条件是最近7天;基于该折线图的配置信息则可以映射为相应的可视化配置信息,该可视化配置信息具体指示分析指标是总金额、分析维度包含订单日期和城市、筛选条件是订单日期介于最近7天。基于该实施方式,后续生成的自然语言语句可以和已生成的可视化分析图表共同的呈现给用户,使得用户可以基于自然语言语句准确理解已生成的可视化分析图表的分析内容。
步骤23,根据可视化配置信息生成中间语言语法树。其中中间语言语法树可以表征/指示根据可视化配置信息查询数据存储系统的查询逻辑。
为了确保能够通过中间语言语法树可以准确表征查询逻辑,还可以预先定义部分逻辑节点,与之相应的是步骤23中具体可以根据预先定义的逻辑节点、筛选条件,以及分析维度和分析指标中的至少一项,生成中间语言语法树。
对于预先定义的逻辑节点而言,请参考图5示例性提供的中间语言语法树,例如可以包括查询节点、数据项节点和筛选条件节点,其中数据项节点和筛选条件节点均可作为查询节点的子节点。或者,逻辑节点还可以包括数据项组节点、筛选条件组节点和逻辑关系节点;其中查询节点为数据项组节点和筛选条件组节点的父节点,数据项组节点为数据项节点的父节点,筛选条件节点的父节点为逻辑关系节点,逻辑关系节点的父节点为筛选条件组节点,逻辑关系节点具体用于指示以其连接的多个筛选条件节点间的逻辑关系,该逻辑关系例如“和”、“且”、“或”等等。
基于前述示例的各种逻辑节点,请继续参考图6,具体可以通过如下步骤231~步骤235生成中间语言语法树。
步骤231,根据筛选条件,以及分析维度和分析指标中的至少一项,确定若干查询步骤各自对应的数据项和子查询条件。该若干查询步骤用于指示基于可视化配置信息从数据存储系统中查询目标数据的查询逻辑/逻辑过程,该目标数据可以用于生成将呈现给用户的可视化分析图表,该逻辑过程既可能被分解为多个查询步骤,也可能仅包含单个查询步骤,其中需要说明的是部分查询步骤可能并不存在与其对应的子查询条件。此外还需要特别说明的是,当仅需要利用中间语言语法树来生成自然语言语句,并不需要利用中间语言语法树来实施对数据存储系统进行查询时,可以针对可视化配置信息确定单个查询步骤而无需确定出多个查询步骤,如此则可无需生成过于复杂的中间语言语法树而造成资源浪费。
以前述图3中示例的可视化配置信息为例,可以对该可视化配置信息确定单个查询步骤,此时例如可以将分析指标字段中的数据“总金额”、分析维度中的数据“订单日期”、“城市”等确定为该单个查询步骤对应的数据项;对于筛选条件字段中的数据“订单日期介于最近7天”,可以基于当前日期T被解析为子查询条件“订单日期<T”和“订单日期>T-8”。
以可视化配置信息中分析指标字段中的数据包括“用户数量”、分析维度中的数据包括“订单日期”、“城市”,筛选条件字段中的数据包括“订单日期=昨天”、“总金额<100000”为例,可以对该可视化配置信息确定查询步骤2和其依赖的查询步骤1:
查询步骤1,查询昨天各个城市支付金额大于100000的用户标识。其中,查询步骤1对应的数据项例如包括分析维度中的数据“订单日期”、“城市”,此外由于分析指标字段中的数据“用户数量”需要基于“用户标识”进行确定,因此还需要将“用户标识”作为查询步骤1对应的数据项;筛选条件中的数据“订单日期=昨天”、“总金额<100000”可以各自作为查询步骤1对应的子查询条件。
查询步骤2,前述查询步骤1的查询结果中包括“订单日期”、“城市”以及“用户标识”等数据项,查询步骤2中在逻辑意义上可以基于查询步骤1的查询结果确定各城市支付金额大于100000的用户数量。此时查询步骤2对应的数据项包括分析维度中的数据“订单日期”、“城市”,以及分析指标中的数据“用户数量”,而且查询步骤2中并不存在与其对应的子查询条件。
步骤233,生成若干查询步骤各自对应的查询子树。其中单个查询子树的根节点为查询节点,数据项的父节点为数据项节点,查询子树中还包括基于子查询条件生成的并且以筛选条件节点为父节点的条件子树。
请继续参考图5,基于已确定的数据项“总金额”、“订单日期”和“城市”,可以在其对应的查询子树中配置用于连接该三个数据项的三个数据项节点,基于已确定的两个子查询条件“订单日期<T”和“订单日期>T-8”配置两个筛选条件节点以及用于指示该两个筛选条件间的逻辑关系的逻辑关系节点“和”或“且”,并针对该两个子查询条件“订单日期<T”和“订单日期>T-8”生成如图5中所示的条件子树。
步骤235,根据若干查询子树生成中间语言语法树。其中当前述步骤233中对可视化配置信息生成单个查询子树时,该查询子树即为可视化配置信息对应的中间语言语法树;当前述步骤233中对可视化配置信息生成多个存在依赖关系的查询子树时,任意当前查询子树可以配置与当前查询子树中的查询节点直接连接的前置节点,前置节点用于与当前查询子树依赖的查询子树的查询节点连接,从而形成可视化配置信息对应的中间语言语法树。
回到图2,在步骤25,根据中间语言语法树生成自然语言语句。其中中间语言语法树已经指示根据可视化配置信息查询数据库的查询逻辑,因此仅需要基于其指示的查询逻辑按照预定义的转换规则对中间语言语法树进行语义转换,即可得到相应的自然语言语句。
在一种可能的实施方式中,可以根据中间语言语法树生成若干语法单元,然后根据该若干语法单元生成自然语言语句,其中单个语法单元对应至少一个条件子树,或者单个语法单元对应至少一个数据项。例如对于图5中的两个条件子树指示的两个子查询条件“订单日期<T”和“订单日期>T-8”,可以按照预定义的转换规则,基于该两个条件子树以及其对应的逻辑关系节点“和”或“且”,将前述两个子查询条件映射为语法单元“T-7~T-1”,或者还可以在确定出订单日期T为当前日期的前一天时,计算日期T-8~日期T间的时间长度为7天,进而将前述两个子查询条件转换为语法单元“最近七天”。再如对于图5中所示的数据项“订单日期”、“城市”和“总金额”而言,通过中间语言语法树可以发现“订单日期”已经存在对应的子查询条件,因此无需将“订单日期”作为语法单元,仅仅是将数据项“城市”和“总金额”作为语法单元。与之相应的是可以基于语法单元“T-7~T-1”和“最近7天”中的一项,以及“城市”、“总金额”生成中间语言语法树。
更具体地说,还可以根据中间语言语法树,确定前述若干语法单元各自所属的词法分类,然后再根据该若干语法单元以及其各自所述的词法分类生成自然语言语句。
词法分类例如可以包括但不限于修饰词和修饰对象。其中对于基于条件子树指示的子查询条件生成的语法单元而言,例如可以确定其对应的词法分类为修饰词;对于被直接作为语法单元的数据项而言,例如可以判断其是否属于分析指标,如果是分析指标则确定其对应的词法分类属于修饰对象,否则将其作为修饰词。
此外还可以基于预先定义修饰词和修饰对象等词法分类定义语法规则;例如示例性的语法规则指示修饰词和修饰对象满足排列规则“修饰词-修饰词-修饰对象”时可以准确生成自然语言语句,那么对于前述示例的三个语法单元“最近7天”、“城市”、“总金额”,其满足前述排列规则的排列则为:最近7天、城市、总金额,或者为:城市、最近7天、总金额。在前述示例的两种可能的排列的基础上,可以接着基于自然语言的语法规则在该排列中的某些位置插入相应的助词、介词等,形成例如“最近7天各城市的总金额”或者“各城市最近7天的总金额”等语义清楚准确的自然语言语句。
前述过程中对基于示例性的中间语言语法树生成示例性的自然语言语句的过程进行详细描述,然而需要理解的是基于中间语言语法树生成自然语言语句的转换规则是可以由技术人员进行灵活定义的,换而言之即实际实施本方案时可能采用不同于前述示例的各种规则,前述示例的各种规则并不构成对本说明书实施例中提供的技术方案的限定。
与前述方法实施例基于相同的构思,本说明书实施例中还提供了一种为可视化数据分析生成自然语言语句的装置。如图7所示,该装置包括:信息获取单元71,配置为获取可视化数据分析的可视化配置信息;语法构建单元73,配置为根据所述可视化配置信息生成中间语言语法树;语句生成单元75,配置为根据所述中间语言语法树生成自然语言语句,其中所述自然语言语句用于指示所述可视化数据分析的分析内容。
在一种可能的实施方式中,所述可视化配置信息用于对数据存储系统进行查询以生成可视化分析图表;或者,所述可视化配置信息是基于可视化分析图表生成的。
在一种可能的实施方式中,所述可视化配置信息指示可视化数据分析涉及的以下各项信息中的至少一项:分析维度、分析指标以及筛选条件。
在一种可能的实施方式中,所述语法构建单元73,配置为根据预先定义的逻辑节点、所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,生成中间语言语法树。
在一种可能的实施方式中,所述语法构建单元73,具体配置为根据所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,确定若干查询步骤各自对应的数据项和子查询条件,所述若干查询步骤用于指示基于所述可视化配置信息从数据存储系统中查询目标数据的逻辑过程;生成所述若干查询步骤各自对应的查询子树,其中所述查询子树的根节点为所述查询节点,所述数据项的父节点为所述数据项节点,所述查询子树中还包括基于所述子查询条件生成的并且以所述筛选条件节点为父节点的条件子树;根据所述若干查询子树生成中间语言语法树。
在一种可能的实施方式中,所述逻辑节点还包括数据项组节点,所述数据项组节点为所述数据项节点的父节点;和/或,所述逻辑节点还包括筛选条件组节点和逻辑关系节点,所述筛选条件节点的父节点为所述逻辑关系节点,所述逻辑关系节点的父节点为所述筛选条件组节点。
在一种可能的实施方式中,所述语句生成单元75,配置为根据所述中间语言语法树生成若干语法单元,其中单个所述语法单元对应至少一个所述条件子树,或者单个所述语法单元对应至少一个所述数据项;根据所述若干语法单元生成自然语言语句。
在一种可能的实施方式中,所述语句生成单元75,具体配置为根据所述中间语言语法树获取所述若干语法单元各自所属的词法分类;根据所述若干语法单元以及其各自所属的词法分类生成自然语言语句。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能所对应的计算机程序存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令/代码进行传输,以便这些功能所对应的计算机程序被计算机执行时,通过计算机实现本说明书任意一个实施例中所述的方法。
本说明书实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算设备中执行时,计算设备执行本说明书任意一个实施例中提供的为可视化数据分析生成自然语言语句的方法。
本说明书实施例中还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任意一个实施例中提供的为可视化数据分析生成自然语言语句方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例中相同、相似的部分互相参见即可,每个实施例中重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (18)
1.一种为可视化数据分析生成自然语言语句的方法,包括:
获取可视化数据分析的可视化配置信息;
根据所述可视化配置信息生成中间语言语法树;
根据预定义的转换规则对所述中间语言语法树进行语义转换以生成自然语言语句,其中所述自然语言语句用于指示所述可视化数据分析的分析内容。
2.根据权利要求1所述的方法,其中,所述可视化配置信息用于对数据存储系统进行查询以生成可视化分析图表;或者,所述可视化配置信息是基于可视化分析图表生成的。
3.根据权利要求1所述的方法,其中,所述可视化配置信息指示可视化数据分析涉及的以下各项信息中的至少一项:分析维度、分析指标以及筛选条件。
4.根据权利要求3所述的方法,其中,所述根据所述可视化配置信息生成中间语言语法树,包括:根据预先定义的逻辑节点、所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,生成中间语言语法树。
5.根据权利要求4所述的方法,其中,所述逻辑节点包括查询节点、筛选条件节点以及数据项节点;所述根据预先定义的逻辑节点、所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,生成中间语言语法树,包括:
根据所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,确定若干查询步骤各自对应的数据项和子查询条件,所述若干查询步骤用于指示基于所述可视化配置信息从数据存储系统中查询目标数据的逻辑过程;
生成所述若干查询步骤各自对应的查询子树,其中所述查询子树的根节点为所述查询节点,所述数据项的父节点为所述数据项节点,所述查询子树中还包括基于所述子查询条件生成的并且以所述筛选条件节点为父节点的条件子树;
根据各个所述查询子树生成中间语言语法树。
6.根据权利要求5所述的方法,其中,所述逻辑节点还包括数据项组节点,所述数据项组节点为所述数据项节点的父节点;和/或,所述逻辑节点还包括筛选条件组节点和逻辑关系节点,所述筛选条件节点的父节点为所述逻辑关系节点,所述逻辑关系节点的父节点为所述筛选条件组节点。
7.根据权利要求5所述的方法,其中,所述根据预定义的转换规则对所述中间语言语法树进行语义转换以生成自然语言语句,包括:根据所述中间语言语法树生成若干语法单元,其中单个所述语法单元对应至少一个所述条件子树,或者单个所述语法单元对应至少一个所述数据项;以及,根据所述若干语法单元生成自然语言语句。
8.根据权利要求7所述的方法,其中,所述根据预定义的转换规则对所述中间语言语法树进行语义转换以生成自然语言语句,还包括:根据所述中间语言语法树获取所述若干语法单元各自所属的词法分类;
所述根据所述若干语法单元生成自然语言语句,包括:根据所述若干语法单元以及其各自所属的词法分类生成自然语言语句。
9.一种为可视化数据分析生成自然语言语句的装置,包括:
信息获取单元,配置为获取可视化数据分析的可视化配置信息;
语法构建单元,配置为根据所述可视化配置信息生成中间语言语法树;
语句生成单元,配置为根据预定义的转换规则对所述中间语言语法树进行语义转换以生成自然语言语句,其中所述自然语言语句用于指示所述可视化数据分析的分析内容。
10.根据权利要求9所述的装置,其中,所述可视化配置信息用于对数据存储系统进行查询以生成可视化分析图表;或者,所述可视化配置信息是基于可视化分析图表生成的。
11.根据权利要求9所述的装置,其中,所述可视化配置信息指示可视化数据分析涉及的以下各项信息中的至少一项:分析维度、分析指标以及筛选条件。
12.根据权利要求11所述的装置,其中,所述语法构建单元,配置为根据预先定义的逻辑节点、所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,生成中间语言语法树。
13.根据权利要求12所述的装置,其中,所述逻辑节点包括查询节点、筛选条件节点以及数据项节点;所述语法构建单元,具体配置为根据所述筛选条件,以及所述分析维度和所述分析指标中的至少一项,确定若干查询步骤各自对应的数据项和子查询条件,所述若干查询步骤用于指示基于所述可视化配置信息从数据存储系统中查询目标数据的逻辑过程;生成所述若干查询步骤各自对应的查询子树,其中所述查询子树的根节点为所述查询节点,所述数据项的父节点为所述数据项节点,所述查询子树中还包括基于所述子查询条件生成的并且以所述筛选条件节点为父节点的条件子树;根据各个所述查询子树生成中间语言语法树。
14.根据权利要求13所述的装置,其中,所述逻辑节点还包括数据项组节点,所述数据项组节点为所述数据项节点的父节点;和/或,所述逻辑节点还包括筛选条件组节点和逻辑关系节点,所述筛选条件节点的父节点为所述逻辑关系节点,所述逻辑关系节点的父节点为所述筛选条件组节点。
15.根据权利要求13所述的装置,其中,所述语句生成单元,配置为根据所述中间语言语法树生成若干语法单元,其中单个所述语法单元对应至少一个所述条件子树,或者单个所述语法单元对应至少一个所述数据项;根据所述若干语法单元生成自然语言语句。
16.根据权利要求15所述的装置,其中,所述语句生成单元,具体配置为根据所述中间语言语法树获取所述若干语法单元各自所属的词法分类;根据所述若干语法单元以及其各自所属的词法分类生成自然语言语句。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算设备中执行时,计算设备执行权利要求1-8中任一项所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135210.6A CN114201602B (zh) | 2022-02-15 | 2022-02-15 | 为可视化数据分析生成自然语言语句的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135210.6A CN114201602B (zh) | 2022-02-15 | 2022-02-15 | 为可视化数据分析生成自然语言语句的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114201602A CN114201602A (zh) | 2022-03-18 |
CN114201602B true CN114201602B (zh) | 2022-05-06 |
Family
ID=80659048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210135210.6A Active CN114201602B (zh) | 2022-02-15 | 2022-02-15 | 为可视化数据分析生成自然语言语句的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201602B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706571B (zh) * | 2022-06-02 | 2022-09-02 | 杭州比智科技有限公司 | 一种基于dsl的声明式可视化图表开发方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009127639A1 (en) * | 2008-04-16 | 2009-10-22 | International Business Machines Corporation | Query processing visualization system and method of visualizing query processing |
CN113535931A (zh) * | 2021-09-17 | 2021-10-22 | 北京明略软件系统有限公司 | 一种信息处理方法、装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2505218A (en) * | 2012-08-23 | 2014-02-26 | Ibm | Logical contingency analysis for domain-specific languages |
US20180144065A1 (en) * | 2015-04-29 | 2018-05-24 | Mahesh Yellai | Method for Generating Visual Representations of Data Based on Controlled Natural Language Queries and System Thereof |
CN107451153B (zh) * | 2016-05-31 | 2020-03-31 | 北京京东尚科信息技术有限公司 | 输出结构化查询语句的方法和装置 |
CN107403104A (zh) * | 2017-06-22 | 2017-11-28 | 努比亚技术有限公司 | 一种实现数据表查询限制的装置和方法 |
WO2019060774A1 (en) * | 2017-09-22 | 2019-03-28 | Amazon Technologies, Inc. | SYSTEM AND METHOD FOR DATA REPORTING |
CN107818148A (zh) * | 2017-10-23 | 2018-03-20 | 南京南瑞集团公司 | 基于自然语言处理的自助式查询统计分析方法 |
US20200134103A1 (en) * | 2018-10-26 | 2020-04-30 | Ca, Inc. | Visualization-dashboard narration using text summarization |
US20200134090A1 (en) * | 2018-10-26 | 2020-04-30 | Ca, Inc. | Content exposure and styling control for visualization rendering and narration using data domain rules |
-
2022
- 2022-02-15 CN CN202210135210.6A patent/CN114201602B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009127639A1 (en) * | 2008-04-16 | 2009-10-22 | International Business Machines Corporation | Query processing visualization system and method of visualizing query processing |
CN113535931A (zh) * | 2021-09-17 | 2021-10-22 | 北京明略软件系统有限公司 | 一种信息处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114201602A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6985279B2 (ja) | パターン分解を通してデータ変換を推論するためのシステムおよび方法 | |
US20200019869A1 (en) | Systems and methods for semantic inference and reasoniing | |
US9665826B2 (en) | Automated problem inference from bug repositories | |
Dimou et al. | Assessing and refining mappingsto rdf to improve dataset quality | |
CN100527127C (zh) | 查询中间语言的方法和系统 | |
US20110173220A1 (en) | Generating web services from business intelligence queries | |
CN109522341B (zh) | 实现基于sql的流式数据处理引擎的方法、装置、设备 | |
CN108829884B (zh) | 数据映射方法及装置 | |
WO2023169072A1 (zh) | 知识图谱中实体的配置方法、分析方法及装置 | |
CN114201602B (zh) | 为可视化数据分析生成自然语言语句的方法及装置 | |
CN116483850A (zh) | 数据处理方法、装置、设备以及介质 | |
Elkashef et al. | Mapping UML sequence diagram into the web ontology language OWL | |
CN110737431A (zh) | 软件开发方法、开发平台、终端设备及存储介质 | |
Seipel et al. | Declaratively querying and visualizing knowledge bases in XML | |
US20200380012A1 (en) | System and method for enabling interoperability between a first knowledge base and a second knowledge base | |
CN102693295B (zh) | 一种基于记录逻辑表示的数据库记录数据查询系统 | |
JP6575478B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
KR100806523B1 (ko) | 그리드 컴퓨팅을 지원하는 시맨틱 정보 기반 그리드 관리시스템 및 방법 | |
Schapke et al. | Text integration based on a construction information resource sharing ontology | |
CN111159218B (zh) | 数据处理方法、装置及可读存储介质 | |
CN114090627B (zh) | 一种数据查询方法及装置 | |
Zhao et al. | Inferspark: Statistical inference at scale | |
Nenadić et al. | Extending JSON-LD Framing Capabilities | |
CN118296026A (zh) | 一种数据查询方法、装置、计算机设备和存储介质 | |
Ravi et al. | Towards Ontology Development Based On Relational Database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |