CN115345157A - 数据分析中的实体展示方法和装置 - Google Patents

数据分析中的实体展示方法和装置 Download PDF

Info

Publication number
CN115345157A
CN115345157A CN202210952243.XA CN202210952243A CN115345157A CN 115345157 A CN115345157 A CN 115345157A CN 202210952243 A CN202210952243 A CN 202210952243A CN 115345157 A CN115345157 A CN 115345157A
Authority
CN
China
Prior art keywords
entity
category
type
entities
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210952243.XA
Other languages
English (en)
Inventor
黄亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210952243.XA priority Critical patent/CN115345157A/zh
Publication of CN115345157A publication Critical patent/CN115345157A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种数据分析中的实体展示方法和装置,方法包括:获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;根据所述实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;若判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件。能够在数据分析中的实体展示过程体现实体之间的关联性。

Description

数据分析中的实体展示方法和装置
本申请为2022年2月15日提交的申请号为202210135204.0,名为“数据分析中的实体展示方法和装置”的发明专利申请的分案申请。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及数据分析中的实体展示方法和装置。
背景技术
当前,用户的数据分析需求具有灵活且大量的特点,在面对一项数据分析需求时,需要先由专业人员将数据分析需求转化为计算机可以理解的查询语句,例如,结构化查询语言(structured query language,SQL)语句,然后才能由计算机通过执行该SQL语句对数据库进行相应的数据分析。
由于专业人员数量有限,对于大量的非专业人员的数据分析需求,通常需要借助专业人员将其转化为相应的SQL语句,这一过程往往需要等待很长的时间,无法快速满足该数据分析需求。因此希望计算机能够接收用户输入的用于表达其数据分析需求的自然语言文本,通过对该自然语言文本进行实体识别,从而基于识别出的实体,理解其数据分析需求。
在识别出的实体集合中,通常存在有些实体逻辑上相关,有些实体逻辑上不相关,如何在数据分析中的实体展示过程体现实体之间的关联性,是亟待解决的问题。
发明内容
本说明书一个或多个实施例描述了一种数据分析中的实体展示方法和装置,能够在数据分析中的实体展示过程体现实体之间的关联性。
第一方面,提供了一种数据分析中的实体展示方法,方法包括:
获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;
根据所述实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;
若判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;
展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件。
在一种可能的实施方式中,所述实体类别包括操作符类别、维度类别和维值类别;所述维度类别对应于目标数据中的字段名称,所述维值类别对应于所述目标数据中的字段的具体取值。
进一步地,所述至少两个实体包括依次排列的第一实体、第二实体、第三实体;所述预设规则包括:
所述第一实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第三实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
进一步地,所述至少两个实体包括依次排列的第四实体、第二实体、第五实体;所述预设规则包括:
所述第四实体的实体类别为维度类别,且其实体类型用于指示该实体属于字符串的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第五实体的实体类别为维值类别,且所述第五实体与所述第四实体之间的关联关系为所述第五实体属于所述第四实体对应的维值。
进一步地,所述至少两个实体包括依次排列的第六实体、第七实体、第八实体;所述预设规则包括:
所述第六实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第七实体的实体类别为操作符类别且为大于、小于、大于等于或小于等于逻辑运算符;
所述第八实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
进一步地,所述至少两个实体包括依次排列的第九实体、第十实体;所述预设规则包括:
所述第九实体和所述第十实体的实体类别均为维值类别,且属于同一维度对应的维值。
在一种可能的实施方式中,所述展示所述实体组合,包括:
在输入框里,针对所述自然语言文本与所述实体组合对应的部分进行突出展示;或者,
在输入框之外的提示框里,展示所述实体组合,并示出其作为一项所述数据过滤条件。
在一种可能的实施方式中,所述方法还包括:
根据所述数据过滤条件,构建数据查询脚本,用于执行对所述目标数据的查询操作,得到与所述数据分析需求对应的查询结果。
第二方面,提供了一种数据分析中的实体展示装置,装置包括:
获取单元,用于获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;
判断单元,用于根据所述获取单元获取的实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;
组合单元,用于若所述判断单元的判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;
展示单元,用于展示所述组合单元得到的实体组合作为所述数据分析需求包括的一项数据过滤条件。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;然后根据所述实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;接着若判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;最后展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件。由上可见,本说明书实施例,基于预设规则对实体进行分组,无需进行模型训练,准确度高,冷启动速度快,并且通过展示实体组合,以及将实体组合对应于数据过滤条件,能够在数据分析中的实体展示过程体现实体之间的关联性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2为本说明书披露的另一个实施例的实施场景示意图;
图3示出根据一个实施例的数据分析中的实体展示方法流程图;
图4示出根据一个实施例的实体组合的展示方式示意图;
图5示出根据一个实施例的数据查询脚本的构建过程示意图;
图6示出根据一个实施例的数据分析中的实体展示装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及数据分析中的实体展示。数据分析,用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。其中,大量数据通常以一定的数据结构存储于数据库中,本说明书实施例,对于待分析数据的存储方式不做限定,还可以采用excel表格等其他的存储方式。数据库包括多个数据表,每个数据表包括多个字段,其中,字段对应于列,各字段分别具有相应的字段名称以及相应列的一列字段取值。参照图1,本说明书实施例,为了快速满足用户的数据分析需求,提出使得计算机能够接收用户输入的自然语言文本的解决方案,通过对自然语言文本进行实体识别,从而基于识别出的实体,理解其数据分析需求,并且,通过对识别出的实体分组展示的方式,使得用户能够清楚各实体之间的关联,展示出的每个实体组合对应于一项数据过滤条件。例如,用户输入了一段自然语言文本“年龄大于20的用户,购买时间在6月10号到6月12号之间的购买总金额”,可以理解的是,该段自然语言文本用于表达用户对目标数据的数据分析需求,其包括两项数据过滤条件,一项数据过滤条件为“年龄大于20”,另一项数据过滤条件为“购买时间在6月10号到6月12号之间”,每项数据过滤条件都对应于一个包含多个实体的实体组合,同一实体组合中包含的多个实体在逻辑上是相互关联的。
实体识别,即识别自然语言文本中具有特定意义的实体,将字符序列转换为实体序列的过程,比如时间等实体。本说明书实施例,实体可以理解为一个词,每个实体具有其对应的实体类别。实体类别可以但不限于包括时间类别、操作符类别、维度类别、维值类别等。所述维度类别对应于目标数据中的字段名称,所述维值类别对应于所述目标数据中的字段的具体取值。
将实体组合展示也可称为语法结构化,即在数据分析中,针对用户输入的自然语言文本,将逻辑上可以组合的词,在功能上分为一组。如:查询昨天支付金额>10的用户明细,这里,支付金额>10,即可分为一组。
本说明书实施例,在数据分析中,针对用户输入的自然语言文本进行实体识别得到的实体,进行分组展示,提出具体的解决方案,能够在数据分析中的实体展示过程体现实体之间的关联性。
图2为本说明书披露的另一个实施例的实施场景示意图。该实施场景涉及数据分析中的实体展示。参照图2,用户输入了一段自然语言文本“近三十天北京支付金额前十”,目标数据库包括如下字段名称:user、city、amt、time。user字段下包括两种取值,分别为001和002;city字段下包括两种取值,分别为北京市和杭州市;amt字段下包括两种取值,分别为20和10;time字段下包括两种取值,分别为20200521和20200522。可以理解的是,数据库通常存储大量数据,图中只是示例性的画出目标数据库的局部。经过实体识别后,得到4个实体分别为,0501~0530,该实体对应的类别为Time,也就是时间类别;北京市,该实体对应的类别为Col_Value,也就是维值类别,city代表其对应的字段名称;支付金额,该实体对应的类别为Measure,也就是维度类别,amt代表其对应的字段名称;Top(10,desc),该实体对应的类别为Intent,也就是意图类别,代表对前10位降序排列。本说明书实施例,在对自然语言文本进行实体识别后,识别出的实体均具有各自的类别,这些类别有助于体现其数据分析需求,并可用于对实体进行分组展示。
图3示出根据一个实施例的数据分析中的实体展示方法流程图,该实施例可以基于图1或图2所示的实施场景。如图3所示,该实施例中的数据分析中的实体展示方法包括以下步骤:步骤31,获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;步骤32,根据所述实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;步骤33,若判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;步骤34,展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件。下面描述以上各个步骤的具体执行方式。
首先在步骤31,获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求。可以理解的是,目标数据可以采用任一种存储方式,当目标数据存储于数据库中时,由于不同的数据库通常具有不同的字段名称以及字段取值,相应地,面对的数据分析需求也不同。例如,第一数据库具有的字段名称包括姓名、年龄、身份证号、学历,第二数据库具有的字段名称包括用户编号和交易金额,二者由于具有不同的字段,通常面对的数据分析需求也不同。
在一个示例中,所述数据分析需求包括查询第一范围的所述目标数据,以及对该第一范围的所述目标数据进行第一方式的统计分析。
可以理解的是,通过确定数据分析需求包括的一项或多项数据过滤条件,可以从一个大范围的存储数据中确定一个小范围的待分析数据,例如,目标数据存储于目标数据库中,目标数据库包括多张数据表,每张数据表又包括多个字段,可以从上述多张数据表中选取至少一张数据表,再从至少一张数据表中的每张数据表中选取至少一个字段的数据进行分析。此外,统计分析的方式有多种,例如,排序、求和、求平均值等,通过确定数据分析需求,可以确定一种或多种具体的统计分析的方式。
本说明书实施例,对于实体识别的方式不做具体限定,其中,实体识别的结果包括多个实体构成的实体序列以及各实体分别对应的实体类别,上述实体序列中各实体具有一定的顺序,该顺序为实体在自然语言文本中的顺序。
此外,可以理解的是,自然语言文本中的“是”、“为”、“等于”,均可以识别为实体“=”;自然语言文本中的“不是”、“不为”、“不等于”、“除了”,均可以识别为实体“!=”。
然后在步骤32,根据所述实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型。可以理解的是,数据分析所针对的目标数据通常具有特定的数据结构以及特定的存储方式,例如,目标数据存储于数据库中,各实体之间的关联关系可以为由特定的数据结构所体现的关联关系,例如,同一字段的字段名称和字段取值之间的关系。
在一个示例中,所述实体类别包括操作符类别、维度类别和维值类别;所述维度类别对应于目标数据中的字段名称,所述维值类别对应于所述目标数据中的字段的具体取值。
进一步地,所述至少两个实体包括依次排列的第一实体、第二实体、第三实体;所述预设规则包括:
所述第一实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第三实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
该示例中,将三个相邻的实体作为一组来判断是否符合预设规则,其中,第二实体位于第一实体和第三实体之间,规则中涉及了实体类别和实体类型。举例来说,第一实体为年龄,第二实体为等于,第三实体为20,这一组实体就满足上述预设规则。
进一步地,所述至少两个实体包括依次排列的第四实体、第二实体、第五实体;所述预设规则包括:
所述第四实体的实体类别为维度类别,且其实体类型用于指示该实体属于字符串的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第五实体的实体类别为维值类别,且所述第五实体与所述第四实体之间的关联关系为所述第五实体属于所述第四实体对应的维值。
该示例中,将三个相邻的实体作为一组来判断是否符合预设规则,其中,第二实体位于第四实体和第五实体之间,规则中涉及了实体类别和实体之间的关联关系。举例来说,第四实体为城市,第二实体为等于,第五实体为上海,这一组实体就满足上述预设规则。
进一步地,所述至少两个实体包括依次排列的第六实体、第七实体、第八实体;所述预设规则包括:
所述第六实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第七实体的实体类别为操作符类别且为大于、小于、大于等于或小于等于逻辑运算符;
所述第八实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
该示例中,将三个相邻的实体作为一组来判断是否符合预设规则,其中,第七实体位于第六实体和第八实体之间,规则中涉及了实体类别和实体类型。举例来说,第六实体为年龄,第七实体为小于,第八实体为20,这一组实体就满足上述预设规则。
进一步地,所述至少两个实体包括依次排列的第九实体、第十实体;所述预设规则包括:
所述第九实体和所述第十实体的实体类别均为维值类别,且属于同一维度对应的维值。
该示例中,将两个相邻的实体作为一组来判断是否符合预设规则,规则中涉及了实体类别和实体之间的关联关系。举例来说,第九实体为北京,第十实体为上海,二者均属于城市维度对应的维值,这一组实体就满足上述预设规则。
需要说明的是,上述预设规则针对的相邻实体的数目不限于两个或者三个,可以包含更多的实体,例如,依次排列的四个相邻实体,北京、上海、南京、广州,这四个相邻实体的实体类别均为维值类别,且属于同一维度对应的维值,可以将其归为一组,该组实体符合预设规则。
本说明书实施例,可以设定多个并列的预设规则,只要满足其中一个预设规则,即可认为满足预设规则,当有多个相邻的实体分别满足不同的预设规则时,这多个相邻的实体也可以作为一组,认为其满足预设规则,例如,依次排列的多个相邻实体,实体1、实体2、实体3、实体4、实体5,其中,实体1、实体2、实体3满足规则A,实体4、实体5满足规则B,则可以认为实体1、实体2、实体3、实体4、实体5满足预设规则。
接着在步骤33,若判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合。可以理解的是,若判断结果为不满足预设规则,则不能将所述至少两个实体进行组合。
例如,用户输入的自然语言文本为“城市等于上海,不为男性的用户销售金额”,其中,城市等于上海可以作为一个实体组合,上海不为男性就不可以作为一个实体组合。
最后在步骤34,展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件。可以理解的是,若一并展示实体序列除所述实体组合之外的其他实体,则所述实体组合的展示方式与其他实体的展示方式需要存在差异。
在一个示例中,所述展示所述实体组合,包括:
在输入框里,针对所述自然语言文本与所述实体组合对应的部分进行突出展示;或者,
在输入框之外的提示框里,展示所述实体组合,并示出其作为一项所述数据过滤条件。
图4示出根据一个实施例的实体组合的展示方式示意图。参照图4,在输入框里,针对所述自然语言文本与所述实体组合对应的部分进行突出展示,用户输入“年龄大于20的用户,购买时间在6月10号到6月12号之间的购买总金额”,其中,在“年龄大于20”下面添加下划线,在“购买时间在6月10号到6月12号之间”下面添加下划线,以表示添加下划线的部分对应于实体组合。可以理解的是,突出展示的方式并不限定于此,例如,还可以采用矩形框框住实体组合的方式,或者在实体组合下方添加波浪线的方式等。
本说明书实施例,展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件,以告知用户该项数据过滤条件已经被识别,将对目标数据产生筛选作用。
在一个示例中,所述方法还包括:
根据所述数据过滤条件,构建数据查询脚本,用于执行对所述目标数据的查询操作,得到与所述数据分析需求对应的查询结果。
图5示出根据一个实施例的数据查询脚本的构建过程示意图。参照图5,用户输入的自然语言文本首先通过实体识别得到实体序列,然后根据实体序列确定对应于一项数据过滤条件的实体组合,接着经过语法分析、语义分析、查询脚本转换等核心步骤,将自然语言可控地、可解释地逐步翻译成数据查询脚本,从而使得非数据技术人员能够自助取数分析,得到高时效性和高准确性的数据分析结果。
通过本说明书实施例提供的方法,首先获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;然后根据所述实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;接着若判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;最后展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件。由上可见,本说明书实施例,基于预设规则对实体进行分组,无需进行模型训练,准确度高,冷启动速度快,并且通过展示实体组合,以及将实体组合对应于数据过滤条件,能够在数据分析中的实体展示过程体现实体之间的关联性。
根据另一方面的实施例,还提供一种数据分析中的实体展示装置,该装置用于执行本说明书实施例提供的方法。图6示出根据一个实施例的数据分析中的实体展示装置的示意性框图。如图6所示,该装置600包括:
获取单元61,用于获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;
判断单元62,用于根据所述获取单元61获取的实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;
组合单元63,用于若所述判断单元62的判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;
展示单元64,用于展示所述组合单元63得到的实体组合作为所述数据分析需求包括的一项数据过滤条件。
可选地,作为一个实施例,所述实体类别包括操作符类别、维度类别和维值类别;所述维度类别对应于目标数据中的字段名称,所述维值类别对应于所述目标数据中的字段的具体取值。
进一步地,所述至少两个实体包括依次排列的第一实体、第二实体、第三实体;所述预设规则包括:
所述第一实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第三实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
进一步地,所述至少两个实体包括依次排列的第四实体、第二实体、第五实体;所述预设规则包括:
所述第四实体的实体类别为维度类别,且其实体类型用于指示该实体属于字符串的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第五实体的实体类别为维值类别,且所述第五实体与所述第四实体之间的关联关系为所述第五实体属于所述第四实体对应的维值。
进一步地,所述至少两个实体包括依次排列的第六实体、第七实体、第八实体;所述预设规则包括:
所述第六实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第七实体的实体类别为操作符类别且为大于、小于、大于等于或小于等于逻辑运算符;
所述第八实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
进一步地,所述至少两个实体包括依次排列的第九实体、第十实体;所述预设规则包括:
所述第九实体和所述第十实体的实体类别均为维值类别,且属于同一维度对应的维值。
可选地,作为一个实施例,所述展示单元64,具体用于在输入框里,针对所述自然语言文本与所述实体组合对应的部分进行突出展示;或者,在输入框之外的提示框里,展示所述实体组合,并示出其作为一项所述数据过滤条件。
可选地,作为一个实施例,所述装置还包括:
构建单元,用于根据所述展示单元64展示的数据过滤条件,构建数据查询脚本,用于执行对所述目标数据的查询操作,得到与所述数据分析需求对应的查询结果。
通过本说明书实施例提供的装置,首先获取单元61获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的数据分析需求;然后判断单元62根据所述实体序列中各实体的实体类别、实体类型、各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;接着组合单元63在判断结果为满足预设规则时,将所述至少两个实体进行组合,得到实体组合;最后展示单元64展示所述实体组合作为所述数据分析需求包括的一项数据过滤条件。由上可见,本说明书实施例,基于预设规则对实体进行分组,无需进行模型训练,准确度高,冷启动速度快,并且通过展示实体组合,以及将实体组合对应于数据过滤条件,能够在数据分析中的实体展示过程体现实体之间的关联性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种数据查询分析中的实体展示方法,所述方法包括:
获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的查询分析需求;
根据所述实体序列中各实体的实体类别,以及实体类型和各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;所述实体类别包括操作符类别、维度类别和维值类别;所述维度类别对应于目标数据中的字段名称,所述维值类别对应于所述目标数据中的字段的具体取值;
若判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;
展示所述实体组合作为所述查询分析需求包括的一项数据过滤条件。
2.如权利要求1所述的方法,其中,所述至少两个实体包括依次排列的第一实体、第二实体、第三实体;所述预设规则包括:
所述第一实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第三实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
3.如权利要求1所述的方法,其中,所述至少两个实体包括依次排列的第四实体、第二实体、第五实体;所述预设规则包括:
所述第四实体的实体类别为维度类别,且其实体类型用于指示该实体属于字符串的类型;
所述第二实体的实体类别为操作符类别且为等于或不等于逻辑运算符;
所述第五实体的实体类别为维值类别,且所述第五实体与所述第四实体之间的关联关系为所述第五实体属于所述第四实体对应的维值。
4.如权利要求1所述的方法,其中,所述至少两个实体包括依次排列的第六实体、第七实体、第八实体;所述预设规则包括:
所述第六实体的实体类别为维度类别,且其实体类型用于指示该实体属于数值的类型;
所述第七实体的实体类别为操作符类别且为大于、小于、大于等于或小于等于逻辑运算符;
所述第八实体的实体类别为维值类别,且其实体类型用于指示该实体属于数值的类型。
5.如权利要求1所述的方法,其中,所述至少两个实体包括依次排列的第九实体、第十实体;所述预设规则包括:
所述第九实体和所述第十实体的实体类别均为维值类别,且属于同一维度对应的维值。
6.如权利要求1所述的方法,其中,所述展示所述实体组合,包括:
在输入框里,针对所述自然语言文本与所述实体组合对应的部分进行突出展示;或者,
在输入框之外的提示框里,展示所述实体组合,并示出其作为一项所述数据过滤条件。
7.如权利要求1所述的方法,其中,所述方法还包括:
根据所述数据过滤条件,构建数据查询脚本,用于执行对所述目标数据的查询操作,得到与所述查询分析需求对应的查询结果。
8.一种数据查询分析中的实体展示装置,所述装置包括:
获取单元,用于获取针对用户输入的自然语言文本进行实体识别得到的实体序列,所述自然语言文本用于表达用户对目标数据的查询分析需求;
判断单元,用于根据所述获取单元获取的实体序列中各实体的实体类别,以及实体类型和各实体之间的关联关系中的至少一项,判断所述实体序列中相邻的至少两个实体是否满足预设规则;其中,所述实体类型用于指示该实体属于数值或字符串的类型;所述实体类别包括操作符类别、维度类别和维值类别;所述维度类别对应于目标数据中的字段名称,所述维值类别对应于所述目标数据中的字段的具体取值;
组合单元,用于若所述判断单元的判断结果为满足预设规则,则将所述至少两个实体进行组合,得到实体组合;
展示单元,用于展示所述组合单元得到的实体组合作为所述查询分析需求包括的一项数据过滤条件。
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项的所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项的所述的方法。
CN202210952243.XA 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置 Pending CN115345157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210952243.XA CN115345157A (zh) 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210135204.0A CN114218935B (zh) 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置
CN202210952243.XA CN115345157A (zh) 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202210135204.0A Division CN114218935B (zh) 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置

Publications (1)

Publication Number Publication Date
CN115345157A true CN115345157A (zh) 2022-11-15

Family

ID=80709266

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210135204.0A Active CN114218935B (zh) 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置
CN202210952243.XA Pending CN115345157A (zh) 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210135204.0A Active CN114218935B (zh) 2022-02-15 2022-02-15 数据分析中的实体展示方法和装置

Country Status (1)

Country Link
CN (2) CN114218935B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751505B2 (en) * 2012-03-11 2014-06-10 International Business Machines Corporation Indexing and searching entity-relationship data
US20140278983A1 (en) * 2013-03-15 2014-09-18 Microsoft Corporation Using entity repository to enhance advertisement display
CN106033466A (zh) * 2015-03-20 2016-10-19 华为技术有限公司 数据库查询的方法和设备
US20180210883A1 (en) * 2017-01-25 2018-07-26 Dony Ang System for converting natural language questions into sql-semantic queries based on a dimensional model
CN108491373B (zh) * 2018-02-01 2022-05-27 北京百度网讯科技有限公司 一种实体识别方法及系统
CN110955752A (zh) * 2019-11-25 2020-04-03 三角兽(北京)科技有限公司 信息的展示方法、装置、电子设备及计算机存储介质
CN111091883B (zh) * 2019-12-16 2023-07-04 东软集团股份有限公司 一种医疗文本处理方法、装置、存储介质及设备
CN111310469A (zh) * 2020-01-16 2020-06-19 北京明略软件系统有限公司 实体间隐形关系的查找方法及装置、电子设备、存储介质
CN112001188B (zh) * 2020-10-30 2021-03-16 北京智源人工智能研究院 基于向量化语义规则快速实现nl2sql的方法和装置
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN114218935A (zh) 2022-03-22
CN114218935B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110909226B (zh) 金融类文档信息处理方法、装置、电子设备及存储介质
CN109766497B (zh) 排行榜生成方法及装置、存储介质、电子设备
CN110543517B (zh) 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质
TWI643076B (zh) 金融非結構化文本分析系統及其方法
Van der Aa et al. Checking process compliance against natural language specifications using behavioral spaces
US20050183002A1 (en) Data and metadata linking form mechanism and method
KR20190076047A (ko) 데이터 요소 간의 관계를 결정하기 위한 시스템 및 방법
CN115061721A (zh) 一种报表生成方法、装置、计算机设备及存储介质
US11698918B2 (en) System and method for content-based data visualization using a universal knowledge graph
JP7015319B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
CN109101541B (zh) 新增指标管理方法、设备及计算机可读存储介质
EP1745390A2 (en) Data and metadata linking form mechanism and method
CN114218935B (zh) 数据分析中的实体展示方法和装置
JP7015320B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
US6041177A (en) Program analyzing apparatus which categorizes variables into domains and method thereof
CN114090620B (zh) 查询请求的处理方法及装置
CN116126918A (zh) 数据生成方法、信息筛选方法、设备以及介质
CN114090627B (zh) 一种数据查询方法及装置
CN116127053B (zh) 实体词消歧、知识图谱生成和知识推荐方法以及装置
CN117390170B (zh) 数据标准的对标方法、装置、电子设备和可读存储介质
CN114610791A (zh) 数据血缘关系的分析方法、装置、计算机设备及存储介质
TWI643079B (zh) 文獻分類方法與電腦可讀取媒體
CN117609075A (zh) 索引使用效率的评估方法、装置、电子设备及存储介质
CN117648358A (zh) 数据库间语句转换方法、装置、电子设备及存储介质
CN112328780A (zh) 自然语言转换处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination