CN109948164A - 统计需求信息的处理方法、装置、计算机设备和存储介质 - Google Patents

统计需求信息的处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109948164A
CN109948164A CN201910262856.9A CN201910262856A CN109948164A CN 109948164 A CN109948164 A CN 109948164A CN 201910262856 A CN201910262856 A CN 201910262856A CN 109948164 A CN109948164 A CN 109948164A
Authority
CN
China
Prior art keywords
field
semantic entity
field type
demand information
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910262856.9A
Other languages
English (en)
Inventor
赵万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910262856.9A priority Critical patent/CN109948164A/zh
Publication of CN109948164A publication Critical patent/CN109948164A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种统计需求信息的处理方法、装置、计算机设备和存储介质,属于数据库领域。本发明实施例提供的统计需求信息的处理方法,通过获取统计需求信息所包括的至少一个语义实体,识别该至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型。基于至少一个字段类型和至少一个语义实体,确定目标逻辑表达式,输出该目标逻辑表达式。该方法通过自动识别至少一个语义实体,得到每个语义实体对应的字段类型,将字段类型和语义实体结合,最终得到用于统计数据的代码,实现了自动生成与统计需求信息对应的代码,提高了代码的编写效率,不仅降低了数据统计的成本,而且提高了数据统计的实时性。

Description

统计需求信息的处理方法、装置、计算机设备和存储介质
技术领域
本发明涉及数据库领域,特别涉及一种统计需求信息的处理方法、装置、计算机设备和存储介质。
背景技术
在数据库领域,数据开发人员常常需要根据项目经理的一些统计需求信息,将统计需求信息编写为代码。然后通过在数据库中运行代码,得到统计结果,进而业务人员对该统计结果进行分析。
相关技术中,统计需求信息的处理过程为:数据开发人员根据自身对统计需求的理解,参照数据字典和指标编写规则,对统计需求进行人工编码,从而得到用于进行统计的代码。
上述对统计需求信息的处理过程,均需要数据开发人员人工进行,编写效率低,不仅导致实现数据统计的成本很高,而且也导致数据统计的实时性差。
发明内容
本发明实施例提供了一种统计需求信息的处理方法、装置、计算机设备和存储介质,能够解决代码编写效率低,数据统计实时性差的问题。该技术方案如下:
一方面,提供了一种统计需求信息的处理方法,该方法包括:
获取统计需求信息所包括的至少一个语义实体;
识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型;
基于所述至少一个字段类型和所述至少一个语义实体,确定所述至少一个语义实体对应的目标逻辑表达式;
输出所述目标逻辑表达式,所述目标逻辑表达式用于基于所述统计需求信息进行数据统计。
在一种可能的实现方式中,所述基于所述至少一个字段类型和所述至少一个语义实体,确定所述至少一个语义实体对应的目标逻辑表达式,包括:
基于所述至少一个字段类型,确定所述至少一个字段类型对应的至少一个第一逻辑表达式;
基于所述至少一个语义实体和所述至少一个第一逻辑表达式,确定所述目标逻辑表达式。
在另一种可能的实现方式中,所述基于所述至少一个语义实体和所述至少一个第一逻辑表达式,确定所述目标逻辑表达式,包括:
当所述至少一个语义实体的数量为1时,所述至少一个第一逻辑表达式的数量为1,将所述至少一个语义实体代入所述至少一个第一逻辑表达式,得到所述目标逻辑表达式;
当所述至少一个语义实体的数量大于1时,所述至少一个第一逻辑表达式的数量大于1,将所述至少一个语义实体中的每个语义实体代入所述每个语义实体对应的第一逻辑表达式,对多个包含语义实体的第一逻辑表达式进行与处理,得到所述目标逻辑表达式。
在另一种可能的实现方式中,所述识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型,包括:
从语义实体和字段的对应关系中,查询所述至少一个语义实体中的每个语义实体,得到所述每个语义实体对应的字段;
从字段和字段类型的对应关系中,查询每个字段对应的字段类型,得到所述至少一个字段类型。
在另一种可能的实现方式中,所述识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型之前,所述方法还包括:
获取多个字段和所述多个字段的描述信息;
对于每个字段,根据所述字段的描述信息,从多个字段类型中选择与所述字段的描述信息对应的字段类型;
将选择的字段类型确定为所述字段对应的字段类型。
在另一种可能的实现方式中,所述从所述多个字段类型中选择与所述字段的描述信息对应的字段类型之后,所述方法还包括:
探查数据库中的所述字段对应的字段内容;
当所述字段对应的字段内容与所述字段的描述信息相符,则执行所述将选择的字段类型确定为所述字段对应的字段类型的步骤;
当所述字段对应的字段内容与所述字段的描述信息不相符,则根据所述字段对应的字段内容,确定所述字段对应的字段类型。
在另一种可能的实现方式中,当所述字段对应的字段内容包括数值0和数值1,所述字段的描述信息也包括数值0和数值1时,则所述字段对应的字段内容与所述字段的描述信息相符;
当所述字段对应的字段内容的数量和所述字段的描述信息的数量相等时,则所述字段对应的字段内容与所述字段的描述信息相符。
在另一种可能的实现方式中,所述方法还包括:
基于所述目标逻辑表达式,对数据库中的数据进行筛选,得到所述统计需求信息对应的统计结果,输出所述统计结果。
在另一种可能的实现方式中,所述至少一个字段类型包括二值逻辑字段类型、多枚举值字段类型和维度字段类型。
一方面,提供了一种统计需求信息的处理装置,该装置包括:
第一获取模块,用于获取统计需求信息所包括的至少一个语义实体;
识别模块,用于识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型;
第一确定模块,用于基于所述至少一个字段类型和所述至少一个语义实体,确定所述至少一个语义实体对应的目标逻辑表达式;
输出模块,用于输出所述目标逻辑表达式,所述目标逻辑表达式用于基于所述统计需求信息进行数据统计。
在一种可能的实现方式中,所述第一确定模块,还用于基于所述至少一个字段类型,确定所述至少一个字段类型对应的至少一个第一逻辑表达式;基于所述至少一个语义实体和所述至少一个第一逻辑表达式,确定所述目标逻辑表达式。
在另一种可能的实现方式中,所述第一确定模块,还用于当所述至少一个语义实体的数量为1时,所述至少一个第一逻辑表达式的数量为1,将所述至少一个语义实体代入所述至少一个第一逻辑表达式,得到所述目标逻辑表达式;当所述至少一个语义实体的数量大于1时,所述至少一个第一逻辑表达式的数量大于1,将所述至少一个语义实体中的每个语义实体代入所述每个语义实体对应的第一逻辑表达式,对多个包含语义实体的第一逻辑表达式进行与处理,得到所述目标逻辑表达式。
在另一种可能的实现方式中,所述识别模块,还用于从语义实体和字段的对应关系中,查询所述至少一个语义实体中的每个语义实体,得到所述每个语义实体对应的字段;从字段和字段类型的对应关系中,查询每个字段对应的字段类型,得到所述至少一个字段类型。
在另一种可能的实现方式中,所述装置还包括:
第二获取模块,用于获取多个字段和所述多个字段的描述信息;对于每个字段,根据所述字段的描述信息,从多个字段类型中选择与所述字段的描述信息对应的字段类型;将选择的字段类型确定为所述字段对应的字段类型。
在另一种可能的实现方式中,所述装置还包括:
探查模块,用于探查数据库中的所述字段对应的字段内容;当所述字段对应的字段内容与所述字段的描述信息相符,则执行所述将选择的字段类型确定为所述字段对应的字段类型的步骤;当所述字段对应的字段内容与所述字段的描述信息不相符,则根据所述字段对应的字段内容,确定所述字段对应的字段类型。
在另一种可能的实现方式中,当所述字段对应的字段内容包括数值0和数值1,所述字段的描述信息也包括数值0和数值1时,则所述字段对应的字段内容与所述字段的描述信息相符;
当所述字段对应的字段内容的数量和所述字段的描述信息的数量相等时,则所述字段对应的字段内容与所述字段的描述信息相符。
在另一种可能的实现方式中,所述装置还包括:
筛选模块,用于基于所述目标逻辑表达式,对数据库中的数据进行筛选,得到所述统计需求信息对应的统计结果,输出所述统计结果。
在另一种可能的实现方式中,所述至少一个字段类型包括二值逻辑字段类型、多枚举值字段类型和维度字段类型。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条指令,该至少一条指令由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的统计需求信息的处理方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的统计需求信息的处理方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例提供的统计需求信息的处理方法,通过获取统计需求信息所包括的至少一个语义实体,识别该至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型。基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式,输出目标逻辑表达式,该目标逻辑表达式用于基于统计需求信息进行数据统计。该方法通过自动识别至少一个语义实体,得到每个语义实体对应的字段类型,将字段类型和语义实体结合,最终得到用于统计数据的代码,实现了自动生成与统计需求信息对应的代码,提高了代码的编写效率,不仅降低了数据统计的成本,而且提高了数据统计的实时性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种应用场景的示意图;
图2是本发明实施例提供的一种统计需求信息的处理方法的流程图;
图3是本发明实施例提供的一种统计需求信息的处理方法的流程图;
图4是本发明实施例提供一种Schema解析器对字段类型校验的示意图;
图5是本发明实施例提供的一种Schema解析器对字段类型校验的示意图;
图6是本发明实施例提供的一种计算机设备根据统计需求信息得到统计结果的示意图;
图7是本发明实施例提供的一种统计需求信息的处理装置的结构示意图;
图8是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种统计需求信息处理的应用场景,该应用场景包括:计算机设备101和数据库102。该计算机设备101可以为服务器,用于根据统计需求信息,得到该统计需求信息对应的目标逻辑表达式。该计算机设备101还用于根据该目标逻辑表达式,对数据库102中的数据进行筛选,得到统计需求信息对应的统计结果,输出该统计结果。其中,统计需求信息用于描述对数据库中至少一个指标的统计需求,该统计需求可以采用字符描述的形式来表示,例如,中文描述信息等,目标逻辑表达式为统计需求信息对应的代码。数据库102用于存储数据,该数据库102可以为计算机设备101中的数据库102,也可以为其他服务器中的数据库102。在本公开实施例中,对此不作具体限定。例如,统计需求可以为统计**市**区男性消费者一天的外卖单量,目标逻辑表达式可以为**市**区男性消费者一天的外卖单量对应的代码。计算机设备101可以通过该代码统计数据库102中的数据,从而得到统计结果。
需要说明的一点是,相关技术中,数据开发人员都是根据自身对统计需求的理解,参照数据字典和指标编写规则,人工将统计需求编写为代码。相关技术中对统计需求信息的处理过程,均需要数据开发人员人工进行,编写效率低,实现数据统计的成本高,导致数据统计的实时性差。并且,人工编写代码的过程中,可能还会出现错误,导致代码编写错误,影响最终的统计结果。
而本发明实施例提供的统计需求信息的处理方法,计算机设备101可以通过获取统计需求信息所包括的至少一个语义实体,识别至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型,基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式,输出该目标逻辑表达式,该目标逻辑表达式用于基于统计需求信息进行数据统计。在本发明实施例中,计算机设备101通过自动识别至少一个语义实体,得到每个语义实体对应的字段类型,将字段类型和语义实体结合,最终得到用于统计数据的代码,实现了自动生成与统计需求信息对应的代码,提高了代码的编写效率,不仅降低了数据统计的成本,而且提高了数据统计的实时性。
图2是本发明实施例提供的一种统计需求信息的处理方法的流程图。该方法的执行主体可以为任一计算机设备,该方法包括:
201、获取统计需求信息所包括的至少一个语义实体。
202、识别至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型。
203、基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式。
204、输出目标逻辑表达式,目标逻辑表达式用于基于统计需求信息进行数据统计。
在一种可能的实现方式中,基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式,包括:
基于至少一个字段类型,确定至少一个字段类型对应的至少一个第一逻辑表达式;
基于至少一个语义实体和至少一个第一逻辑表达式,确定目标逻辑表达式。
在另一种可能的实现方式中,基于至少一个语义实体和至少一个第一逻辑表达式,确定目标逻辑表达式,包括:
当至少一个语义实体的数量为1时,至少一个第一逻辑表达式的数量为1,将至少一个语义实体代入至少一个第一逻辑表达式,得到目标逻辑表达式;
当至少一个语义实体的数量大于1时,至少一个第一逻辑表达式的数量大于1,将至少一个语义实体中的每个语义实体代入每个语义实体对应的第一逻辑表达式,对多个包含语义实体的第一逻辑表达式进行与处理,得到目标逻辑表达式。
在另一种可能的实现方式中,识别至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型,包括:
从语义实体和字段的对应关系中,查询至少一个语义实体中的每个语义实体,得到每个语义实体对应的字段;
从字段和字段类型的对应关系中,查询每个字段对应的字段类型,得到至少一个字段类型。
在另一种可能的实现方式中,识别至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型之前,方法还包括:
获取多个字段和多个字段的描述信息;
对于每个字段,根据字段的描述信息,从多个字段类型中选择与字段的描述信息对应的字段类型;
将选择的字段类型确定为字段对应的字段类型。
在另一种可能的实现方式中,从多个字段类型中选择与字段的描述信息对应的字段类型之后,方法还包括:
探查数据库中的字段对应的字段内容;
当字段对应的字段内容与字段的描述信息相符,则执行将选择的字段类型确定为字段对应的字段类型的步骤;
当字段对应的字段内容与字段的描述信息不相符,则根据字段对应的字段内容,确定字段对应的字段类型。
在另一种可能的实现方式中,其特征在于,
当字段对应的字段内容包括数值0和数值1,字段的描述信息也包括数值0和数值1时,则字段对应的字段内容与字段的描述信息相符;
当字段对应的字段内容的数量和字段的描述信息的数量相等时,则字段对应的字段内容与字段的描述信息相符。
在另一种可能的实现方式中,方法还包括:
基于目标逻辑表达式,对数据库中的数据进行筛选,得到统计需求信息对应的统计结果,输出统计结果。
在另一种可能的实现方式中,至少一个字段类型包括二值逻辑字段类型、多枚举值字段类型和维度字段类型。
本发明实施例提供的统计需求信息的处理方法,通过获取统计需求信息所包括的至少一个语义实体,识别该至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型。基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式,输出目标逻辑表达式,该目标逻辑表达式用于基于统计需求信息进行数据统计。该方法通过自动识别至少一个语义实体,得到每个语义实体对应的字段类型,将字段类型和语义实体结合,最终得到用于统计数据的代码,实现了自动生成与统计需求信息对应的代码,提高了代码的编写效率,不仅降低了数据统计的成本,而且提高了数据统计的实时性。
图3是本发明实施例提供的一种统计需求信息的处理方法的流程图。该方法的执行主体可以为任一计算机设备,该方法包括:
301、计算机设备获取统计需求信息所包括的至少一个语义实体。
统计需求信息用于描述对数据库中至少一个指标的统计需求,该统计需求可以采用字符描述的形式来表示,例如,中文描述信息等。计算机设备在获取统计需求信息时,可以获取终端输入的统计需求信息,也可以获取服务器中存储的统计需求信息。在本发明实施例中,对计算机设备获取统计需求信息的方式不作具体限定。
其中,统计需求信息中可能包含一些与指标相关的词语,计算机设备需要从统计需求信息中识别出这些与指标相关的词语,从而执行后续的处理过程。计算机设备可以基于语义实体库,对统计需求信息进行语义识别,以得到该统计需求信息所包括的至少一个语义实体。上述语义识别过程可以包括:对统计需求信息进行分词,得到多个词组,将各个词组与语义实体库中的语义实体进行匹配,将匹配成功的语义实体作为该统计需求信息所包括的至少一个语义实体。其中,语义实体库可以是预先建立的指标库,用于存储数据库中多个指标。另外,还可以在语义实体库中存储任一指标的近义词、同义词,以便在进行匹配时,如果词组与任一指标的近义词或同义词匹配成功,则可以将该近义词或同义词对应的语义实体作为统计需求信息所包括的至少一个语义实体,从而实现了数据统计的灵活性。
例如,当统计需求信息为统计**市**区男性消费者一天的外卖单量时,该统计需求信息中包括的词组分别为:**市、**区、男性、一天、外卖单量,计算机设备将该多个词组与语义实体库中的语义实体进行匹配,匹配成功后,得到统计需求信息中包括的语义实体分别为:**市、**区、男性、一天、外卖单量。
302、计算机设备识别至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型。
对于每个语义实体,字段类型为该语义实体所属的字段的类型,其中,字段为该语义实体所属的类别。例如,语义实体为“女性”时,“女性”所属的类别为“性别”,即该语义实体所属的字段为“性别”,而字段“性别”中一般只有“男性”和“女性”两个语义实体,因此,该字段的类型为二值逻辑字段类型。本步骤中,计算机设备得到每个语义实体对应的字段类型,该字段类型用于确定字段类型对应的第一逻辑表达式,最终将第一逻辑表达式和语义实体结合生成统计数据的代码,其中,第一逻辑表达式为字段类型对应的代码。
该至少一个字段类型包括二值逻辑字段类型、多枚举值字段类型和维度字段类型。其中,二值逻辑字段类型为字段的描述信息中仅包括两个语义实体,A和B,可以用数值0代表A,数值1代表B,其中,字段的描述信息为描述该字段的至少一个语义实体。例如,字段“性别”对应的描述信息中仅包括语义实体“男性”和“女性”。多枚举值字段类型为字段的描述信息中包括多个语义实体,该多个语义实体的数量大于2。例如,字段“职业”对应的描述信息中包括语义实体“教师”、“医生”、“警察”、“工人”“白领”等。当字段类型既不是二值逻辑字段类型也不是多枚举值字段类型时,计算机设备确定字段类型为维度字段类型。例如,语义实体“中年”、“青年”、“老年”等分别为一个年龄段,但由于不同的人对“中年”、“青年”、“老年”的认知不同,确定的年龄段的范围也不同,因此,该语义实体“中年”、“青年”、“老年”等对应的字段类型为维度字段类型。
在一些实施例中,本步骤可以通过以下步骤(1)至(2)实现,包括:
(1)计算机设备从语义实体和字段的对应关系中,查询至少一个语义实体中的每个语义实体,得到每个语义实体对应的字段。
本步骤中,计算机设备根据统计需求信息中包括的至少一个语义实体,从预先构建的语义实体和字段的对应关系中,查询每个语义实体对应的字段。
例如,当统计需求信息为统计**市**区男性消费者一天的外卖单量时,该统计需求信息中的语义实体分别为:**市、**区、男性、一天、外卖单量。对于语义实体“**市”,根据该语义实体和字段的对应关系,计算机设备确定“**市”对应的字段为“市名”;以此类推,计算机设备确定每个语义实体对应的字段。
(2)计算机设备从字段和字段类型的对应关系中,查询每个字段对应的字段类型,得到至少一个字段类型。
本步骤中,计算机设备根据至少一个语义实体对应的至少一个字段,从预先构建的字段和字段类型的对应关系中,确定每个字段对应的字段类型。
其中,对于预先构建的字段和字段类型的对应关系,该对应关系为一个字段对应一个字段类型,或者多个字段对应一个字段类型。对于每个语义实体,计算机设备可以根据字段和字段类型的对应关系确定该字段对应的字段类型,从而根据步骤(1)中语义实体和字段的对应关系以及步骤(2)中字段和字段类型的对应关系,得到该语义实体对应的字段类型。
在一种可能的实现方式中,字段和字段类型的对应关系可以为计算机设备自己构建的,也可以为计算机设备获取其他设备构建的对应关系。在本发明实施例中,对此不作具体限定。当该对应关系为计算机设备自己构建的对应关系时,该构建过程可以通过以下步骤(2-1)至(2-3)实现:
(2-1)计算机设备获取多个字段和多个字段的描述信息。
对于每个字段,该字段为语义实体所属的类别,一个字段对应一个描述信息,该描述信息为描述该字段的至少一个语义实体。例如,字段可以为“市名”、“区名”、“姓名”、“性别”、“职业”、“日期”等,其中,字段“性别”对应的描述信息为语义实体“男性”和“女性”。
在数据库中,Schema(概要)是数据库对象的集合,这个集合中包含了各种对象,例如,表、视图、存储过程、索引等。一个Schema中可以包括多个字段和多个字段的描述信息。本步骤中,计算机设备可以通过任一方式获取Schema中多个字段和多个字段的描述信息。例如,计算机设备可以接收服务器发送的多个字段和多个字段的描述信息,或者计算机设备接收开发人员通过终端输入的多个字段和多个字段的描述信息。在本发明实施例中,对此不作具体限定。
(2-2)对于每个字段,计算机设备根据该字段的描述信息,从多个字段类型中选择与该字段的描述信息对应的字段类型。
在一种可能的实现方式中,对于每个字段,计算机设备根据该字段的描述信息,确定该字段的描述信息中语义实体的数量。当该字段的描述信息中语义实体的数量为2时,计算机设备确定该2个语义实体是否为数值0和数值1;当该2个语义实体为数值0和数值1时,计算机设备确定该字段的描述信息对应的字段类型为二值逻辑字段类型。当该字段的描述信息中语义实体的数量大于2时,计算机设备确定该字段的描述信息对应的字段类型为多枚举值字段类型。
本步骤中,一个字段只能对应一个字段类型,但一个字段类型可能同时对应多个字段。例如,字段“市名”对应的字段类型为多枚举值字段类型,字段“区名”对应的字段类型也为多枚举值字段类型,因此,“市名”和“区别”对应的字段类型均为多枚举值字段类型。
在一种可能的实现方式中,计算机设备执行完步骤(2-2)后,可以直接执行步骤(2-3);或者计算机设备执行完步骤(2-2)后,对该字段类型进行校验,当选择的字段类型与校验结果相符时,才执行步骤(2-3),从而提高了构建的字段和字段类型的对应关系的准确率。相应的,计算机设备对字段类型进行校验的过程可以为:计算机设备探查数据库中该字段对应的字段内容;当该字段对应的字段内容与字段的描述信息相符,执行步骤(2-3);当该字段对应的字段内容与字段的描述信息不相符,则根据该字段对应的字段内容,确定该字段对应的字段类型。
其中,计算机设备确定字段对应的字段内容与字段的描述信息相符的步骤可以为:当字段对应的字段内容包括数值0和数值1,字段的描述信息也包括数值0和数值1时,则该字段对应的字段内容与字段的描述信息相符;当字段对应的字段内容的数量和字段的描述信息的数量相等时,则字段对应的字段内容与字段的描述信息相符。
需要说明的一点是,当该字段对应的字段内容与字段的描述信息不相符,计算机设备根据数据库中的字段内容对选择的字段类型进行更改,将更改后得到的字段类型作为该字段的字段类型。
其中,计算机设备可以通过Schema解析器对数据库中该字段的字段内容进行探查,根据探查结果确定该字段对应的字段类型。Schema解析器对数据库中字段的字段内容进行校验,确定字段类型的过程可以参见图4和图5。图4为Schema解析器进行探校验时的整体示意图,图中Schema解析器对该字段的字段内容进行探查,根据该字段的字段内容和字段的描述信息是否相符,确定该字段的字段类型。图5是Schema解析器对字段内容进行探查的具体过程:当字段对应的字段内容中包括数值0和数值1,字段的描述信息也包括数值0和数值1时,确定字段对应的字段内容与字段的描述信息相符,该字段对应的字段类型为二值逻辑字段类型;当字段对应的字段内容的数量大于2,字段的描述信息中语义实体的数量大于2,且字段内容的数量和字段的描述信息中语义实体的数量相等时,确定字段对应的字段内容与字段的描述信息相符,该字段对应的字段类型为多枚举值字段类型。当字段对应的字段内容的数量大于2,字段的描述信息中语义实体的数量大于2,但字段内容的数量和字段的描述信息中语义实体的数量不相等时,确定字段对应的字段内容与字段的描述信息不相符,该字段对应的字段类型为维度字段类型。计算机设备通过Schema解析器对字段类型进行校验的过程可以提高构建的字段和字段类型的对应关系的准确率。
(2-3)计算机设备将选择的字段类型确定为该字段对应的字段类型。
计算机设备通过步骤(2-1)至(2-3)构建得到字段和字段类型的对应关系。
例如,当统计需求信息为统计**市**区男性消费者一天的外卖单量时,该统计需求信息中的语义实体分别为:**市、**区、男性、一天、外卖单量,每个语义实体对应的字段分别为:市名、区名、性别、日期、外卖数量。由于字段“市名”中包括的不止“**市”,可能还包括A市、B市、C市等,因此,当字段为“市名”时,对应的字段类型为多枚举值字段类型;由于字段“性别”一般包括男性和女性,因此,当字段为“性别”时,对应的字段类型为二值逻辑字段类型。
303、计算机设备基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式。
目标逻辑表达式为用于基于统计需求信息对数据库中的数据进行统计的代码,该目标逻辑表达式中包括至少一个语义实体和每个语义实体对应的第一逻辑表达式。第一逻辑表达式为与字段类型对应的代码,一个字段类型对应一个第一逻辑表达式。
在一种可能的实现方式中,计算机设备可以预先设定多个第一逻辑表达式,由于一个语义实体对应一个字段类型或者多个语义实体对应一个字段类型,而一个字段类型对应一个第一逻辑表达式,因此,一个语义实体对应一个第一逻辑表达式或者多个语义实体对应一个第一逻辑表达式。计算机设备可以根据每个语义实体和每个语义实体对应的字段类型,确定每个语义实体对应的第一逻辑表达式,然后将每个语义实体带入该语义实体对应的第一逻辑表达式中,进行与处理,从而得到目标逻辑表达式。计算机设备可以直接通过该目标逻辑表达式对数据库中的数据进行统计。
在本发明实施例中,计算机设备可以根据预先构建的语义实体和字段的对应关系、字段和字段类型的对应关系以及预先设定的第一逻辑表达式,直接生成至少一个语义实体对应的目标逻辑表达式,全流程自动化,并且可以自适应统计需求信息对应的中文描述频繁调整,自动输出与统计需求信息对应的目标逻辑表达式,提高了代码的输出效率。
在一些实施例中,本步骤可以通过以下步骤(1)至(2)实现,包括:
(1)计算机设备基于至少一个字段类型,确定至少一个字段类型对应的至少一个第一逻辑表达式。
当字段类型为二值逻辑字段类型时,计算机设备确定二值逻辑字段类型对应的第一逻辑表达式为是非逻辑表达式;当字段类型为多枚举值字段类型时,计算机设备确定多枚举值字段类型对应的第一逻辑表达式为多枚举值逻辑表达式;当字段类型为维度字段类型时,计算机设备确定维度字段类型对应的第一逻辑表达式为维度逻辑表达式。
在一种可能的实现方式中,当第一逻辑表达式为是非逻辑表达式或多枚举值逻辑表达式时,参见以下公式:
Funtf()=(textvalue=='no'?0:1)
Funmul()=Map(schemaname)Map<schemaname,schemavalue>
Ruletf=Fun(Schemacn==Funtf(value))
Rulemul=Fun(Schemacn==Funmul(value))
其中,Ruletf:是非逻辑表达式
Rulemul:多枚举值逻辑表达式
Funtf:是非逻辑判定函数
Funmul:多枚举值逻辑判定函数
Map:schema对应关系。
计算机设备通过预先设定的多个第一逻辑表达式,可以自适应统计需求信息中不同的语义实体,并且在统计需求信息频繁调整时,自适应不同的统计需求信息中的语义实体,提高了目标逻辑表达式的输出效率。
(2)计算机设备基于至少一个语义实体和至少一个第一逻辑表达式,确定目标逻辑表达式。
当至少一个语义实体的数量为1时,至少一个第一逻辑表达式的数量为1,将该至少一个语义实体带入至少一个第一逻辑表达式,得到目标逻辑表达式;
当至少一个语义实体的数量大于1时,至少一个第一逻辑表达式的数量大于1,将至少一个语义实体中的每个语义实体带入每个语义实体对应的第一逻辑表达式,对多个包含语义实体的第一逻辑表达式进行与处理,得到目标逻辑表达式。
目标逻辑表达式为将语义实体和第一逻辑表达式进行结合后得到的复合表达式,参见以下公式:
type∈{tf,mul}
n∈{1,+∞}type∈{tf,mul}
其中,Fun:复合逻辑判定函数
Multicon:复合条件判定逻辑表达式。
需要说明的一点是,当统计需求信息中包括一个语义实体时,计算机设备直接将该语义实体带入第一逻辑表达式中,得到目标逻辑表达式;当统计需求信息中包括多个语义实体时,则计算机设备将每个语义实体和该语义实体对应的第一逻辑表达式进行结合,得到结合后的目标逻辑表达式,从而保证计算机设备进行数据统计的完整性。
例如,上述中当统计需求信息为统计**市**区男性消费者一天的外卖单量时,语义实体的数量大于1,其中,语义实体“**市”、“**区”、“一天”和“外卖单量”对应的第一逻辑表达式均为多枚举值逻辑表达式;语义实体“性别”对应的第一逻辑表达式为是非逻辑表达式;计算机设备将“**市”、“**区”、“一天”和“外卖单量”分别带入其对应的多枚举值逻辑表达式中,将“性别”带入其对应的是非逻辑表达式中,最后将多个包含语义实体的多个多枚举值逻辑表达式和包含语义实体的是非逻辑表达式进行复合,得到目标逻辑表达式。
304、计算机设备输出目标逻辑表达式,目标逻辑表达式用于基于统计需求信息进行数据统计。
计算机设备得到目标逻辑表达式后,可以直接输出目标逻辑表达式,该目标逻辑表达式用于根据统计需求信息进行数据统计。计算机设备通过上述步骤,可以根据统计需求信息的中文描述,确定统计需求信息中的至少一个语义实体,根据预设的多个第一逻辑表达式结合至少一个语义实体,自动生成数据统计的目标逻辑表达式,提高了代码的编写效率。
305、计算机设备基于目标逻辑表达式,对数据库中的数据进行筛选,得到统计需求信息对应的统计结果,输出该统计结果。
计算机设备根据输出的目标逻辑表达式,可以直接通过计算机设备中的规则引擎对数据进行筛选,得到统计需求信息对应的统计结果,输出该统计结果,从而由业务人员对该统计结果进行分析,达到数值逻辑自动计算。并且,当统计需求信息的中文描述变更时,可以自适应调整,输出变更后的中文描述信息对应的目标逻辑表达式,降低了数据统计的成本,提高了数据统计的实时性。其中,计算机设备中的规则引擎可以为开源规则引擎或者商业规则引擎。在本发明实施例中,对规则引擎不作具体限定。
其中,计算机设备根据统计需求信息的中文描述,通过上述步骤301至305最终得到该统计需求信息对应的数据统计结果的过程可以参见图6。图中计算机设备获取该统计需求信息中的至少一个语义实体,通过语义实体和字段的对应关系以及字段和字段内容的对应关系,得到目标逻辑表达式;再通过规则引擎对数据库中的数据进行统计,最终得到统计结果,输出该统计结果。
本发明实施例提供的统计需求信息的处理方法,通过获取统计需求信息所包括的至少一个语义实体,识别该至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型。基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式,输出目标逻辑表达式,该目标逻辑表达式用于基于统计需求信息进行数据统计。该方法通过自动识别至少一个语义实体,得到每个语义实体对应的字段类型,将字段类型和语义实体结合,最终得到用于统计数据的代码,实现了自动生成与统计需求信息对应的代码,提高了代码的编写效率,不仅降低了数据统计的成本,而且提高了数据统计的实时性。
图7是本发明实施例提供的一种统计需求信息的处理装置的结构示意图。
该装置包括:
第一获取模块701,用于获取统计需求信息所包括的至少一个语义实体;
识别模块702,用于识别至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型;
第一确定模块703,用于基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式;
输出模块704,用于输出目标逻辑表达式,目标逻辑表达式用于基于统计需求信息进行数据统计。
在一种可能的实现方式中,第一确定模块703,还用于基于至少一个字段类型,确定至少一个字段类型对应的至少一个第一逻辑表达式;基于至少一个语义实体和至少一个第一逻辑表达式,确定目标逻辑表达式。
在另一种可能的实现方式中,第一确定模块703,还用于当至少一个语义实体的数量为1时,至少一个第一逻辑表达式的数量为1,将至少一个语义实体代入至少一个第一逻辑表达式,得到目标逻辑表达式;当至少一个语义实体的数量大于1时,至少一个第一逻辑表达式的数量大于1,将至少一个语义实体中的每个语义实体代入每个语义实体对应的第一逻辑表达式,对多个包含语义实体的第一逻辑表达式进行与处理,得到目标逻辑表达式。
在另一种可能的实现方式中,识别模块702,还用于从语义实体和字段的对应关系中,查询至少一个语义实体中的每个语义实体,得到每个语义实体对应的字段;从字段和字段类型的对应关系中,查询每个字段对应的字段类型,得到至少一个字段类型。
在另一种可能的实现方式中,该装置还包括:
第二获取模块,用于获取多个字段和多个字段的描述信息;对于每个字段,根据字段的描述信息,从多个字段类型中选择与字段的描述信息对应的字段类型;将选择的字段类型确定为字段对应的字段类型。
在另一种可能的实现方式中,该装置还包括:
探查模块,用于探查数据库中的字段对应的字段内容;当字段对应的字段内容与字段的描述信息相符,则执行将选择的字段类型确定为字段对应的字段类型的步骤;当字段对应的字段内容与字段的描述信息不相符,则根据字段对应的字段内容,确定字段对应的字段类型。
在另一种可能的实现方式中,当字段对应的字段内容包括数值0和数值1,字段的描述信息也包括数值0和数值1时,则字段对应的字段内容与字段的描述信息相符;
当字段对应的字段内容的数量和字段的描述信息的数量相等时,则字段对应的字段内容与字段的描述信息相符。
在另一种可能的实现方式中,该装置还包括:
筛选模块,用于基于目标逻辑表达式,对数据库中的数据进行筛选,得到统计需求信息对应的统计结果,输出统计结果。
在另一种可能的实现方式中,至少一个字段类型包括二值逻辑字段类型、多枚举值字段类型和维度字段类型。
本发明实施例提供的统计需求信息的处理装置,通过获取统计需求信息所包括的至少一个语义实体,识别该至少一个语义实体,得到至少一个语义实体对应的至少一个字段类型。基于至少一个字段类型和至少一个语义实体,确定至少一个语义实体对应的目标逻辑表达式,输出目标逻辑表达式,该目标逻辑表达式用于基于统计需求信息进行数据统计。该装置通过自动识别至少一个语义实体,得到每个语义实体对应的字段类型,将字段类型和语义实体结合,最终得到用于统计数据的代码,实现了自动生成与统计需求信息对应的代码,提高了代码的编写效率,不仅降低了数据统计的成本,而且提高了数据统计的实时性。
需要说明的是:上述实施例提供的统计需求信息的处理装置在处理统计需求信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的统计需求信息的处理装置与统计需求信息的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)801和一个或一个以上的存储器802,其中,该存储器802中存储有至少一条指令,该至少一条指令由该处理器801加载并执行以实现上述各个方法实施例提供的方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由计算机设备中的处理器执行以完成上述实施例中统计需求信息的处理方法。例如,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种统计需求信息的处理方法,其特征在于,所述方法包括:
获取统计需求信息所包括的至少一个语义实体;
识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型;
基于所述至少一个字段类型和所述至少一个语义实体,确定所述至少一个语义实体对应的目标逻辑表达式;
输出所述目标逻辑表达式,所述目标逻辑表达式用于基于所述统计需求信息进行数据统计。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个字段类型和所述至少一个语义实体,确定所述至少一个语义实体对应的目标逻辑表达式,包括:
基于所述至少一个字段类型,确定所述至少一个字段类型对应的至少一个第一逻辑表达式;
基于所述至少一个语义实体和所述至少一个第一逻辑表达式,确定所述目标逻辑表达式。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个语义实体和所述至少一个第一逻辑表达式,确定所述目标逻辑表达式,包括:
当所述至少一个语义实体的数量为1时,所述至少一个第一逻辑表达式的数量为1,将所述至少一个语义实体代入所述至少一个第一逻辑表达式,得到所述目标逻辑表达式;
当所述至少一个语义实体的数量大于1时,所述至少一个第一逻辑表达式的数量大于1,将所述至少一个语义实体中的每个语义实体代入所述每个语义实体对应的第一逻辑表达式,对多个包含语义实体的第一逻辑表达式进行与处理,得到所述目标逻辑表达式。
4.根据权利要求1所述的方法,其特征在于,所述识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型,包括:
从语义实体和字段的对应关系中,查询所述至少一个语义实体中的每个语义实体,得到所述每个语义实体对应的字段;
从字段和字段类型的对应关系中,查询每个字段对应的字段类型,得到所述至少一个字段类型。
5.根据权利要求4所述的方法,其特征在于,所述识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型之前,所述方法还包括:
获取多个字段和所述多个字段的描述信息;
对于每个字段,根据所述字段的描述信息,从多个字段类型中选择与所述字段的描述信息对应的字段类型;
将选择的字段类型确定为所述字段对应的字段类型。
6.根据权利要求5所述的方法,其特征在于,所述从所述多个字段类型中选择与所述字段的描述信息对应的字段类型之后,所述方法还包括:
探查数据库中的所述字段对应的字段内容;
当所述字段对应的字段内容与所述字段的描述信息相符,则执行所述将选择的字段类型确定为所述字段对应的字段类型的步骤;
当所述字段对应的字段内容与所述字段的描述信息不相符,则根据所述字段对应的字段内容,确定所述字段对应的字段类型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述目标逻辑表达式,对数据库中的数据进行筛选,得到所述统计需求信息对应的统计结果,输出所述统计结果。
8.一种统计需求信息的处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取统计需求信息所包括的至少一个语义实体;
识别模块,用于识别所述至少一个语义实体,得到所述至少一个语义实体对应的至少一个字段类型;
第一确定模块,用于基于所述至少一个字段类型和所述至少一个语义实体,确定所述至少一个语义实体对应的目标逻辑表达式;
输出模块,用于输出所述目标逻辑表达式,所述目标逻辑表达式用于基于所述统计需求信息进行数据统计。
9.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的统计需求信息的处理方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的统计需求信息的处理方法所执行的操作。
CN201910262856.9A 2019-04-02 2019-04-02 统计需求信息的处理方法、装置、计算机设备和存储介质 Withdrawn CN109948164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910262856.9A CN109948164A (zh) 2019-04-02 2019-04-02 统计需求信息的处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910262856.9A CN109948164A (zh) 2019-04-02 2019-04-02 统计需求信息的处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109948164A true CN109948164A (zh) 2019-06-28

Family

ID=67013513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910262856.9A Withdrawn CN109948164A (zh) 2019-04-02 2019-04-02 统计需求信息的处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109948164A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112162744A (zh) * 2020-09-30 2021-01-01 中国工商银行股份有限公司 一种基于业务场景的代码自动生成方法及装置
CN113569005A (zh) * 2021-06-17 2021-10-29 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682065A (zh) * 2011-02-03 2012-09-19 微软公司 使用输入-输出示例的语义实体操纵
CN108710652A (zh) * 2018-05-09 2018-10-26 长城计算机软件与系统有限公司 一种基于统计的数据分析方法和系统、存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682065A (zh) * 2011-02-03 2012-09-19 微软公司 使用输入-输出示例的语义实体操纵
CN108710652A (zh) * 2018-05-09 2018-10-26 长城计算机软件与系统有限公司 一种基于统计的数据分析方法和系统、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112162744A (zh) * 2020-09-30 2021-01-01 中国工商银行股份有限公司 一种基于业务场景的代码自动生成方法及装置
CN113569005A (zh) * 2021-06-17 2021-10-29 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法
CN113569005B (zh) * 2021-06-17 2024-02-20 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法

Similar Documents

Publication Publication Date Title
CN109240901B (zh) 性能分析方法、性能分析装置、存储介质和电子设备
US10853357B2 (en) Extensible automatic query language generator for semantic data
AU2023203202A1 (en) Method and system for automatically extracting relevant tax terms from forms and instructions
US20100077351A1 (en) Identification of concepts in software
CN110263155B (zh) 数据分类方法、数据分类模型的训练方法及系统
US11495227B2 (en) Artificial intelligence (AI) based user query intent analyzer
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN109948164A (zh) 统计需求信息的处理方法、装置、计算机设备和存储介质
EP3945431A1 (en) Bridge from natural language processing engine to database engine
US20240078441A1 (en) Method and apparatus for knowledge representation and deduction of service logic
EP3407204A1 (en) Methods and systems for translating natural language requirements to a semantic modeling language statement
CN108550019A (zh) 一种简历筛选方法及装置
CN109542890B (zh) 数据修改方法、装置、计算机设备及存储介质
Werner A minimality constraint on grounding
US20220188512A1 (en) Maintenance of a data glossary
US11842165B2 (en) Context-based image tag translation
US11080288B2 (en) Data querying system and method
CN114064606A (zh) 数据库迁移方法、装置、设备、存储介质和系统
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN114579619B (zh) 数据查询方法、装置、电子设备及存储介质
CN113837278B (zh) 一种脏数据检测的方法和装置
CN107818134A (zh) 一种职位相似度计算方法、客户端以及服务器
CN111353288B (zh) 报表处理方法、系统、装置和计算机可读存储介质
US20220366346A1 (en) Method and apparatus for document evaluation
CN115409615A (zh) 基于账户维度进行批处理的方法、系统、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190628

WW01 Invention patent application withdrawn after publication