CN115640311A - 数据分析方法、装置、设备、存储介质及程序产品 - Google Patents

数据分析方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115640311A
CN115640311A CN202211091240.8A CN202211091240A CN115640311A CN 115640311 A CN115640311 A CN 115640311A CN 202211091240 A CN202211091240 A CN 202211091240A CN 115640311 A CN115640311 A CN 115640311A
Authority
CN
China
Prior art keywords
text
matching
result
word segmentation
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211091240.8A
Other languages
English (en)
Inventor
韩慧珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202211091240.8A priority Critical patent/CN115640311A/zh
Publication of CN115640311A publication Critical patent/CN115640311A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请属于数据分析技术领域,具体涉及一种数据分析方法、装置、设备、存储介质及程序产品。该数据分析方法包括:通过获取用户输入的第一文本,并对第一文本进行分词处理,得到第一分词结果,第一分词结果中包括第一文本中的多个第一词汇、及每个第一词汇的第一类别。然后根据第一分词结果中第一文本中的多个词汇及每个第一词汇的第一类别,输出提示信息,使得用户根据该提示信息输入待查询文本,然后根据获取的待查询文本生成数据分析结果。本申请实施例的数据分析方法,不仅协助用户输入完整的待查询文本,提高了数据分析的灵活性,而且对于用户来说,降低了移动端BI的使用门槛。

Description

数据分析方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及数据分析技术领域,尤其涉及一种数据分析方法、装置、设备、存储介质及程序产品。
背景技术
商业智能(Business Intelligence,BI),又称为商业智慧或商务智能,是从数据中有效地提取信息,从信息中及时的发现知识,从而为决策提供支持的一种技术。移动端BI也成为了用户可以随时随地进行数据分析的工具。
用户使用移动端BI进行数据分析的流程,通常包括需求分析、数据抽取和加工、建立BI分析报表以及结果发布等。在相关技术中,用户使用移动端BI进行数据分析的流程是开发人员根据业务需求定制开发的,用户在使用时需要根据相关操作页面中设定的操作规则,输入请求信息,例如用户需要输入正确格式的查询语句,且指定数据的维度、指标等。而上述数据分析方式,对用户的数据分析专业性要求较高,复杂的操作使得用户操作的灵活性较低。
发明内容
本申请提供一种数据分析方法、装置、设备、存储介质及程序产品,用以解决相关技术中建立BI分析报表的方式,复杂的操作使得用户操作的灵活性较低的问题。
第一方面,本申请实施例提供一种数据分析方法,包括:
获取用户输入的第一文本;
对所述第一文本进行分词处理,得到第一分词结果,所述第一分词结果中包括所述第一文本中的多个第一词汇、及每个第一词汇的第一类别;
根据所述第一分词结果,输出提示信息,所述提示信息用于指示所述用户输入待查询文本;
获取所述用户根据所述提示信息输入的待查询文本,并根据所述待查询文本生成数据分析结果。
在一种可能的实施方式中,所述根据所述第一分词结果,输出提示信息,包括:
将所述第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果,所述匹配结果为匹配失败或者包括匹配得到的提示值;
根据每个第一词汇对应的匹配结果,确定所述提示信息;
输出所述提示信息。
在一种可能的实施方式中,所述预设信息包括第一信息和第二信息,所述第一信息包括多个历史高频语句和每个历史高频语句对应的频率,所述第二信息包括多个类别和每个类别对应的提示值;
所述将所述第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果,包括:
分别将每个第一词汇与所述第一信息进行匹配处理,得到每个第一词汇对应的第一匹配结果,所述第一匹配结果为匹配失败或者包括匹配得到的目标高频语句;和/或,
分别将每个第一词汇的第一类别与所述第二信息进行匹配处理,得到每个第一词汇对应的第二匹配结果,所述第二匹配结果为匹配失败或者包括匹配得到的每个第一类别对应的词汇;
其中,所述匹配结果包括所述第一匹配结果和/或所述第二匹配结果。
在一种可能的实施方式中,所述根据每个第一词汇对应的匹配结果,确定所述提示信息,包括:
若每个第一词汇对应的匹配结果均包括匹配得到的提示值,则根据每个第一词汇对应的匹配结果中的提示值确定多个目标文本,并确定所述提示信息包括所述多个目标文本;
若所述多个第一词汇中存在至少一个第二词汇的匹配结果为匹配失败,则确定所述提示信息包括所述至少一个第二词汇。
在一种可能的实施方式中,所述对所述第一文本进行分词处理,得到第一分词结果,包括:
对所述第一文本进行分词处理,得到所述多个第一词汇;
在预设分词信息中,查询每个第一词汇对应的第二类别,以得到所述第一分词结果。
在一种可能的实施方式中,所述根据所述待查询文本生成数据分析结果,包括:
对所述待查询文本进行分词处理,得到第二分词结果,所述第二分词结果中包括所述待查询文本中的多个第三词汇和每个第三词汇的类别;
根据所述第二分词结果,生成所述待查询文本对应的结构化查询语句;
根据所述结构化查询语句,查询所述待查询文本对应的数据;
对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果。
在一种可能的实施方式中,所述对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果,包括:
确定所述第二分词结果中的各个第二类别的个数;
根据所述各个第二类别的个数,确定至少一个图表类型;
基于所述至少一个图表类型,对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果。
在一种可能的实施方式中,所述基于所述至少一个图表类型,对所述待查询文本对应的数据进行可视化处理,包括:
当所述第二分词结果中包括预设类别,则根据所述预设类别在所述至少一个图表类型中确定目标图表类型;
根据所述目标图表类型对所述待查询文本对应的数据进行可视化处理。
第二方面,本申请实施例提供一种数据分析装置,包括:
获取模块,用于获取用户输入的第一文本;
第一处理模块,用于对所述第一文本进行分词处理,得到第一分词结果,所述分词结果中包括所述第一文本中的多个第一词汇、及每个第一词汇的第一类别;
输出模块,用于根据所述第一分词结果,输出提示信息,所述提示信息用于指示所述用户输入待查询文本;
第二处理模块,用于获取所述用户根据所述提示信息输入的待查询文本,并根据所述待查询文本生成数据分析结果。
在一种可能的实施方式中,所述输出模块具体用于:
将所述第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果,所述匹配结果为匹配失败或者包括匹配得到的提示值;
根据每个第一词汇对应的匹配结果,确定所述提示信息;
输出所述提示信息。
在一种可能的实施方式中,所述预设信息包括第一信息和第二信息,所述第一信息包括多个历史高频语句和每个历史高频语句对应的频率,所述第二信息包括多个类别和每个类别对应的提示值,所述输出模块还用于:
分别将每个第一词汇与所述第一信息进行匹配处理,得到每个第一词汇对应的第一匹配结果,所述第一匹配结果为匹配失败或者包括匹配得到的目标高频语句;和/或,
分别将每个第一词汇的第一类别与所述第二信息进行匹配处理,得到每个第一词汇对应的第二匹配结果,所述第二匹配结果为匹配失败或者包括匹配得到的每个第一类别对应的词汇;
其中,所述匹配结果包括所述第一匹配结果和/或所述第二匹配结果。
在一种可能的实施方式中,所述输出模块还用于:
若每个第一词汇对应的匹配结果均包括匹配得到的提示值,则根据每个第一词汇对应的匹配结果中的提示值确定多个目标文本,并确定所述提示信息包括所述多个目标文本;
若所述多个第一词汇中存在至少一个第二词汇的匹配结果为匹配失败,则确定所述提示信息包括所述至少一个第二词汇。
在一种可能的实施方式中,所述第一处理模块具体用于:
对所述第一文本进行分词处理,得到所述多个第一词汇;
在预设分词信息中,查询每个第一词汇对应的类别,以得到所述第一分词结果。
在一种可能的实施方式中,所述第二处理模块具体用于:
对所述待查询文本进行分词处理,得到第二分词结果,所述第二分词结果中包括所述待查询文本中的多个第三词汇和每个第三词汇的第二类别;
根据所述第二分词结果,生成所述待查询文本对应的结构化查询语句;
根据所述结构化查询语句,查询所述待查询文本对应的数据;
对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果。
在一种可能的实施方式中,所述第二处理模块还用于:
确定所述第二分词结果中的各个第二类别的个数;
根据所述各个第二类别的个数,确定至少一个图表类型;
基于所述至少一个图表类型,对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果。
在一种可能的实施方式中,所述第二处理模块还用于:
当所述第二分词结果中包括预设类别,则根据所述预设类别在所述至少一个图表类型中确定目标图表类型;
根据所述目标图表类型对所述待查询文本对应的数据进行可视化处理。
第三方面,本申请实施例提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的数据分析方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的数据分析方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据分析方法。
本申请提供的一种数据分析方法、装置、设备、存储介质及程序产品,通过获取用户输入的第一文本,并对第一文本进行分词处理,得到第一分词结果,然后根据第一分词结果输出提示信息,使得用户根据该提示信息输入待查询文本,然后根据获取的待查询文本生成数据分析结果。本申请实施例的数据分析方法,不仅协助用户输入完整的待查询文本,提高了数据分析的灵活性,而且对于用户来说,降低了移动端BI的使用门槛。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为移动BI的数据分析流程的示意图;
图2为本申请适用的一种应用场景的示意图;
图3为本申请实施例一提供的一种数据分析方法的流程示意图;
图4为本申请实施例二提供的另一种数据分析方法的流程示意图;
图5为本申请实施例三提供的另一种数据分析方法的流程示意图;
图6为本申请实施例四提供的一种数据分析装置的结构示意图;
图7为本申请实施例五提供的一种数据分析装置的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
移动应用的发展使得移动办公成为可能,用户可以借助手机、平板电脑等终端设备,通过移动端BI,不局限于时间和空间的限制,在任何时间和任何地点处理任何业务。
示例性的,移动BI的数据分析流程如图1所示,包括四个阶段:需求分析、数据抽取和加工、建立BI分析报表以及结果发布。
其中,需求分析101,是对用户提供的包括数据字段、统计口径、统计频率、展示形式等信息进行确认,并且可以对本次数据分析请求的重要性或者紧急程度,对本次数据分析请求安排其优先级等。
数据抽取和加工102,将需求数据从存储数据库中抽取到分析数据库,并根据需求分析中的信息,加工统计出用户需要的展示字段数据。
建立BI分析报表103,完成包括数据绑定、参数设计、样式设计、图表设计、配色优化等超文本标记语言(Hyper Text Markup Language,HTML)的设计。
结果发布104,将建立BI分析报表阶段得到的报表发布到移动端,供用户查看使用。
但是,对于上述数据分析流程,是开发人员根据业务需求定制开发的,也就是说,用户需要具备一定的专业知识,根据相关操作页面中设定的操作规则,输入请求信息,例如用户需要输入正确格式的查询语句,且指定数据的维度、指标等,导致用户在进行数据分析时,复杂的操作使得用户操作的灵活性较低。
所以,本申请提出一种数据分析方法,根据用户输入的文本信息,向用户输出提示信息,以提示用户输入完整的待查询文本,然后根据待查询文本即可生成数据分析结果,提高了数据分析的灵活性,而且对于用户来说,降低了移动端BI的使用门槛。
图2为本申请适用的一种应用场景的示意图,如图2所示,包括终端设备202和服务器202,终端设备202和服务器202之间通过互联网进行通信,用户通过终端设备202输入文本,并将该文本发送给服务器202,使得服务器202根据该文本进行处理,以完成对用户输入完整的待查询文本的提示以及根据待查询文本生成数据分析结果,并将数据分析结果发送给终端设备202,使得用户可以通过终端设备查看数据分析结果。
可以理解,终端设备202和服务器202的数量均可以为多个,图中未示出。终端设备202可以是手机、平板电脑等移动电子设备。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立存在,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图3为本申请实施例一提供的一种数据分析方法的流程示意图,该方法可以由数据分析装置执行,数据分析装置可以是图2中的服务器,以下以服务器为例进行说明,参考图3,该方法包括如下步骤。
S301、获取用户输入的第一文本。
服务器可以接收到用户通过终端设备输入的第一文本,第一文本可以是自然语言,例如“客户数量”。对于用户输入第一文本的方式,可以是用户在终端设备的输入界面键入第一文本,也可以是通过例如语音、或者通过终端设备的摄像头进行文本扫描等其他方式进行输入,本申请对此不作限制。
S302、对第一文本进行分词处理,得到第一分词结果,分词结果中包括第一文本中的多个第一词汇、及每个第一词汇的第一类别。
服务器获取到第一文本后,此时并不确定用户输入的第一文本是否为其数据分析需求所需的完整的待查询文本,例如待查询文本为“2022年的女性客户的客户数量”,第一文本可能为该待查询文本的部分文本,例如“客户数量”或者“女性客户”等,也可能为待查询文本。
那么,服务器可以对第一文本进行分词处理,得到第一分词结果,第一分词结果中包括第一文本中的多个第一词汇、及每个第一词汇的第一类别,示例性的,第一文本为“女性客户的客户数量”,那么第一词汇可以是“女性客户”、“客户数量”,第一文本为“性别”,则第一词汇可以是“性别”。
每个第一词汇对应的第一类别,可以是维度或者指标等,例如,客户数量表示一个指标,那么第一词汇“客户数量”对应的第一类别可以的指标。
服务器确定第一分词结果的方式,例如可以是:对第一文本进行分词处理,得到多个第一词汇,然后可以在预设分词信息中,查询每个第一词汇对应的类别,以得到第一分词结果。其中,分词处理的方式例如可以是:根据第一文本中助词、副词等词,将第一文本进行分词,例如第一文本为“202201的客户数量”,那么根据助词“的”进行分词,得到的多个第一词汇为:“202201”、和“客户数量”。
示例性的,预设分词信息可以是维度指标信息字典,如表1所示,表中的字段名称仅为示例:
表1
表名 类别 字段名称 字段
t 维度 机构名称 ins_nm
t 维度 性别 sex
t 指标 客户数 cst_num
S303、根据第一分词结果,输出提示信息,提示信息用于指示用户输入待查询文本。
得到第一分词结果后,服务器可以根据第一分词结果,输出提示信息,使得用户可以根据该提示信息输入待查询文本。
在一种可能的实现方式中,若用户输入的第一文本为待查询文本,则提示信息可以用于提示用户对第一文本的进行确认输入,以完成待查询文本的输入。
在另一种可能的实现方式中,若用户输入的第一文本为待查询文本的部分文本,那么提示信息中包括与第一文本相关的多个目标文本,提供给用户进行选择输入,以协助用户完成待查询文本的输入。
S304、获取用户根据提示信息输入的待查询文本,并根据待查询文本生成数据分析结果。
用户根据提示信息输入的待查询文本后,服务器可以根据获取到待查询文本生成数据分析结果。
服务器生成数据分析结果的方式,例如可以是:对待查询文本进行分词处理,以得到待查询文本对应的分词结果,并根据该分词结果生成结构化查询语句,使得服务器可以根据该结构化查询语句在数据库中查询得到对应的数据,从而实现对该数据进行可视化处理,以得到数据分析结果。
在本实施例中,通过获取用户输入的第一文本,并对第一文本进行分词处理,得到第一分词结果,然后根据第一分词结果输出提示信息,使得用户根据该提示信息输入待查询文本,然后根据获取的待查询文本生成数据分析结果。本申请实施例的数据分析方法,不仅协助用户输入完整的待查询文本,提高了数据分析的灵活性,而且对于用户来说,降低了移动端BI的使用门槛。
下面,通过实施例二对实施例一中的S303进行详细说明,即对如何根据第一分词结果输出提示信息进行详细的说明。
图4为本申请实施例二提供的另一种数据分析方法的流程示意图,该方法可以由服务器执行,参考图4,该方法包括如下步骤。
S401、将第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果。
服务器可以将第一分词结果与预设信息进行匹配处理,即分别将每个第一词汇以及每个第一词汇的第一类别与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果。
其中,预设信息可以包括第一信息和第二信息,第一信息包括多个历史高频语句和每个历史高频语句对应的频率,第二信息包括多个类别和每个类别对应的提示值,示例性的,第一信息可以是多个存储有多个历史高频语句和每个历史高频语句对应的频率的字典,如表2所示。第二信息可以是存储有多个类别和每个类别对应的提示值字典,如表3所示,表中的文本仅为示例。
具体的,服务器可以分别将第一分词结果中的每个第一词汇与预设信息中的第一信息进行匹配处理,得到每个第一词汇对应的第一匹配结果,第一匹配结果为匹配失败或者包括匹配得到的目标高频语句。
和/或,服务器还可以分别将第一分词结果中每个第一词汇对应的第一类别与预设信息中的第二信息进行匹配处理,得到每个第一词汇对应的第二匹配结果,第二匹配结果为匹配失败或者包括匹配得到的每个第一类别对应的词汇。
示例性的,例如第一词汇为“性别”,服务器将该第一词汇与第一信息中的输入语句进行匹配处理,第一信息以表2为例,得到第一词汇对应的第一匹配结果的目标高频语句可以是“各机构性别是女的客户数量”。或者,第一词汇为“客户数量”时,则第一词汇对应的第一匹配结果的目标高频语句可以是:“1月份各机构的客户数量”和“各机构性别是女的客户数量”,或者,也可以确定“1月份各机构的客户数量”和“各机构性别是女的客户数量”中频率最高的“1月份各机构的客户数量”作为第一词汇对应的第一匹配结果的目标高频语句,目标高频语句作为匹配得到的提示值
又例如,第一词汇的第一类别为“维度”,那么服务器将该第一词汇的第一类别与第二信息中的类别进行匹配处理,第二信息以表3为例,得到第一词汇对应的第二匹配结果为:“是”、“包含”和“等于”。
服务器将第一分词结果与预设信息进行匹配处理后,得到每个第一词汇对应的匹配结果包括第一匹配结果和/或第二匹配结果。
具体的,每个第一词汇对应的匹配结果有如下几种情况:
在一种可能的实现方式中,当服务器分别将每个第一词汇与预设信息中的第一信息进行匹配处理,得到的第一匹配结果作为每个第一词汇对应的匹配结果。
在另一种可能的实现方式中,当服务器将每个第一词汇对应的第一类别与预设信息中的第二信息进行匹配处理,得到的第二匹配结果作为每个第一词汇对应的匹配结果。可以理解,当N个第一词汇的第一类型相同,则N个第一词汇对应的匹配结果相同,那么在输出提示信息时,对于这N个第一词汇对应的匹配结果,可以仅输出N个第一词汇对应的匹配结果中的任意一个匹配结果,N为大于1的整数。
在另一种可能的实现方式中,当服务器分别将每个第一词汇与预设信息中的第一信息进行匹配处理,同时,还将每个第一词汇对应的第一类别与预设信息中的第二信息进行匹配处理,当第一匹配结果和第二匹配结果均不是匹配失败,那么得到的每个第一词汇对应的匹配结果中,可以包括第一匹配结果和第二匹配结果(即目标高频语句和每个第一类别对应的词汇)。当第一匹配结果和第二匹配结果中的第一匹配结果为匹配失败,则每个第一词汇对应的匹配结果包括第二匹配结果(即每个第一类别对应的词汇)。
表2
Figure BDA0003837308080000111
表3
类别 提示值
维度
维度 包含
维度 等于
指标 大于
指标 小于
包含 (条件1,条件2)
S402、根据每个第一词汇对应的匹配结果,确定提示信息。
在一种可能的实现方式中,若每个第一词汇对应的匹配结果均包括匹配得到的提示值,服务器可以根据每个第一词汇对应的匹配结果中的提示值确定多个目标文本,并确定提示信息包括多个目标文本。用户可以根据需求,在多个提示值中选择所需的目标文本。
在另一种可能的实现方式中,若多个第一词汇中存在至少一个第二词汇的匹配结果为匹配失败,则服务器可以确定提示信息中包括至少一个第二词汇。
具体的,提示信息中包括的至少一个第二词汇可以进行高亮处理,使得用户可以根据该提示信息确定高亮处理的词汇为匹配失败的词汇,以实现对第二词汇的修改,修改操作包括更改或删除等操作。
在又一种可能的实现方式中,若多个第一词汇中存在至少一个第二词汇的匹配结果为匹配失败,服务器可以将至少一个第二词汇与第三信息进行匹配处理,示例性的,第三信息可以是包括多个字段名称的字典,服务器可以将至少一个第二词汇与表4中的字段名称进行匹配处理,如表4所示,表中的文本仅为示例。
若第二词汇与第三信息中的某个字段名称的部分文本匹配失败,则确定提示信息中包括每个第二词汇相关的提示词,例如,第二词汇为“机构”,则第二文本与表4中的字段名称“机构名称”仅部分匹配成功,即第二词汇与字段名称“机构名称”的“名称”匹配失败,则确定提示信息包括的第二词汇相关的提示词为“名称”,即未匹配成功的部分文本,以提示用户可以根据该提示词进行输入。
若第二词汇与第三信息中的各个字段名称的均匹配失败,或者,第二词汇与第三信息中的某个字段名称的均匹配成功,则不做任何处理,即服务器可以确定提示信息中包括至少一个第二词汇。
表4
表名 字段名称 字段
t 机构名称 ins_nm
t 性别 sex
t 客户数量 cst_num
S403、输出提示信息。
确定提示信息后,服务器可以将提示信息进行输出,示例性的,服务器可以将提示信息发送给终端设备,使得终端设备可以在相应的显示界面,显示该提示信息,以提示用户根据该提示信息输入待查询文本。
在本实施例中,服务器将第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果,并根据每个第一词汇对应的匹配结果,确定提示信息,使得用户可以根据提示信息输入待查询文本,进一步提高了数据分析的灵活性。
在一种可能的实现方式中,上述匹配处理,可以基于文本匹配算法,进行文本匹配,例如长短期记忆(Long Short-Term Memory,LSTM)算法。
具体的,以LSTM算法为例,将第一文本转换为第一语义向量,将预设信息中的文本转换为多个第二语义向量,计算第一语义向量与每个第二语义向量的相似度,并使用负指数函数归一化得相似度分数。可以确定相似度分数最高的至少一个第二语义向量对应的文本为匹配结果。示例性的,相似度可以用曼哈顿距离表示。
在另一种可能的实现方式中,上述匹配处理,可以是直接基于第一文本为查询条件,在预设信息中进行查询,查询到第一文本则表示匹配成功,查询失败则表示匹配失败。
进一步的,通过实施例三对实施例一中S304进行详细说明,即对根据待查询文本生成数据分析结果进行详细说明。
图5为本申请实施例三提供的另一种数据分析方法的流程示意图,该方法可以由服务器执行,参考图5,该方法包括如下步骤。
S501、对待查询文本进行分词处理,得到第二分词结果,第二分词结果中包括待查询文本中的多个第三词汇和每个第三词汇的类别。
服务器获取到待查询文本后,可以对待查询文本进行分词处理,得到第二分词结果。
具体的,服务器可以对待查询文本进行分词处理,得到多个第二词汇,然后在预设分词信息中,查询每个第二词汇对应的类别,以得到第二分词结果,示例性的,预设分词信息可以参考表1。
S502、根据第二分词结果,生成待查询文本对应的结构化查询语句。
服务器可以根据第二分词结果,生成待查询文本对应的结构化查询语句,服务器可以确定结构化查询语言(Structure Query Language,SQL)语句的组装逻辑。
示例性的,组装逻辑为:
[A]获取的待查询文本对应的表名t
[B]维度
[C]指标
[D]关键词对应的SQL语法
[E]范围对应查询条件
那么,组装SQL语句可以包括:SELECT[B],sum([C])FROM[A]WHERE[D][E]GROUP BY[B]。
示例性的,关键词对应的SQL语法可以参考表5,表中的文本仅为示例:
表5
关键词名称 语法规则
包含 in
小于 <
大于 >
例如,待查询文本为“202201的性别是女的客户数量”,那么,待查询文本对应的表可以为客户数据统计表t,可以理解,用于进行匹配处理的预设信息可以是根据客户数据统计表t生成的。
待查询文本的第二分词结果为:
多个第二词汇:“202201”、“性别”、“是”、“女”、“客户数量”。
多个第二词汇对应的多个第二类别:“202201”对应的类别为维度,“性别”对应的类别为维度,“女”对应的类别为性别范围,“客户数量”对应的类别为指标,其中,“是”为关键词。
那么,该待查询文本对应的SQL查询语句可以是:
SELECT t.sex,sum(t.cst_num)FROM t WHERE t.date=‘202201’AND t.sex=‘女’GROUP BY t.sex。
S503、根据结构化查询语句,查询待查询文本对应的数据。
确定结构化查询语句后,服务器可以根据结构化查询语句,在客户数据统计表t所在的数据库中,查询待查询文本对应的数据。
S504、对待查询文本对应的数据进行可视化处理,得到数据分析结果。
服务器可以对待查询文本对应的数据进行可视化处理,具体的,服务器可以确定第二分词结果中的各个第二类别的个数,并根据各个第二类别的个数,确定至少一个图表类型。
然后基于至少一个图表类型,对待查询文本对应的数据进行可视化处理,得到数据分析结果。具体的,当第二分词结果中包括预设类别,则根据预设类别在至少一个图表类型中确定目标图表类型,然后服务器根据目标图表类型对待查询文本对应的数据进行可视化处理。
示例性的,各个第二类别的个数与图表类型的对应关系如表6所示:
表6
Figure BDA0003837308080000151
示例性的,预设类别对应的图表类型如表7所示:
表7
Figure BDA0003837308080000152
在本实施例中,服务器通过对待查询文本进行分词处理,得到第二分词结果,然后根据第二分词结果,生成待查询文本对应的结构化查询语句,并根据结构化查询语句,查询待查询文本对应的数据,然后对待查询文本对应的数据进行可视化处理,得到数据分析结果,不再需要用户输入结构化查询语句,提高了数据分析的灵活性,对于用户来说,降低了移动端BI的使用门槛。
图6为本申请实施例四提供的一种数据分析装置的结构示意图。该装置60包括:获取模块601,第一处理模块602、输出模块603和第二处理模块604。其中,
获取模块601,用于获取用户输入的第一文本;
第一处理模块602,用于对第一文本进行分词处理,得到第一分词结果,分词结果中包括第一文本中的多个第一词汇、及每个第一词汇的第一类别。
输出模块603,用于根据第一分词结果,输出提示信息,提示信息用于指示用户输入待查询文本。
第二处理模块604,用于获取用户根据提示信息输入的待查询文本,并根据待查询文本生成数据分析结果。
在一种可能的实施方式中,输出模块603具体用于:
将第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果,匹配结果为匹配失败或者包括匹配得到的提示值。
根据每个第一词汇对应的匹配结果,确定提示信息。
输出提示信息。
在一种可能的实施方式中,预设信息包括第一信息和第二信息,第一信息包括多个历史高频语句和每个历史高频语句对应的频率,第二信息包括多个类别和每个类别对应的提示值,输出模块603还用于:
分别将每个第一词汇与第一信息进行匹配处理,得到每个第一词汇对应的第一匹配结果,第一匹配结果为匹配失败或者包括匹配得到的目标高频语句。和/或,
分别将每个第一词汇的第一类别与第二信息进行匹配处理,得到每个第一词汇对应的第二匹配结果,第二匹配结果为匹配失败或者包括匹配得到的每个第一类别对应的词汇。
其中,匹配结果包括第一匹配结果和/或第二匹配结果。
在一种可能的实施方式中,输出模块603还用于:
若每个第一词汇对应的匹配结果均包括匹配得到的提示值,则根据每个第一词汇对应的匹配结果中的提示值确定多个目标文本,并确定提示信息包括多个目标文本。
若多个第一词汇中存在至少一个第二词汇的匹配结果为匹配失败,则确定提示信息包括至少一个第二词汇。
在一种可能的实施方式中,第一处理模块602具体用于:
对第一文本进行分词处理,得到多个第一词汇。
在预设分词信息中,查询每个第一词汇对应的类别,以得到第一分词结果。
在一种可能的实施方式中,第二处理模块604具体用于:
对待查询文本进行分词处理,得到第二分词结果,第二分词结果中包括待查询文本中的多个第三词汇和每个第三词汇的第二类别。
根据第二分词结果,生成待查询文本对应的结构化查询语句。
根据结构化查询语句,查询待查询文本对应的数据。
对待查询文本对应的数据进行可视化处理,得到数据分析结果。
在一种可能的实施方式中,第二处理模块604还用于:
确定第二分词结果中的各个第二类别的个数。
根据各个第二类别的个数,确定至少一个图表类型。
基于至少一个图表类型,对待查询文本对应的数据进行可视化处理,得到数据分析结果。
在一种可能的实施方式中,第二处理模块604还用于:
当第二分词结果中包括预设类别,则根据预设类别在至少一个图表类型中确定目标图表类型。
根据目标图表类型对待查询文本对应的数据进行可视化处理。
本实施例的装置,可用于执行上述方法实施例的技术方案,具体实现方式和技术效果类似,这里不再赘述。
图7为本申请实施例五提供的一种电子设备的结构示意图,如图7所示,电子设备70可以包括:至少一个处理器701和存储器702。
存储器702,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器702可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-volatile Memory),例如至少一个磁盘存储器。
处理器701用于执行存储器702存储的计算机执行指令,以实现前述方法实施例所描述的方法。其中,处理器701可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,电子设备70还可以包括:通信接口703。在具体实现上,如果通信接口703、存储器702和处理器701独立实现,则通信接口703、存储器702和处理器701可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口703、存储器702和处理器701集成在一块芯片上实现,则通信接口703、存储器702和处理器701可以通过内部接口完成通信。
电子设备70可以是服务器等。
本实施例的电子设备,可用于执行上述方法实施例所示的技术方案,具体实现方式和技术效果类似,这里不再赘述。
本申请实施例六提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、RAM、磁盘或者光盘等各种可以存储计算机程序的介质,具体的,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时用于实现上述方法实施例所示的技术方案,具体实现方式和技术效果类似,这里不再赘述。
本发明实施例七提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,实现如上述方法实施例所示的技术方案,具体实现方式和技术效果类似,这里不再赘述。
本申请的技术方案中,所涉及的用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (12)

1.一种数据分析方法,其特征在于,包括:
获取用户输入的第一文本;
对所述第一文本进行分词处理,得到第一分词结果,所述第一分词结果中包括所述第一文本中的多个第一词汇、及每个第一词汇的第一类别;
根据所述第一分词结果,输出提示信息,所述提示信息用于指示所述用户输入待查询文本;
获取所述用户根据所述提示信息输入的待查询文本,并根据所述待查询文本生成数据分析结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词结果,输出提示信息,包括:
将所述第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果,所述匹配结果为匹配失败或者包括匹配得到的提示值;
根据每个第一词汇对应的匹配结果,确定所述提示信息;
输出所述提示信息。
3.根据权利要求2所述的方法,其特征在于,所述预设信息包括第一信息和第二信息,所述第一信息包括多个历史高频语句和每个历史高频语句对应的频率,所述第二信息包括多个类别和每个类别对应的提示值;
所述将所述第一分词结果与预设信息进行匹配处理,得到每个第一词汇对应的匹配结果,包括:
分别将每个第一词汇与所述第一信息进行匹配处理,得到每个第一词汇对应的第一匹配结果,所述第一匹配结果为匹配失败或者包括匹配得到的目标高频语句;和/或,
分别将每个第一词汇的第一类别与所述第二信息进行匹配处理,得到每个第一词汇对应的第二匹配结果,所述第二匹配结果为匹配失败或者包括匹配得到的每个第一类别对应的词汇;
其中,所述匹配结果包括所述第一匹配结果和/或所述第二匹配结果。
4.根据权利要求2或3所述的方法,其特征在于,所述根据每个第一词汇对应的匹配结果,确定所述提示信息,包括:
若每个第一词汇对应的匹配结果均包括匹配得到的提示值,则根据每个第一词汇对应的匹配结果中的提示值确定多个目标文本,并确定所述提示信息包括所述多个目标文本;
若所述多个第一词汇中存在至少一个第二词汇的匹配结果为匹配失败,则确定所述提示信息包括所述至少一个第二词汇。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一文本进行分词处理,得到第一分词结果,包括:
对所述第一文本进行分词处理,得到所述多个第一词汇;
在预设分词信息中,查询每个第一词汇对应的类别,以得到所述第一分词结果。
6.根据权利要求1或5所述的方法,其特征在于,所述根据所述待查询文本生成数据分析结果,包括:
对所述待查询文本进行分词处理,得到第二分词结果,所述第二分词结果中包括所述待查询文本中的多个第三词汇和每个第三词汇的第二类别;
根据所述第二分词结果,生成所述待查询文本对应的结构化查询语句;
根据所述结构化查询语句,查询所述待查询文本对应的数据;
对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果。
7.根据权利要求6所述的方法,其特征在于,所述对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果,包括:
确定所述第二分词结果中的各个第二类别的个数;
根据所述各个第二类别的个数,确定至少一个图表类型;
基于所述至少一个图表类型,对所述待查询文本对应的数据进行可视化处理,得到所述数据分析结果。
8.根据权利要求7所述的方法,其特征在于,所述基于所述至少一个图表类型,对所述待查询文本对应的数据进行可视化处理,包括:
当所述第二分词结果中包括预设类别,则根据所述预设类别在所述至少一个图表类型中确定目标图表类型;
根据所述目标图表类型对所述待查询文本对应的数据进行可视化处理。
9.一种数据分析装置,其特征在于,包括:
获取模块,用于获取用户输入的第一文本;
第一处理模块,用于对所述第一文本进行分词处理,得到第一分词结果,所述第一分词结果中包括所述第一文本中的多个第一词汇、及每个第一词汇的第一类别;
输出模块,用于根据所述第一分词结果,输出提示信息,所述提示信息用于指示所述用户输入待查询文本;
第二处理模块,用于获取所述用户根据所述提示信息输入的待查询文本,并根据所述待查询文本生成数据分析结果。
10.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-8中任一项所述的数据分析方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的数据分析方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的数据分析方法。
CN202211091240.8A 2022-09-07 2022-09-07 数据分析方法、装置、设备、存储介质及程序产品 Pending CN115640311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211091240.8A CN115640311A (zh) 2022-09-07 2022-09-07 数据分析方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211091240.8A CN115640311A (zh) 2022-09-07 2022-09-07 数据分析方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN115640311A true CN115640311A (zh) 2023-01-24

Family

ID=84942630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211091240.8A Pending CN115640311A (zh) 2022-09-07 2022-09-07 数据分析方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115640311A (zh)

Similar Documents

Publication Publication Date Title
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
US8949264B2 (en) Disambiguating associations
US20180268038A1 (en) Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searches
TWI643076B (zh) 金融非結構化文本分析系統及其方法
CN110245240A (zh) 一种问题数据答案的确定方法及装置
CN113495900A (zh) 基于自然语言的结构化查询语言语句获取方法及装置
US20220391426A1 (en) Multi-system-based intelligent question answering method and apparatus, and device
KR20190059084A (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN111611813B (zh) 文档翻译方法、装置、电子设备及存储介质
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
CN109977235B (zh) 一种触发词的确定方法和装置
CN109783612B (zh) 报表数据定位方法及装置、存储介质、终端
CN115640311A (zh) 数据分析方法、装置、设备、存储介质及程序产品
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
CN115759014A (zh) 一种动态智能化分析方法、系统及电子设备
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
WO2021135103A1 (zh) 一种语义分析方法、装置、计算机设备及存储介质
US20110270874A1 (en) Apparatus and method for searching information
CN113434653A (zh) 处理查询语句的方法、装置、设备及存储介质
CN111242508A (zh) 一种基于自然语言处理的客服质量评价方法和装置及设备
CN117390170B (zh) 数据标准的对标方法、装置、电子设备和可读存储介质
CN112182177A (zh) 一种用户问题处理方法、装置、电子设备及存储介质
CN112733492B (zh) 基于知识库的辅助设计方法、装置、终端和存储介质
CN111967227B (zh) 协同修改说明书的方法、装置、设备及存储介质
CN113407813B (zh) 确定候选信息的方法、确定查询结果的方法、装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination