CN115204141A

CN115204141A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN115204141A
Application number: CN202210884271.2A
Authority: CN
Inventors: 曾文昊; 季白桦; 李奕锴
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-18

Abstract

本申请提供的数据处理方法、装置、电子设备及存储介质，电子设备获得包括预设指标标准信息和预设维度标准信息的规范统计数据，调用至少一个预设分析任务，分别对规范统计数据进行处理，并获得对应的处理结果，利用各预设分析任务对应的数据筛选模型处理所有处理结果，来确定各处理结果在所有处理结果中的有效程度，并根据有效程度获得目标处理结果，以提高用户对基于统计数据生成的指标中有效信息的获取效率。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据分析技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

近年来，随着信息化和智能化技术的逐步发展，在国家战略的指引下，国内企业纷纷开展数字化转型，通过数字化、自动化和智能化实现工作减负和效能提升。统计数据的分析与展示成为了了解企业发展过程和状况，获取重要信息的重要媒介。

现有技术中，统计数据在分析过程中，往往采用多样的、固定的分析方法对获得的统计数据进行处理，以获得对应的指标。但是，统计数据产生的相关指标过剩，基于该指标产生的统计报文也较为冗长，难以使用户捕捉到指标中的有效信息。

发明内容

本申请提供一种数据处理方法、装置、电子设备及存储介质，用以解决基于统计数据生成的指标中有效信息获取效率低的技术问题。

第一方面，本申请提供一种数据处理方法，方法包括：

获得规范统计数据；规范统计数据包括预设指标标准信息和预设维度标准信息；

调用至少一个预设分析任务，分别对规范统计数据进行处理，并获得对应的处理结果；

利用各预设分析任务对应的数据筛选模型处理所有处理结果，获得目标处理结果。

在上述技术方案中，电子设备在获得规范统计数据后，利用至少一个预设分析任务对该规范统计数据进行处理，获得处理结果后，分别利用各预设分析任务对应的数据筛选模型处理所有的处理结果，以确定各预设分析任务对应的处理结果在所有处理结果中是否有效，从而确定出所有处理结果中的目标处理结果以作为该规范统计数据的有效数据，以提高基于统计数据生成的指标中有效信息获取效率。

可选地，数据筛选模型为最小二乘支持向量模型；利用各预设分析任务对应的数据筛选模型处理所有处理数据，获得目标处理结果，具体包括：

根据所有处理结果和预设顺序，生成结果向量；预设顺序包含各预设分析任务对应的处理结果的位次信息；

利用各预设分析任务对应的最小二乘支持向量模型处理结果向量，获得目标处理结果。

可选地，利用各预设分析任务对应的最小二乘支持向量模型处理结果向量，获得目标处理结果，具体包括：

利用各预设分析任务对应的最小二乘支持向量模型处理结果向量，确定各预设分析任务对应的处理结果的显示状态；显示状态包括有效状态和无效状态；

根据处理结果的显示状态，确定处于有效状态的目标处理结果。

可选地，获得规范统计数据，具体包括：

获得原始统计数据；原始统计数据包括原始指标信息、原始维度信息和原始数据；

对原始指标信息和原始维度信息进行标准化处理，获得预设指标标准信息和预设维度标准信息；

根据预设指标标准信息、预设维度标准信息和原始数据，生成规范统计数据。

可选地，调用至少一个预设分析任务，并获得对应的处理结果，具体包括：

在分析任务映射表中查询预设指标标准信息和预设维度标准信息，获得预设指标标准信息和预设维度标准信息对应的所有预设分析任务标识；

根据各预设分析任务标识，调用对应的预设分析任务对规范统计数据进行处理，并获得对应的处理结果。

可选地，方法还包括：

获得各目标处理结果对应的话术模板；

将各目标处理结果填充至话术模板的占位符中，生成对应的分析语句；

利用语言模型处理所有分析语句，生成分析报文。

可选地，利用语言模型处理所有分析语句，生成分析报文，具体包括：

获得各分析语句之间的关联性；

根据关联性，获得至少一个报文语句集合；报文语句集合包含至少一个分析语句；

利用第一关联语言模型处理各报文语句集合，生成对应的分析子报文；

利用第二关联语言模型处理所有分析子报文，生成分析报文；

语言模型包括第一关联语言模型和第二关联语言模型。

在上述技术方案中，电子设备根据分析语句之间的关联性，利用第一关联语言模型生成包含关联内容的分析子报文，以保障各子报文的内容的可读性，降低冗余内容，再利用第二关联语言模型处理所有分析子报文，以生成分析报文，以保障基于分析语句生成的分析报文的连贯性。

第二方面，本申请提供一种数据处理装置，包括：

获取模块，用于获得规范统计数据；规范统计数据包括预设指标标准信息和预设维度标准信息；

处理模块，用于调用至少一个预设分析任务，分别对规范统计数据进行处理，并获得对应的处理结果；

处理模块还用于利用各预设分析任务对应的数据筛选模型处理所有处理结果，获得目标处理结果。

第三方面，本申请提供一种电子设备，包括：处理器以及与处理器通信连接的存储器；

存储器存储计算机执行指令；

处理器在执行计算机执行指令时用于实现第一方面涉及的数据处理方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机指令，计算机指令被处理器执行时用于实现第一方面涉及的数据处理方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请根据一示例性实施例提供的数据处理方法的流程示意图；

图2为本申请提供另一示例性实施例提供的数据处理方法的流程示意图；

图3为本申请根据一实施例提供的数据处理装置的结构示意图；

图4为本申请根据一实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请提供一种数据处理方法、装置、电子设备及存储介质，旨在解决基于统计数据生成的指标中有效信息获取效率低的技术问题。本申请的技术构思是：电子设备在获得包含预设指标标准信息和预设维度标准信息的规范统计数据后，调用预设分析任务对规范统计数据进行分析，获得对应的处理结果，利用数据筛选模型从所有处理结果中挑选出重要程度较高的处理结果，以降低可展示的处理结果的数量，从而提高用户对基于统计数据生成的指标中有效信息的获取效率。

本申请提供的数据处理方法可应用的场景为对统计数据自动分析及对应报文生成的场景，在该场景中，电子设备为执行主体，电子设备包含处理单元、输入单元、存储单元和输出单元，处理单元分别于输入单元、存储单元和输出单元连接。

电子设备对统计数据进行处理前，需要对统计数据进行获取。处理单元可通过与其连接的输入单元获得统计数据，也可从存储单元中调用统计数据。其中，统计数据的表现形式包括统计图、统计表和文本信息。统计数据中包括至少一个维度信息和至少一个指标信息。

处理单元对上述获得的统计数据进行至少一项分析操作，以获得对应的分析结果数据。处理单元利用储存在本地、已经训练好的数据筛选模型对获得的所有分析结果数据进行处理，确定目标处理结果。处理单元通过与其连接的输出单元将上述目标处理数据进行输出，以使用户能根据该目标处理数据快速确定与统计数据的有效信息，以提高对统计数据的有效信息的获取效率。

更进一步地，处理单元还可根据分析结果数据生成对应的报文，以提高数据的可读性。基于目标处理结果生成的目标报文的体量小于基于全部分析结果数据的原始报文的体量，有利于增加目标报文的可读性，促进用户从报文中获取有效信息的效率。

下面将通过图1和图2对应的实施例来具体解释本申请提出的数据处理方法的处理过程。

图1为本申请根据一示例性实施例提供的数据处理方法的流程示意图。如图1所示，该数据处理方法包括：

S101、电子设备获得规范统计数据。

规范统计数据是按照预设标准描述的统计数据。

该规范统计数据中包括预设指标标准信息和预设维度标准信息。

其中，预设指标标准信息是按照预设标准描述的指标信息，预设维度标准信息是按照预设标准描述的维度信息。

指标信息用于描述统计数据的类型，例如：增长量、转化量。

维度信息是描述对上述指标信息的属性或特征的信息。例如：地区、渠道。

在一实施例中，指标信息为指标名称，维度信息为维度名称。相对地，预设指标标准信息为按照预设规则命名的指标名称，预设维度标准信息为按照预设规则命名的维度名称。

在一实施例中，预设指标标准信息的命名规范为：产品名+时间+指标，例如：移动业务本月发展量。预设维度标准信息的命名规范为：按照预设关键字/关键词对维度变量信息的分类结果的描述，例如：将维度变量信息为“山东、上海、广东”的分类结果描述为预设关键词：“城市”。

S102、电子设备调用至少一个预设分析任务，分别对规范统计数据进行处理，并获得对应的处理结果。

预设分析任务是可对统计规范数据进行统计学处理的任务。

电子设备调用至少一个预设分析任务对规范统计数据进行分析，以获得不同的处理结果，该处理结果包括对规范统计数据的全局统计学特征和具体统计数据的分布情况。

S103、电子设备利用各预设分析任务对应的数据筛选模型处理所有处理结果，获得目标处理结果。

数据筛选模型为储存在电子设备本地的、已预先训练好的模型，该模型用于根据步骤S102获得的所有处理结果，确定各处理结果是否能有效体现规范统计数据的有效信息，从而确定该处理结果是否可展示。例如：在指标信息为“移动业务本月发展量”的规范统计数据中，以“城市”为维度分析得到的处理数据后，数据筛选模型对当前规范统计数据的所有处理结果进行分析，确定各城市的发展量的环比数据比当月全部城市的发展量的平均值更能体现概统计数据的有效信息，且平均值的相较历史数据未能发生重大变化，则该数据筛选模型确定环比数据可展示，平均值不展示。

电子设备将确定能有效体现规范统计数据的有效信息的处理结果确定为目标处理结果。

图2为本申请根据另一示例性实施例提供的数据处理方法的流程示意图。如图2所示，该数据处理方法包括：

S201、电子设备获得规范统计数据。

其中，规范统计数据已在步骤S101中详细解释，此处不再赘述。

在一实施例中，电子设备直接通过其输入单元获得的规范统计数据。

在另一实施例中，电子设备通过其输入单元获得原始统计数据，对原始统计数据中的原始指标信息和原始维度信息进行标准化处理，获得预设指标标准信息和预设维度标准信息，并根据预设指标标准信息、预设维度标准信息和原始数据，生成规范统计数据。其中，原始统计数据包括原始指标信息、原始维度信息和原始数据。

更具体地，电子设备对原始维度信息进行标准化处理时，对该原始维度信息进行关键词匹配确定原始维度信息是否按照预设规则命名，若是，将原始维度信息确定为预设维度标准信息，否则，对该原始维度信息进行语义分析以获得语义结果，并根据语义结果在规范信息映射表中确定对应的预设维度标准信息。其中，规范信息映射表表示语义信息和标准信息之间的映射关系，该标准信息为预设维度标准信息或者预设指标标准信息。

电子设备对原始指标信息进行标准化处理时，对该原始指标信息进行分词，并根据分词结果确定原始指标信息的语法结构是否正确。

若语法结构不正确，则对该原始指标信息进行语义分析，根据分析结果判断原始指标信息中是否包含预设指标标准信息的命名规范中所有的命名要素，例如：预设指标标准信息的命名规范为：产品名+时间+指标，则命名要素包括：产品名、时间、指标。若包含所有的命名要素，则电子设备根据命名规范和语义分析结果生成预设指标标准信息；若未包含所有命名要素，则请求重新获取原始统计数据，其中，基于重新获取原始统计数据的请求中包含缺失的命名要素。

若语法结构正确，再利用关键词匹配，确定各分词结果是否全部按照预设规则命名。若是，将原始指标信息确定为预设指标标准信息；若否，对分词结果进行语义分析，并按照语义结果在规范信息映射表中确定对应的预设指标标准子信息，然后电子设备按照预设指标标准信息的命名规范和预设指标标准子信息生成预设指标标准信息。

S202、电子设备调用至少一个预设分析任务，分别对规范统计数据进行处理，并获得对应的处理结果。

预设分析任务是能对规范统计数据中与维度信息和指标信息相关的数据分析的任务，该预设分析任务求取的处理结果包括但不限于：单个维度中各变量间确定的集中量数和离中量数、多个维度对应变量之交叉分析确定的集中量数和离中量数、规范统计数据中的异常值。例如：以“城市”位维度对指标“移动业务当年发展量”对应的统计数据进行分析，可获取对应的均值、方差、频数、环比、同比等处理结果，也可从“城市”和“月份”两个维度交叉遍历对上述统计数据进行分析，以获得对应的处理结果。

在一实施例中，电子设备在分析任务映射表中查询预设指标标准信息和预设维度标准信息，获得预设指标标准信息和预设维度标准信息对应的所有预设分析任务标识；根据各预设分析任务标识，调用对应的预设分析任务对规范统计数据进行处理，并获得对应的处理结果。

S203、电子设备根据所有处理结果和预设顺序，生成结果向量。

其中，预设顺序包含各预设分析任务对应的处理结果的位次信息。

结果向量表示各分析任务对应的处理结果按照位次信息生成的向量。更具体地，结果向量的维度数量和处理结果的数量相同，结果向量中各维度对应的数据的排列顺序和预设顺序相同。

在一实施例中，数据筛选模型为最小二乘支持向量(Least Squares SupportVector Machine，简称：LSSVM)模型，此处进入步骤S204。

S204、电子设备利用各预设分析任务对应的最小二乘支持向量模型处理结果向量，获得目标处理结果。

目标处理结果为最小二乘支持向量模型判断所有处理结果中，可描述规范统计数据的有效信息的处理数据信息。例如：对“移动业务当年发展量”这一指标，从维度“城市”来分析，环比的分析结果相较于均值的分级结果更有效，因此，环比结果为有效信息。

更具体地，电子设备利用LSSVM模型生成结果向量的过程包括：电子设备利用各预设分析任务对应的最小二乘支持向量模型处理结果向量，确定各预设分析任务对应的处理结果的显示状态，电子设备再根据处理结果的显示状态，确定处于有效状态的目标处理结果。其中，显示状态包括有效状态和无效状态。有效状态表示该处理结果可用于描述规范统计数据的有效信息，可进行展示；无效状态表示该处理结果不可用于描述规范统计数据的有效信息，不可进行展示。

其中，LSSVM模型为已训练好的模型，基于LSSVM模型的筛选器可以表示为：

y(x₁，x₂，...，x_n)＝(w₁(x₁，x₂，...，x_n)，w₂(x₁，x₂，...，x_n)，...，w_n(x₁，x₂，...，x_n))

其中，x₁表示第一个预设分析任务对规范统计数据处理后，获得的第一处理结果，x₂表示第二个预设分析任务对规范统计数据处理后，获得的第二处理结果，x_n表示第n个预设分析任务对规范统计数据处理后，获得的第n处理结果，(x₁，x₂，...，x_n)表示n个处理结果生成的结果向量。w₁(·)为结果向量中判断第一处理结果的显示状态的筛选器，w₂(·)为结果向量中判断第二处理结果的显示状态的筛选器，w_n(·)为结果向量中判断第n处理结果的显示状态的筛选器，y(x₁，x₂，...，x_n)表示上述各筛选器的判别结果组成的向量。

S205、电子设备获得各目标处理结果对应的话术模板，并将各目标处理结果填充至话术模板的占位符中，生成对应的分析语句。

以排名分析任务为例，对话术模板的填充进行解释：

话术模板为：“发展领先的城市：第一名<FIRST_BRANCH_NAME>(<FIRST_BRANCH_VALUE>)、第二名<SECOND_BRANCH_NAME>(<SECOND_BRANCH_VALUE>)。”

相对地，根据话术模板生成的分析语句为：“发展领先的城市：第一名广东(100)、第二名湖南(80)。”

S206、电子设备利用语言模型处理所有分析语句，生成分析报文。

语言模型为根据分析语句生成分析报文的模型，该语言模型为储存在本地、已训练好的模型。语言模型包括第一关联语言模型和第二关联语言模型。

电子设备获得各分析语句之间的关联性，根据关联性，获得至少一个报文语句集合，其中，报文语句集合包含至少一个分析语句。电子设备利用第一关联语言模型处理各报文语句集合，生成对应的分析子报文，利用第二关联语言模型处理所有分析子报文，生成分析报文。

更具体地，电子设备根据各分析语句中的目标处理数据确定各分析语句之间的关联性，并根据关联性，获得对应的报文语句集合，电子设备利用第一关联语言模型将相关性高的分析语句生成对应的子报文，并第二关联语言模型用于根据上述子报文生成分析报文。其中，第一关联语言模型用于在分析语句之间增加并列关系连词，对重复性词语进行删除，以及调整描述语序以使子报文的描述逻辑通顺。第二关联语言模型用于根据各子报文的语义在子报文之间添加关系连词。在一实施例中，第一关联语言模型和第二关联语言模型采用N-Gram模型。

电子设备根据分析语句之间的关联性，利用第一关联语言模型生成包含关联内容的分析子报文，以保障各子报文的内容的可读性，降低冗余内容，再利用第二关联语言模型处理所有分析子报文，以生成分析报文，以保障基于分析语句生成的分析报文的连贯性。

在上述技术方案中，电子设备利用最小二乘支持向量模型对基于规范统计数据分析的所有处理结果进行筛选，确定各处理结果相对于其他处理结果的重要程度，从而确定可显示的目标处理结果，并在此基础上，利用第一关联语言模型和第二关联语言模型生成逻辑清楚、语序连贯的报文，不仅有助于提高用户对有效信息的获取效率，还提高了其对报文的阅读体验。

图3为本申请根据一实施例提供的数据处理装置的结构示意图，数据处理装置300包括：

获取模块301，用于获得规范统计数据，规范统计数据包括预设指标标准信息和预设维度标准信息。

处理模块302，用于调用至少一个预设分析任务，分别对规范统计数据进行处理，并获得对应的处理结果。

处理模块302还用于利用各预设分析任务对应的数据筛选模型处理所有处理结果，获得目标处理结果。

在一实施例中，处理模块302具体用于：

利用各预设分析任务对应的最小二乘支持向量模型处理结果向量，获得目标处理结果；数据筛选模型为最小二乘支持向量模型。

在一实施例中，处理模块302具体用于：

在一实施例中，获取模块301具体用于：

在一实施例中，处理模块302具体用于：

获得各目标处理结果对应的话术模板；

利用语言模型处理所有分析语句，生成分析报文。

在一实施例中，处理模块302具体用于：

获得各分析语句之间的关联性；

语言模型包括第一关联语言模型和第二关联语言模型。

图4为本申请根据一实施例提供的电子设备的结构示意图，电子设备400包括存储器401和处理器402。

其中，存储器401用于存储处理器可执行的计算机指令。

处理器402在执行计算机指令时实现上述实施例中以电子设备为执行主体的数据处理方法中的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，上述存储器401既可以是独立的，也可以跟处理器402集成在一起。当存储器401独立设置时，该电子设备400还包括总线，用于连接存储器401和处理器402。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现上述实施例中数据处理方法中的各个步骤。

本申请实施例还提供一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现上述实施例中数据处理方法中的各个步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获得规范统计数据；所述规范统计数据包括预设指标标准信息和预设维度标准信息；

调用至少一个预设分析任务，分别对所述规范统计数据进行处理，并获得对应的处理结果；

2.根据权利要求1所述的方法，其特征在于，所述数据筛选模型为最小二乘支持向量模型；利用各预设分析任务对应的数据筛选模型处理所有处理数据，获得目标处理结果，具体包括：

根据所有处理结果和预设顺序，生成结果向量；所述预设顺序包含各所述预设分析任务对应的处理结果的位次信息；

利用各预设分析任务对应的最小二乘支持向量模型处理所述结果向量，获得目标处理结果。

3.根据权利要求2所述的方法，其特征在于，利用各预设分析任务对应的最小二乘支持向量模型处理所述结果向量，获得目标处理结果，具体包括：

利用各预设分析任务对应的最小二乘支持向量模型处理所述结果向量，确定各预设分析任务对应的处理结果的显示状态；所述显示状态包括有效状态和无效状态；

根据所述处理结果的显示状态，确定处于所述有效状态的所述目标处理结果。

4.根据权利要求1所述的方法，其特征在于，获得规范统计数据，具体包括：

获得原始统计数据；所述原始统计数据包括原始指标信息、原始维度信息和原始数据；

对所述原始指标信息和所述原始维度信息进行标准化处理，获得所述预设指标标准信息和所述预设维度标准信息；

根据所述预设指标标准信息、所述预设维度标准信息和所述原始数据，生成规范统计数据。

5.根据权利要求1所述的方法，其特征在于，调用至少一个预设分析任务，并获得对应的处理结果，具体包括：

在分析任务映射表中查询所述预设指标标准信息和所述预设维度标准信息，获得所述预设指标标准信息和所述预设维度标准信息对应的所有预设分析任务标识；

根据各所述预设分析任务标识，调用对应的预设分析任务对所述规范统计数据进行处理，并获得对应的处理结果。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得各所述目标处理结果对应的话术模板；

将各所述目标处理结果填充至所述话术模板的占位符中，生成对应的分析语句；

利用语言模型处理所有所述分析语句，生成分析报文。

7.根据权利要求6所述的方法，其特征在于，利用语言模型处理所有所述分析语句，生成分析报文，具体包括：

获得各分析语句之间的关联性；

根据所述关联性，获得至少一个报文语句集合；所述报文语句集合包含至少一个分析语句；

利用第二关联语言模型处理所有分析子报文，生成所述分析报文；

所述语言模型包括所述第一关联语言模型和所述第二关联语言模型。

8.一种数据处理装置，其特征在于，包括：

获取模块，用于获得规范统计数据；所述规范统计数据包括预设指标标准信息和预设维度标准信息；

处理模块，用于调用至少一个预设分析任务，分别对所述规范统计数据进行处理，并获得对应的处理结果；

所述处理模块还用于利用各预设分析任务对应的数据筛选模型处理所有处理结果，获得目标处理结果。

9.一种电子设备，其特征在于，包括：处理器以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器在执行所述计算机执行指令时用于实现如权利要求1至7中任意一项所述的数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器执行时用于实现如权利要求1至7中任意一项所述的数据处理方法。