CN115017256A - 电力数据处理方法、装置、电子设备及存储介质 - Google Patents
电力数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115017256A CN115017256A CN202210413091.6A CN202210413091A CN115017256A CN 115017256 A CN115017256 A CN 115017256A CN 202210413091 A CN202210413091 A CN 202210413091A CN 115017256 A CN115017256 A CN 115017256A
- Authority
- CN
- China
- Prior art keywords
- power data
- data
- target
- determining
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电力系统领域,具体涉及一种电力数据处理方法、装置、电子设备及存储介质。包括:获取电力数据对应的元数据;元数据用于描述电力数据;提取元数据中的目标字段信息;对目标字段信息进行识别,确定电力数据对应的类别。上述电力数据处理方法,获取电力数据对应的元数据,而不是电力数据的明细数据,从而可以减少获取到的数据的数据量。此外,由于元数据用于描述电力数据,因此通过对电力数据的元数据中的目标字段信息进行识别,可以清楚确定电力数据的类型。因此,不仅保证了确定的电力数据的类型的准确性,并且提高了对电力数据进行处理的效率。
Description
技术领域
本发明涉及电力系统领域,具体涉及一种电力数据处理方法、装置、电子设备及存储介质。
背景技术
随着大数据时代的到来,数据的应用也日趋重要,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提。数据分类作为数据分析的关键步骤,发挥着至关重要的作用。
传统技术中,一般通过文本分类或者基于正则表达式的数据分类的方法,对数据进行分类。
上述方法通常针对通用数据进行训练得到了通用预训练模型,然后对通用数据进行分类。但是,电力专用数据库中,元数据与明细数据分开存储,明细数据中不含有对该数据的业务意义的释义,单从明细数据的内容角度上,无法对系统内数据进行含有业务意义的科学有效的分类,从而使数据的使用意义降低。此外,在电力专用数据内容繁杂,涉及专业多,可读性弱,上述分类方法并不能对电力专用数据进行有效分类,因此如何对电力数据进行处理成为了电力数据研究中亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种电力数据处理方法,旨在解决如何对电力数据进行处理的问题。
根据第一方面,本发明实施例提供了一种电力数据处理方法,包括:
获取电力数据对应的元数据;元数据用于描述电力数据;
提取元数据中的目标字段信息;
对目标字段信息进行识别,确定电力数据对应的类别。
本发明实施例提供的电力数据处理方法,获取电力数据对应的元数据;元数据用于描述电力数据,保证了元数据与电力数据的一致性。然后提取元数据中的目标字段信息,保证了提取的目标字段信息的准确性。对目标字段信息进行识别,确定电力数据对应的类别,从而可以保证确定的电力数据的类型的准确性。上述电力数据处理方法,获取电力数据对应的元数据,而不是电力数据的明细数据,从而可以减少获取到的数据的数据量。此外,由于元数据用于描述电力数据,因此通过对电力数据的元数据中的目标字段信息进行识别,可以清楚确定电力数据的类型。因此,不仅保证了确定的电力数据的类型的准确性,并且提高了对电力数据进行处理的效率。
结合第一方面,在第一方面第一实施方式中,目标字段信息包括字段类型;对目标字段信息进行识别,确定电力数据对应的类别,包括:
对字段类型进行识别,确定电力数据对应的数据类型;数据类型包括字符类、数值类以及时间日期类;
当数据类型为时间日期类时,确定电力数据对应的类别为时间类别。
本发明实施例提供的电力数据处理方法,对目标字段信息中的电力数据对应的字段类型进行识别,根据字段类型识别结果,从而可以确定电力数据对应的数据类型。当数据类型为时间日期类时,确定电力数据对应的类别为时间类别。上述方法,可以在电力数据的数据类型为时间日期类时,直接确定电力数据对应的类别为时间类别。因此,提高了对电力数据进行识别的效率。
结合第一方面,在第一方面第二实施方式中,对目标字段信息进行识别,确定电力数据对应的类别,包括:
获取至少一个目标字段信息对应的至少一个字符,生成字符组;
对字符组进行识别,确定电力数据对应的类别。
本发明实施例提供的电力数据处理方法,获取至少一个目标字段信息对应的至少一个字符,生成字符组,可以保证获取到的字符组的准确性。然后,对字符组进行识别,确定电力数据对应的类别,保证了确定的电力数据对应的类别的准确性。
结合第一方面第二实施方式,在第一方面第三实施方式中,对字符组进行识别,确定电力数据对应的类别,包括:
对字符组进行识别,删除字符组中的停用词,得到目标字符组;
对目标字符组进行识别,将识别结果与预设字符库中的字符进行对比,从目标字符组中提取关键字符;
基于关键字符,确定电力数据对应的类别。
本发明实施例提供的电力数据处理方法,对字符组进行识别,删除字符组中的停用词,得到目标字符组,从而避免了停用词对识别结果的影响,保证了确定的电力数据对应的类型的准确性。然后,对目标字符组进行识别,将识别结果与预设字符库中的字符进行对比,从目标字符组中提取关键字符,保证了提取的关键字符的准确性。然后,基于关键字符,确定电力数据对应的类别,保证了确定的电力数据对应的类别的准确性。
结合第一方面第三实施方式,在第一方面第四实施方式中,基于关键字符,确定电力数据对应的类别,包括:
基于字符与数字的预设关系,确定关键字符对应的数字,并根据关键字符对应的数字,生成目标字符组对应的目标矩阵;
对目标矩阵进行特征提取,确定电力数据对应的类别。
本发明实施例提供的电力数据处理方法,基于字符与数字的预设关系,确定关键字符对应的数字,并根据关键字符对应的数字,生成目标字符组对应的目标矩阵,保证了生成的目标矩阵的准确性。然后,对目标矩阵进行特征提取,确定电力数据对应的类别,保证了确定的电力数据对应的类别的准确性。
结合第一方面,在第一方面第五实施方式中,对目标字段信息进行识别,确定电力数据对应的类别之后,方法还包括:
基于电力数据对应的类别,对电力数据进行探查,并输出探查结果。
本发明实施例提供的电力数据处理方法,基于电力数据对应的类别,对电力数据进行探查,并输出探查结果,保证了探查结果的准确性。
结合第一方面第五实施方式,在第一方面第六实施方式中,基于电力数据对应的类别,对电力数据进行探查,并输出探查结果,包括:
基于电力数据对应的类别,确定与电力数据对应的类别对应的目标探测方法;
基于目标探测方法,对电力数据进行探查,并输出探查结果。
本发明实施例提供的电力数据处理方法,基于电力数据对应的类别,确定与电力数据对应的类别对应的目标探测方法,保证了确定的目标探查方法的准确性。然后,基于目标探测方法,对电力数据进行探查,并输出探查结果,保证了探查结果的准确性。
根据第二方面,本发明实施例还提供了一种电力数据处理装置,包括:
获取模块,用于获取电力数据对应的元数据;元数据用于描述电力数据;
提取模块,用于提取元数据中的目标字段信息;
识别模块,用于对目标字段信息进行识别,确定电力数据对应的类别。
本发明实施例提供的电力数据处理装置,获取电力数据对应的元数据;元数据用于描述电力数据,保证了元数据与电力数据的一致性。然后提取元数据中的目标字段信息,保证了提取的目标字段信息的准确性。对目标字段信息进行识别,确定电力数据对应的类别,从而可以保证确定的电力数据的类型的准确性。上述电力数据处理装置,获取电力数据对应的元数据,而不是电力数据的明细数据,从而可以减少获取到的数据的数据量。此外,由于元数据用于描述电力数据,因此通过对电力数据的元数据中的目标字段信息进行识别,可以清楚确定电力数据的类型。因此,不仅保证了确定的电力数据的类型的准确性,并且提高了对电力数据进行处理的效率。
根据第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中的电力数据处理方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行第一方面或者第一方面的任意一种实施方式中的电力数据处理方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是应用本发明实施例提供的电力数据处理方法的流程图;
图2是应用本发明实施例提供的电力数据处理方法中电力数据对应的元数据的示意图;
图3是应用本发明另一实施例提供的电力数据处理方法的流程图;
图4是应用本发明另一实施例提供的电力数据处理方法的流程图;
图5是应用本发明另一实施例提供的电力数据处理方法中预设字符库的示意图;
图6是应用本发明另一实施例提供的电力数据处理方法中第四文本分类模型的结构示意图;
图7是应用本发明另一实施例提供的电力数据处理方法的流程图;
图8是应用本发明实施例提供的电力数据处理方法中枚举类电力数据对应示意图;
图9是应用本发明实施例提供的电力数据处理装置的功能模块图;
图10是应用本发明实施例提供的电力数据处理装置的功能模块图;
图11是应用本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着大数据时代的到来,数据的应用也日趋重要,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提。数据分类作为数据分析的关键步骤,发挥着至关重要的作用。
其中,电力专用结构化数据具有数据规模庞大,内容复杂,各业务系统数据含义、用途不同,导致数据的表达形式、分类方式、存储数据类型不同。在同一个数据源的同一张数据表中,也存在着文本类数据、数值类数据、枚举类数据、时间戳数据等多种数据类型的数据。
在电力专用元数据场景中,元数据通常为结构化数据,以宽表格的形式输出,通常包括“表中文名称”、“表英文名称”、“表描述”、“字段中文名称”、“字段英文名称”、“字段描述”、“数据存储类型”等字段,描述电力专用系统内的数据内容组成,主要内容为中文文本,这些字段包含数据背后的业务意义。其中的业务意义也被称为元信息;所谓元信息,是指不能直接体现于数据内容本身,而和数据背后的业务含义相关的先验信息。
举例来说,一列表现形式为11-13位的整数列,可能代表身份证号、电话号码、地区编码、设备编码等内容、也可能代表电力专用数据中开关在某内的闭合情况(例:“010101111100”,其中“0”代表闭合状态、“1”代表断开状态)。当文本内容为身份证号、电话号码等内容,数据的位数是固定的,且存在正则表达式可以表示的规则;当文本内容为后者时,则表示具体的业务意义。故对由阿拉伯数字构成的明细数据,需要进行数值类和编码类的分类;在编码类分类下,还应分为正则可表达类与业务编码类等类型。
然而,现有技术中的数据处理方法,并不适用于对电力专用结构化数据进行处理。因此,本申请实施例提供了一种电力数据处理的方法。
需要说明的是,本申请实施例提供的电力数据处理的方法,其执行主体可以是电力数据处理的装置,该电力数据处理的装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是服务器或者终端,其中,本申请实施例中的服务器可以为一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是电子设备为例来进行说明。
在本申请一个实施例中,如图1所示,提供了一种电力数据处理方法,以该方法应用于电子设备为例进行说明,包括以下步骤:
S11、获取电力数据对应的元数据。
其中,元数据用于描述电力数据。
具体地,电子设备可以接收其他设备发送的电力数据对应的元数据,也可以接收用户输入的电力数据对应的元数据,也可以根据电力数据的标识信息在数据库中查询电力数据对应的元数据。本申请实施例对电子设备获取电力数据对应的元数据的方式不做具体限定。
示例性的,电子设备获取到的电力数据对应的元数据可以如图2所示。
S12、提取元数据中的目标字段信息。
其中,目标字段信息的数量为至少一个。
在本申请一种可选的实施方式中,电子设备可以对元数据中的内容进行识别,根据识别结果,提取元数据中的目标字段信息。
在本申请另一种可选的实施方式中,电子设备还可以获取各个字段信息对应的标识,根据各个字段信息对应的标识,提取元数据中的目标字段信息。
S13、对目标字段信息进行识别,确定电力数据对应的类别。
在一种可选的实施方式中,电子设备可以利用文本识别技术对目标字段信息进行识别,根据识别结果确定电力数据对应的类别。
在一种可选的实施方式中,电子设备还可以利用预先训练好的字段信息识别模型,对目标字段信息进行识别,然后输出电力数据对应的类别。
其中,字段信息识别模型可以是DNN(Deep Neural Networks,深度神经网络)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等,在字段信息识别模型是CNN时,其可以是V-Net模型、U-Net模型、生成式对抗网络Generative Adversarial Nets模型等。本申请实施例对字段信息识别模型不做具体限定。
其中,电力数据对应的类别可以包括:正则可识别类、文本可识别类、枚举类、数值数量类、编码类、备注描述类等。其中,正则可识别类涵盖的子类可以有:邮编、IP/MAC地址、电话号码、身份证号、时间日期、计量单位等电力数据对应的明细数据表中正则表达式方法可识别的类型;文本可识别类涵盖的子类括有:地址、人名、公司名等有规范表示方法、且有对应码值表的类型,内容是一段有固定特征的文本;枚举类涵盖的子类可以有:数字枚举类、中文枚举类,此类型参考数据存在一个固定的范围;数值数量类涵盖的子类包括:比率、百分比、计量值、金额、数值数量,其特点是具有准确性的质量要求;编码类涵盖的子类包括:生成编码类、有固定码值表长编码类、其他编码类,此类型的数据表现形式为由业务定义的编码方式决定,往往是自动生成的一串数字字符串,不存在质量问题;备注描述类涵盖的子类包括:短备注、长备注,通常可填写任意内容,不具备质量要求。
本发明实施例提供的电力数据处理方法,获取电力数据对应的元数据;元数据用于描述电力数据,保证了元数据与电力数据的一致性。然后提取元数据中的目标字段信息,保证了提取的目标字段信息的准确性。对目标字段信息进行识别,确定电力数据对应的类别,从而可以保证确定的电力数据的类型的准确性。上述电力数据处理方法,获取电力数据对应的元数据,而不是电力数据的明细数据,从而可以减少获取到的数据的数据量。此外,由于元数据用于描述电力数据,因此通过对电力数据的元数据中的目标字段信息进行识别,可以清楚确定电力数据的类型。因此,不仅保证了确定的电力数据的类型的准确性,并且提高了对电力数据进行处理的效率。
在本申请一个实施例中,如图3所示,提供了一种电力数据处理方法,以该方法应用于电子设备为例进行说明,包括以下步骤:
S21、获取电力数据对应的元数据。
其中,元数据用于描述电力数据。
关于该步骤请参见图1对S11的介绍,在此不进行赘述。
S22、提取元数据中的目标字段信息。
关于该步骤请参见图1对S12的介绍,在此不进行赘述。
S23、对目标字段信息进行,确定电力数据对应的类别。
在本申请一个可选的实施方式中,目标字段信息包括字段类型,上述S23 “对目标字段信息进行,确定电力数据对应的类别”,可以包括如下步骤:
S231、对字段类型进行识别,确定电力数据对应的数据类型。
其中,数据类型包括字符类、数值类以及时间日期类,数据类型还可以包括其他类型,本申请对数据类型不做具体限定。
在本申请一个可选的实施方式中,电子设备可以利用文本识别方法识别电力数据对应的字段类型中的内容,然后,根据识别结果确定电力数据对应的数据类型。
具体地,电子设备可以将电力数据对应的字段类型中的内容输入至第一文本识别模型,第一文本识别模型对字段类型中的内容进行特征提取,根据提取出的特征,输出电力数据对应的数据类型。
示例性的,假设电力数据对应的字段类型中的内容为Timestamp或者 Date(0),电子设备可以将Timestamp或者Date(0)输入至第一文本识别模型,第一文本识别模型对字段类型中的内容进行特征提取,根据提取出的特征,输出电力数据对应的时间日期类。
其中,第一文本识别模型可以是DNN(Deep Neural Networks,深度神经网络)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等,在第一文本识别模型是CNN时,其可以是V-Net模型、U-Net模型、生成式对抗网络Generative Adversarial Nets模型等。本申请实施例对第一文本识别模型不做具体限定。
S232、当数据类型为时间日期类时,确定电力数据对应的类别为时间类别。
具体地,当数据类型为时间日期类时,确定电力数据对应的类别为时间类别,然后,根据上述实施方式中介绍的各个类别包括的子类,确定电力数据对应的类别为正则可识别类。
本发明实施例提供的电力数据处理方法,对目标字段信息中的电力数据对应的字段类型进行识别,根据字段类型识别结果,从而可以确定电力数据对应的数据类型。当数据类型为时间日期类时,确定电力数据对应的类别为时间类别。上述方法,可以在电力数据的数据类型为时间日期类时,直接确定电力数据对应的类别为时间类别。因此,提高了对电力数据进行识别的效率。
在本申请一个实施例中,如图4所示,提供了一种电力数据处理方法,以该方法应用于电子设备为例进行说明,包括以下步骤:
S31、获取电力数据对应的元数据。
其中,元数据用于描述电力数据。
关于该步骤请参见图3对S21的介绍,在此不进行赘述。
S32、提取元数据中的目标字段信息。
关于该步骤请参见图3对S22的介绍,在此不进行赘述。
S33、对目标字段信息进行,确定电力数据对应的类别。
在本申请一个可选的实施方式中,上述S33“对目标字段信息进行,确定电力数据对应的类别”,可以包括如下步骤:
S331、获取至少一个目标字段信息对应的至少一个字符,生成字符组。
具体地,电子设备可以对至少一个目标字段信息对应的字符进行识别,从而获取至少一个目标字段信息对应的至少一个字符,生成字符组。
示例性的,目标字段信息可以包括:表描述、字段中文名称,字段描述等。举例来说,“字段中文名称”对应的字符可以为“写入时间”、“变更标识”、“读取标志”等,其中,“读取标志”等字段描述中,包含对该字段的中文释义和取值范围等信息。示例性的,0表示未读取,1表示读取成功, 2表示读取失败。
其中,字符可以是汉字,也可以是字母,本申请实施例对字符不做具体限定。各目标字段信息对应的字符数量为至少一个。
S332、对字符组进行识别,确定电力数据对应的类别。
具体地,在获取到至少一个目标字段信息对应的至少一个字符,生成字符组之后,电子设备可以对字符组中的各个字符进行识别,确定电力数据对应的类别。
在本申请一个可选的实施方式中,上述S332“对字符组进行识别,确定电力数据对应的类别”,可以包括如下步骤:
(1)、对字符组进行识别,删除字符组中的停用词,得到目标字符组。
具体地,电子设备可以利用第二文本识别模型,对字符组中的各个字符进行识别,确定字符组中的停用词,然后删除字符组中的停用词,得到目标字符组。
其中,停用词可以包括“,”、“?”、“。”、“:”等。
其中,第二文本识别模型可以是DNN(Deep Neural Networks,深度神经网络)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等,在第二文本识别模型是CNN时,其可以是V-Net模型、U-Net模型、生成式对抗网络Generative Adversarial Nets模型等。本申请实施例对第二文本识别模型不做具体限定。
(2)、对目标字符组进行识别,将识别结果与预设字符库中的字符进行对比,从目标字符组中提取关键字符。
具体地,电子设备可以将目标字符组输入至第三文本识别模型,第三文本识别模型对目标字符组中的各个字符进行识别,并输出各个字符对应的识别结果。将各个字符对应的识别结果与预设字符库中的字符进行对比,若识别结果与预设字符库中的字符匹配,则确定该字符为关键字符,从而从目标字符组中提取关键字符。
其中,第三文本识别模型可以是DNN(Deep Neural Networks,深度神经网络)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等,在第三文本识别模型是CNN时,其可以是V-Net模型、U-Net模型、生成式对抗网络Generative Adversarial Nets模型等。本申请实施例对第三文本识别模型不做具体限定。
其中,预设字符库可以是根据人工经验构造而成,且预设字符库中包括部分字符的近义词。
同时,本申请实施方式给出一种文本分类近义词训练方式。获取语料库数据集,语料库数据集里收集了绝大多数的常用的中文近义词。基于语料库数据集,使用自然语言处理中的词向量来检索到与关键字符关联程度较大的字符,通过词向量对比给定的两个字符之间的距离。当两个字符之间的距离大于预设预设距离阈值时,确定该两个字符为相近字符。
示例性的,如图5所示,为预设字符库的示意图。
(3)、基于关键字符,确定电力数据对应的类别。
在本申请一个可选的实施方式中,电子设备可以根据从目标字符组中提取的关键字符与电力数据对应的类别之间的关系,确定电力数据对应的类别。
示例性的,假设电子设备从目标字符组中提取的关键字符为“人”、“员”、“名”、“称”,则电子设备根据关键字符确定电力数据对应的类别为人名,进而确定电力数据对应的类别为文本可识别类。
在本申请另一个可选的实施方式中,上述(3)“基于关键字符,确定电力数据对应的类别”,可以包括如下步骤:
(31)、基于字符与数字的预设关系,确定关键字符对应的数字,并根据关键字符对应的数字,生成目标字符组对应的目标矩阵。
具体地,电子设备可以基于字符与数字的预设关系以及关键字符,确定与各个关键字符对应的数字,并将目标字符组中其他字符对应的数字确定为 0,从而生成目标字符组对应的目标矩阵。
(32)、对目标矩阵进行特征提取,确定电力数据对应的类别。
具体地,电子设备对目标矩阵进行特征提取,基于提取的特征确定电力数据对应的类别。
示例性的,如图6所示,为第四文本分类模型的构架图。假设目标字段信息为表描述、字段中文名称,字段描述3个。电子设备获取上述3个目标字段信息对应的字符,生成字符组。然后,对字符组进行识别,删除字符组中的停用词,并生成目标字符组。电子设备对目标字符组进行识别,获取目标字符组中的关键字符,并根据关键字符,生成维度为(3,128)的目标矩阵。电子设备将(3,128)的目标矩阵输入至第四文本分类模型,第四文本分类模型对目标矩阵进行特征识别,然后最终输出电力数据对应的类别。其中,第四文本分类模型输出的电力数据对应的类别为正则可识别类、文本可识别类、枚举类、数值数量类、编码类、备注描述类中的一类。
在本申请一种可选的实施方式中,对于数据源中接入的电力数据对应的明细数据表格,如“身份证号”、“邮编”、“性别”等常用正则表达式进行识别的数据进行标签处理,直接分入正则可识别类型,输出对应的表名、字段名、字段描述,与第四文本分类模型分类结果进行对比,用以校正第四文本分类模型的精度。
本发明实施例提供的电力数据处理方法,获取至少一个目标字段信息对应的至少一个字符,生成字符组,可以保证获取到的字符组的准确性。然后,对字符组进行识别,删除字符组中的停用词,得到目标字符组,从而避免了停用词对识别结果的影响,保证了确定的电力数据对应的类型的准确性。然后,对目标字符组进行识别,将识别结果与预设字符库中的字符进行对比,从目标字符组中提取关键字符,保证了提取的关键字符的准确性。然后,基于字符与数字的预设关系,确定关键字符对应的数字,并根据关键字符对应的数字,生成目标字符组对应的目标矩阵,保证了生成的目标矩阵的准确性。然后,对目标矩阵进行特征提取,确定电力数据对应的类别,保证了确定的电力数据对应的类别的准确性。
在本申请一个实施例中,如图7所示,提供了一种电力数据处理方法,以该方法应用于电子设备为例进行说明,包括以下步骤:
S41、获取电力数据对应的元数据。
其中,元数据用于描述电力数据。
关于该步骤请参见图4对S31的介绍,在此不进行赘述。
S42、提取元数据中的目标字段信息。
关于该步骤请参见图4对S32的介绍,在此不进行赘述。
S43、对目标字段信息进行,确定电力数据对应的类别。
关于该步骤请参见图4对S33的介绍,在此不进行赘述。
S44、基于电力数据对应的类别,对电力数据进行探查,并输出探查结果。
在本申请一个可选的实施方式中,上述S44“基于电力数据对应的类别,对电力数据进行探查,并输出探查结果”,可以包括如下步骤:
S441、基于电力数据对应的类别,确定与电力数据对应的类别对应的目标探测方法。
S442、基于目标探测方法,对电力数据进行探查,并输出探查结果。
具体地,在确定电力数据对应的类别之后,电子设备确定与电力数据对应的类别对应的目标探测方法。然后基于目标探测方法,对电力数据进行探查,并输出探查结果。
在一种可选的实施方式中,当电子设备确定电力数据对应的类型为枚举类时,电力数据对应的元数据的字段信息中对字段的填写规范进行了描述,示例性的,假设字段信息中包括“字段中文名称”和“字段描述”。其中,“字段中文名称”对应的内容为“读取标志”,“字段描述”对应的内容为“0:未读取,1:读取成功,2:读取失败”。那么电子设可以提取质量规则,基于自然语言处理将描述信息转化为该字段对应的参考数据表,参考数据表中表明0表示未读取,1表示读取成功,2表示读取失败。
具体过程可以如下:
1、在此获取枚举类电力数据对一个的目标字段信息,其中,目标字段信息可以为“字段中文名称”“字段描述”“字段类型”。
2、获取目标字段信息对应的至少一个字符,生成字符组,并在字符组中查找特征性字符,其中,特征性字符可以是“,”、“、”、“01”、“1”“是否”、“()”等字符。
3、使用字符串匹配、TextCNN、BERT等模型分类并迭代优化,输出最终列表结果。
示例性的,如图8所示,针对设备(资产)运营精益管理系统的枚举类字段“相数”和“线损”字段,应统一“字段中文名称”以及“字段描述”中对枚举类取值范围的中文描述,确立数据录入规范。
在一种可选的实施方式中,当电子设备确定电力数据对应的类型为数值数量类时,电子设备针对数值数量类数据所对应的电力数据的明细数据表可进行统计性分析,给出数值数量类数据的统计指标及分布情况。
可选的,若电力数据为连续型数据,可给出连续型电力数据数据的统计指标及数据分布情况,画出分布图像。其中,连续型电力数据的统计指标包括但不限于:均值、标准差、中位数、四分位数、四分位差、偏度、峰度、特征值域(区间)、取值总数、缺失率等指标。
可选的,若电力数据为离散型数据,给出离散型数据的统计指标特征总结。其中,离散型电力数据的统计指标包括但不限于:众数、值占比、取值总数、特征值域(数组)、缺失率等指标。
可选的,针对连续型电力数据可给出数据质量建议,例如,数值数量类中的“金额”数据,一般认为在业务意义上不存在值小于0的情况,若“金额”的明细数据分布中出现值小于0,则给出电力数据质量问题建议。
本发明实施例提供的电力数据处理方法,基于电力数据对应的类别,对电力数据进行探查,并输出探查结果,保证了探查结果的准确性。具体地,基于电力数据对应的类别,确定与电力数据对应的类别对应的目标探测方法,保证了确定的目标探查方法的准确性。然后,基于目标探测方法,对电力数据进行探查,并输出探查结果,保证了探查结果的准确性。
应该理解的是,虽然图1、图3、图4以及图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图3、图4以及图7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
如图9所示,本实施例提供一种电力数据处理装置,包括:
获取模块51,用于获取电力数据对应的元数据;元数据用于描述电力数据。
提取模块52,用于提取元数据中的目标字段信息。
识别模块53,用于对目标字段信息进行识别,确定电力数据对应的类别。
在本申请一个实施例中,目标字段信息包括字段类型,上述识别模块53,具体用于对字段类型进行识别,确定电力数据对应的数据类型;数据类型包括字符类、数值类以及时间日期类;当数据类型为时间日期类时,确定电力数据对应的类别为时间类别。
在本申请一个实施例中,上述识别模块53,具体用于获取至少一个目标字段信息对应的至少一个字符,生成字符组;对字符组进行识别,确定电力数据对应的类别。
在本申请一个实施例中,上述识别模块53,具体用于对字符组进行识别,删除字符组中的停用词,得到目标字符组;对目标字符组进行识别,将识别结果与预设字符库中的字符进行对比,从目标字符组中提取关键字符;基于关键字符,确定电力数据对应的类别。
在本申请一个实施例中,上述识别模块53,具体用于基于字符与数字的预设关系,确定关键字符对应的数字,并根据关键字符对应的数字,生成目标字符组对应的目标矩阵;对目标矩阵进行特征提取,确定电力数据对应的类别。
如图10所示,上述电力数据处理装置,还包括:
探查模块54,基于电力数据对应的类别,对电力数据进行探查,并输出探查结果。
在本申请一个实施例中,上述探查模块54,具体用于基于电力数据对应的类别,确定与电力数据对应的类别对应的目标探测方法;基于目标探测方法,对电力数据进行探查,并输出探查结果。
关于电力数据处理装置的具体限定以及有益效果可以参见上文中对于电力数据处理方法的限定,在此不再赘述。上述电力数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本发明实施例还提供一种电子设备,具有上述图9以及图10所示的电力数据处理装置。
如图11所示,图11是本发明可选实施例提供的一种电子设备的结构示意图,如图11所示,该电子设备可以包括:至少一个处理器61,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口63,存储器64,至少一个通信总线62。其中,通信总线62用于实现这些组件之间的连接通信。其中,通信接口63可以包括显示屏(Display)、键盘(Keyboard),可选通信接口 63还可以包括标准的有线接口、无线接口。存储器64可以是高速RAM存储器 (Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器64可选的还可以是至少一个位于远离前述处理器61的存储装置。其中处理器61可以结合图9或图10所描述的装置,存储器64中存储应用程序,且处理器61调用存储器64中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线62可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线62可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器64可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘 (英文:solid-state drive,缩写:SSD);存储器64还可以包括上述种类的存储器的组合。
其中,处理器61可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP 的组合。
其中,处理器61还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述 PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器64还用于存储程序指令。处理器61可以调用程序指令,实现如本申请图1、图3、图4以及图7实施例中所示的电力数据处理方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的电力数据处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种电力数据处理方法,其特征在于,包括:
获取电力数据对应的元数据;所述元数据用于描述所述电力数据;
提取所述元数据中的目标字段信息;
对所述目标字段信息进行识别,确定所述电力数据对应的类别。
2.根据权利要求1所述的方法,其特征在于,所述目标字段信息包括字段类型;所述对所述目标字段信息进行识别,确定所述电力数据对应的类别,包括:
对所述字段类型进行识别,确定所述电力数据对应的数据类型;所述数据类型包括字符类、数值类以及时间日期类;
当所述数据类型为所述时间日期类时,确定所述电力数据对应的类别为时间类别。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标字段信息进行识别,确定所述电力数据对应的类别,包括:
获取至少一个目标字段信息对应的至少一个字符,生成字符组;
对所述字符组进行识别,确定所述电力数据对应的类别。
4.根据权利要求3所述的方法,其特征在于,所述对所述字符组进行识别,确定所述电力数据对应的类别,包括:
对所述字符组进行识别,删除所述字符组中的停用词,得到目标字符组;
对所述目标字符组进行识别,将识别结果与预设字符库中的字符进行对比,从所述目标字符组中提取关键字符;
基于所述关键字符,确定所述电力数据对应的类别。
5.根据权利要求4所述的方法,其特征在于,所述基于所述关键字符,确定所述电力数据对应的类别,包括:
基于字符与数字的预设关系,确定所述关键字符对应的数字,并根据所述关键字符对应的数字,生成所述目标字符组对应的目标矩阵;
对所述目标矩阵进行特征提取,确定所述电力数据对应的类别。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标字段信息进行识别,确定所述电力数据对应的类别之后,所述方法还包括:
基于所述电力数据对应的类别,对所述电力数据进行探查,并输出探查结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述电力数据对应的类别,对所述电力数据进行探查,并输出探查结果,包括:
基于所述电力数据对应的类别,确定与所述电力数据对应的类别对应的目标探测方法;
基于所述目标探测方法,对所述电力数据进行探查,并输出探查结果。
8.一种电力数据处理装置,其特征在于,包括:
获取模块,用于获取电力数据对应的元数据;所述元数据用于描述所述电力数据;
提取模块,用于提取所述元数据中的目标字段信息;
识别模块,用于对所述目标字段信息进行识别,确定所述电力数据对应的类别。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的电力数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的电力数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413091.6A CN115017256A (zh) | 2022-04-19 | 2022-04-19 | 电力数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413091.6A CN115017256A (zh) | 2022-04-19 | 2022-04-19 | 电力数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017256A true CN115017256A (zh) | 2022-09-06 |
Family
ID=83067606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210413091.6A Pending CN115017256A (zh) | 2022-04-19 | 2022-04-19 | 电力数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017256A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304886A (zh) * | 2023-05-12 | 2023-06-23 | 江苏网进科技股份有限公司 | 一种基于机器学习的元数据智能分类方法和存储介质 |
-
2022
- 2022-04-19 CN CN202210413091.6A patent/CN115017256A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304886A (zh) * | 2023-05-12 | 2023-06-23 | 江苏网进科技股份有限公司 | 一种基于机器学习的元数据智能分类方法和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN110457302B (zh) | 一种结构化数据智能清洗方法 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN112328742A (zh) | 基于人工智能的培训方法、装置、计算机设备及存储介质 | |
CN110580308A (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN109947903B (zh) | 一种成语查询方法及装置 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN115017256A (zh) | 电力数据处理方法、装置、电子设备及存储介质 | |
CN116955856A (zh) | 信息展示方法、装置、电子设备以及存储介质 | |
CN115470861A (zh) | 数据处理方法、装置和电子设备 | |
CN115292008A (zh) | 用于分布式系统的事务处理方法、装置、设备及介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN114048211A (zh) | 数据集成方法、装置及电子设备 | |
CN112559739A (zh) | 电力设备绝缘状态数据处理方法 | |
CN115129864A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN114417866A (zh) | 文本密级判定方法、装置和电子设备 | |
CN114550157A (zh) | 弹幕聚集识别方法以及装置 | |
CN113779248A (zh) | 数据分类模型训练方法、数据处理方法及存储介质 | |
CN113705201A (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |