CN111898961B - 一种适用于同类电力设备台账数据相同字段的查错方法 - Google Patents

一种适用于同类电力设备台账数据相同字段的查错方法 Download PDF

Info

Publication number
CN111898961B
CN111898961B CN202010457987.5A CN202010457987A CN111898961B CN 111898961 B CN111898961 B CN 111898961B CN 202010457987 A CN202010457987 A CN 202010457987A CN 111898961 B CN111898961 B CN 111898961B
Authority
CN
China
Prior art keywords
data
ledger data
ledger
data set
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010457987.5A
Other languages
English (en)
Other versions
CN111898961A (zh
Inventor
张豪
陈满
巩宇
彭煜民
代雄
杨铭轩
邱小波
姚明亮
于亚雄
赵增涛
佘俊
贺儒飞
高彦明
向正林
李建秋
李德华
郭献彬
王晓翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peak and Frequency Regulation Power Generation Co of China Southern Power Grid Co Ltd
Original Assignee
Peak and Frequency Regulation Power Generation Co of China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peak and Frequency Regulation Power Generation Co of China Southern Power Grid Co Ltd filed Critical Peak and Frequency Regulation Power Generation Co of China Southern Power Grid Co Ltd
Priority to CN202010457987.5A priority Critical patent/CN111898961B/zh
Publication of CN111898961A publication Critical patent/CN111898961A/zh
Application granted granted Critical
Publication of CN111898961B publication Critical patent/CN111898961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种适用于同类电力设备台账数据相同字段的查错方法,为同类台账数据相同字段提供有效快速查错方法,获知潜在互为备品的信息和台账数据质量情况。具体步骤如下:首先从获取相同功能位置类型或同品类等同类台账数据集合V 1;接着对同类数据集合V 1的相同字段的数值取唯一值,获得数据集T 1;然后以数据集合T 1的数据元为匹配词,依次在数据集合T 1进行匹配,并获得匹配度的打分矩阵Z;然后从打分矩阵中获取分数在阈值区间的元素的位置,即获得存在数据质量的台账数据。最后对潜在互为备品或存在数据质量的台账数据进行检查性维护。解决了电力设备台账数据字段众多,同类设备相同字段纠错复杂困难的难题。

Description

一种适用于同类电力设备台账数据相同字段的查错方法
技术领域
本发明涉及电气设备技术信息领域,具体涉及一种适用于同类电力设备台账数据相同字段的查错方法。
背景技术
电力设备台账数据在电力生产中有着极其重要的工程意义,承载着电力系统业务的规格型号等参数数据,功能位置类型等功能数据,品类、价值等资金财务数据。此外电力生产各业务均以电力设备台账数据为核心进行汇聚,是各电力设备全生命周期内各项业务的纽带。提高电力设备台账数据的数据质量,对于提高电力企业信息化水平有着重要的意义。
过去关于电力设备台账数据的纠错方法仅有检查是否为空,检查是否含有乱码的方法,这些方法虽然在一定程度上可以提高台账数据的数据质量,由于尚无同类电力设备台账数据相同字段的查错方法,现已成为制约电力设备台账数据数据质量的进一步完善提升的瓶颈。
发明内容
本发明提供一种适用于同类电力设备台账数据相同字段的查错方法,联系电力生产业务特点,通过电力设备的功能位置类型等字段找到可能的同类电力设备,再利用搜索打分的原理,横向比较依次匹配打分,最后根据分数进行潜在互为备品和存在数据质量的识别,并判断是否进行检查性维护,为识别潜在互为备品的信息和台账数据质量情况提供了智能化的工程手段。
一种适用于同类电力设备台账数据相同字段的查错方法,包括以下步骤:
(1.1)从台账数据中获取同类台账数据集合V;
(1.2)从同类数据集合V中获取相同字段的唯一值,获得数据集T;
(1.3)依次以数据集合T的数据为匹配词,在数据集合T进行匹配,根据匹配程度打分,并形成打分矩阵Z;
(1.4)从打分矩阵中获取每一行分数在阈值区间δ的元素的位置,获得台账数据集合Q,台账数据集合Q即为潜在互为备品或存在数据质量的台账数据;
(1.5)对潜在互为备品或存在数据质量的台账数据进行检查性维护。
上述方法中,所述电力设备台账数据至少包括以下字段。
(2.1)设备台账数据ID;
(2.2)设备品类;
(2.3)设备型号;
(2.4)生产厂家;
(2.5)技术参数;
(2.6)功能位置类型;
(2.7)设备运维部门。
上述方法中,所述从台账数据中获取同类台账数据集合V,由以下步骤获得:
(3.1)对台账数据功能位置类型字段内的数据取唯一值,获得数据集合G,G=[g1,g2,……gn],n为集合G内元素的个数;
(3.2)设j=1,j表示第j类功能位置类型的设备集合;
(3.3)遍历台账数据,找到台账数据功能位置类型字段与gj相同的台账数据后,将台账数据ID存至Vj,Vj代表相同功能位置类型的采用台账数据表达的设备对象的集合;
(3.4)j的值加1后,若j≤n,返回到第(3.3)步,若j>n,则同类台账数据集合V=[V1,V2,……Vn],n为集合G内元素的个数。
上述方法中,步骤(3.1)和(3.3)所述台账数据功能位置类型字段可更换为台账数据的设备品类字段或生产厂家字段。
上述方法中,步骤(1.2)所述从同类台账数据集合V中获取相同字段的唯一值,获得数据集T,所述字段与步骤(1.1)同类台账数据中的字段不相同,具体由以下步骤获得:
(4.1)设i=1;
(4.2)按序号依次从数据集合V中获取同类数据集合V中的台账数据Pi,并对台账数据Pi的设备型号字段内的数据取唯一值,获得数据集合Xi,Xi=[xi1,xi2,……xim],m为集合Xi内元素的个数,i代表从同类数据集合V中获取的第i个同类数据;
(4.3)设k=1,k代表第i类功能位置类型的台账数据表示的设备集合中第k类设备型号的设备集合;
(4.4)遍历台账数据Pi,找到台账数据Pi中设备型号字段与xik相同的台账数据后,将台账数据ID存至Tik,Tik代表第i类功能位置类型的台账数据表示的设备集合中第k类设备型号的设备集合;
(4.5)k的值加1后,若k≤m,返回到第(4.4)步,若k>m,则第i个同类台账数据集合Ti=[Ti1,Ti2,……Tim],m为数据集合Xi内元素的个数;
(4.6)i的值加1后,若i≤h,返回到第(4.2)步,若j>h,则数据集T=[T1,T2,……Th]T,h为数据集T内元素的行数。
上述方法中,步骤(4.2)和(4.4)所述台账数据设备型号字段可更换为台账数据中步骤(3.1)和(3.3)所述字段以外的任一字段。
上述方法中,所述依次以数据集合T的数据为匹配词,在数据集合T进行匹配,根据匹配程度打分,并形成打分矩阵Z由以下步骤获得:
(5.1)设i=1,i为第i类功能位置类型的台账数据表示的设备集合;
(5.2)从数据集T中获取台账数据集合Ti
(5.3)设u=1,u为第i个同类数据的第u个检索词;
(5.4)从台账数据集合Ti中获取检索词,即tmp_pipei=Tiu,Tiu表示第i个同类数据的u个检索词,用tmp_pipei在台账数据集合Ti中匹配,获得e-1个匹配程度的分值,存到Ziu中,e为集合Ti内元素的个数;
(5.5)u的值加1后,若u≤e,返回到第(5.4)步,若u>e,则第i个同类台账数据集合Ti的打分矩阵Zi=[Zi1,Zi2,……Zie],e为集合Ti内元素的个数;
(5.6)i的值加1后,若i≤h,返回到第(5.2)步,若i>h,则数据集T的打分矩阵Z=[Z1,Z2,……Zh]T,h为集合T的行数。
上述方法中,所述根据匹配程度打分由以下步骤获得:
利用常规的搜索原理,通过匹配词tmp_pipei在台账数据集合Ti中匹配时,匹配词占匹配对象的比例即为根据匹配程度打分得到的分值。
上述方法中,所述从打分矩阵中获取每一行分数在阈值区间δ的元素的位置,获得台账数据集合Q由以下步骤获得:
(6.1)设i=1,i为第i类功能位置类型的台账数据表示的设备集合;
(6.2)从打分矩阵Z中获取分值集合Zi
(6.3)设u'=1,u'代表第i类功能位置类型的设备集合中的第u个检索词获得的相似度;
(6.4)从分值集合Zi=[Zi1,Zi2,……Ziw]中获取Ziu'中落在阈值区间δ的分值,并把分值的下标存到tmp_weizhi中,w为集合Zi内元素的个数;
(6.5)j的值加1后,若u'≤w,返回到第(6.4)步,若u'>w,则对tmp_weizhi取唯一值,获得数组k,第i个同类台账数据的台账数据集合Qi=k;
(6.6)i的值加1后,若i≤p,返回到第(6.2)步,若i>p,则台账数据集合Q=[Q1,Q2,……Qp]T,p为分值集合Zi的行数。
上述方法中,阈值区间δ是50~85%。
上述方法中,对潜在互为备品或存在数据质量的台账数据进行检查性维护为对设备品类、设备型号、生产厂家、技术参数、功能位置类型、历史更换维修记录、设备图片的内容进行复核。
(9.1)对于确互为备品,则在台账数据的标签字段中增加互为备品台账数据的ID信息;
(9.2)对于确非互为备品的情况,则判断为存在数据质量的台账数据,对差异字段进行核实后更正。
与现有技术相比,本发明填补了工程界的空白,具有以下技术效果:
(1)本发明提供了根据电力设备台账数据的功能位置类型、品类、生产厂家字段,找到可能同类的台账数据集合,再根据搜索匹配原理,识别潜在互为备品或存在数据质量的方法,使得同类电力设备台账数据相同字段查错可以通过计算机自动实现。
(2)本发明解决了电力设备台账数据字段众多,同类设备相同字段纠错复杂困难的难题,从电力专业应用和电力专业用户角度,围绕电力设备台账数据,结合电力生产实践梳理,给出识别同类设备的关键的字段,并组合形成电力设备台账数据的相同字段纠错的关键专业技术,保证了纠错方法的全面性和专业性。
(3)本发明通过标准化方法提供了适用于同类电力设备台账数据相同字段的查错方法,通过本发明实现了以电力设备台账数据为业务核心的专业纠错和检查性维护,使得专业用户在与数据的维护过程中,电力设备台账数据纠错自趋智能,提高电力设备台账数据的数据质量,保证了电力设备各业务效能。
(4)本发明还结合工程经验,全面考虑同类设备的可能组合以及相同字段出错的模式,对同类电力设备台账数据相同字段的查错方法进行标准化,使得长期依赖于人工处理的繁琐工作得以实现自动检测和控制,并为电力设备台账数据数据质量的错误率控制在较低水平做出了重要贡献。为识别潜在互为备品的信息和台账数据质量情况提供了智能化的工程手段。
附图说明
图1为本实施例中一种适用于同类电力设备台账数据相同字段的查错方法的流程图。
具体实施方式
以下结合附图和实例对本发明的具体实施作进一步说明,但本发明的实施和保护不限于此。需指出的是,以下若有未特别详细说明之过程,均是本领域技术人员可参照现有技术实现或理解的。
以下对某公司台账数据为例进行说明。
结合图1流程,一种适用于同类电力设备台账数据相同字段的查错方法包括以下步骤:
(1.1)从台账数据中获取同类台账数据集合V,台账数据至少包括以下字段:设备台账数据ID;设备品类;设备型号;生产厂家;技术参数;功能位置类型;设备运维部门。
本实施例的电力设备台账数据的用户信息字段如下表1所示。
表1电力设备台账数据
(1)对台账数据功能位置类型字段内的数据取唯一值,获得数据集合G,G=[g1,g2,……gn],n为集合G内元素的个数,本实施例中,g1=“厂用变”、g2=“照明变”,n=2,在其他实施例中可以将功能位置类型字段替换为台账数据的设备品类字段或生产厂家字段。
(2)设j=1,j表示第j类功能位置类型的设备集合;
(3)遍历台账数据,找到台账数据功能位置类型字段(该字段需要与上面(1)中的字段保持一致,当(1)中的字段替换后,此处的字段也相应进行替换)与gj相同的台账数据后,将台账数据ID存至Vj,Vj代表相同功能位置类型的采用台账数据表达的设备对象的集合;
(4)j的值加1后,若j≤n,返回到第(3)步,若j>n,则同类台账数据集合V=[V1,V2,……Vn],n为集合G内元素的个数,数据集合V如表2所示。
表2数据集合V
同类台账数据集合 台账数据ID
V1 A0000B11、A0000B20、A0000B31、A0000B32
V2 A0000B33
(1.2)从同类数据集合V中获取相同字段的唯一值,获得数据集T,所述字段与步骤(1.1)同类台账数据中的字段不相同,本实施例中本步骤的字段为设备型号。
(1)设i=1;
(2)按序号依次从数据集合V中获取同类台账数据集合V中的台账数据Pi,并对台账数据Pi的设备型号字段内的数据取唯一值,获得数据集合Xi,Xi=[xi1,xi2,……xim],m为集合X内元素的个数,i代表从同类数据集合V中获取的第i个同类数据,本实施例中本步骤采用设备型号字段,在其他实施例中可以替换为其他字段,但替换后的字段需不同于前述步骤1.1中所采用的字段;
x11=“SCB10-1250/10”、x12=“SG-630/10”、x13=“SG-650/10”,x21=“SG-200/10”
(3)设k=1,k代表第i类功能位置类型的台账数据表示的设备集合中的第k类设备型号;
(4)遍历台账数据Pi,找到台账数据Pi设备型号字段与xij相同的台账数据后,将台账数据ID存至Tik,Tik代表第i类功能位置类型的台账数据表示的设备集合中第k类设备型号的设备集合;
(5))k的值加1后,若k≤m,返回到第(4.4)步,若k>m,则第i个同类台账数据集合Ti=[Ti1,Ti2,……Tim],m为数据集合Xi内元素的个数;
(6)i的值加1后,若i≤h,返回到第(4.2)步,若j>h,则数据集T=[T1,T2,……Th]T,h为数据集T内元素的行数。如表3所示。
表3数据集T
数据集 台账数据ID
T1 (A0000B11)、(A0000B20、A0000B31)、(A0000B32)
T2 (A0000B33)
(1.3)依次以数据集T的数据为匹配词,在数据集T进行匹配,根据匹配程度打分,并形成打分矩阵Z,如表4所示。
(1)设i=1,i为第i类功能位置类型的台账数据表示的设备集合;
(2)从数据集T中获取台账数据集合Ti
(3)设u=1,u为第i个同类数据的第u个检索词;
(4)从台账数据集合Ti中获取检索词,即tmp_pipei=Tiu,Tiu表示第i个同类数据的u个检索词,用tmp_pipei在台账数据集合Ti中匹配,获得e-1个匹配程度的分值,存到Ziu中,e为集合Ti内元素的个数;
(5)u的值加1后,若u≤e,返回到第(5.4)步,若u>e,则第i个同类台账数据集合Ti的打分矩阵Zi=[Zi1,Zi2,……Zie],e为集合Ti内元素的个数;
(6)i的值加1后,若i≤h,返回到第(5.2)步,若i>h,则数据集T的打分矩阵Z=[Z1,Z2,……Zh]T,h为集合T的行数。
具体地,利用常规的搜索原理,通过匹配词tmp_pipei在台账数据集合Ti中匹配时,匹配词占匹配对象的比例即为根据匹配程度打分得到的分值。搜索原理即文本匹配方法,具体为:首先获取两个需要比较相似性的字符串,构造两个长度和对应字符串的字符数量相同的数组并赋予初始值,然后遍历其中较长的一个字符串中的字符,根据字符在另一个较短的字符串中存在与否调整较长字符串对应权重数组中各个字符的权重,最后用这两个权重数组按特定的方法进行计算,得到最终的相似性计算结果。
表4同类台账数据集合T的打分矩阵Z
(1.4)从打分矩阵中获取每一行分数在阈值区间δ的元素的位置,获得台账数据集合Q,台账数据集合Q即为潜在互为备品或存在数据质量的台账数据,阈值区间δ是50~85%。
(1)设i=1,i为第i类功能位置类型的台账数据表示的设备集合;
(2)根据文本匹配方法从打分矩阵Z中获取分值集合Zi
(3)设u'=1,u'代表第i类功能位置类型的设备集合中的第u个检索词获得的相似度;
(4)从分值集合Zi=[Zi1,Zi2,……Zim]中获取Ziu'中落在阈值区间δ的分值,并把分值的下标存到tmp_weizhi中,m为集合Zi内元素的个数;
(5)u'的值加1后,若u'≤w,返回到第(6.4)步,若u'>w,则对tmp_weizhi取唯一值,获得数组k,第i个同类台账数据的台账数据集合Qi=k,如表5所示。
(6)i的值加1后,若i≤p,返回到第(6.2)步,若i>p,则台账数据集合Q=[Q1,Q2,……Qp]T,p为分值集合Zi的行数。
表5台账数据集合Q
同类台账数据集合 台账数据ID
Q1 A0000B20、A0000B31、A0000B32
(1.5)对潜在互为备品或存在数据质量的台账数据进行检查性维护。进行的检查性维护是指对设备品类、设备型号、生产厂家、技术参数、功能位置类型、历史更换维修记录、设备图片的内容进行复核,具体包括:
对于确互为备品,则在台账数据的标签字段中增加互为备品台账数据的ID信息;
对于确非互为备品的情况,则判断为存在数据质量的台账数据,对差异字段进行核实后更正。
结论:
可见,本发明提供一种适用于同类电力设备台账数据相同字段的查错方法,解决了电力设备台账数据字段众多,同类设备相同字段纠错复杂困难的难题,从电力专业应用和电力专业用户角度,围绕电力设备台账数据,结合电力生产实践梳理,给出识别同类设备的关键的字段,并组合形成电力设备台账数据的相同字段纠错的关键专业技术,保证了纠错方法的全面性和专业性。并使得同类电力设备台账数据相同字段查错可以通过计算机自动实现。还通过标准化方法提供了适用于同类电力设备台账数据相同字段的查错方法,通过本专利实现了以电力设备台账数据为业务核心的专业纠错和检查性维护,使得专业用户在与数据的维护过程中,电力设备台账数据纠错自趋智能,提高电力设备台账数据的数据质量,保证了电力设备各业务效能。

Claims (8)

1.一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,包括以下步骤:
(1.1)从台账数据中获取同类台账数据集合V;
(1.2)从同类台账数据集合V中获取相同字段的唯一值,获得数据集T,所述字段与步骤(1.1)同类台账数据中的字段不相同,具体由以下步骤获得:
(4.1)设i=1;
(4.2)从同类台账数据集合V中获取同类台账数据集合V中的台账数据Pi,并对台账数据Pi的设备型号字段内的数据取唯一值,获得数据集合Xi,Xi=[xi1,xi2,……xim],m为集合Xi内元素的个数,i代表从同类台账数据集合V中获取的第i个同类台账数据;
(4.3)设k=1,k代表第i’类功能位置类型的台账数据表示的设备集合中的第k类设备型号;
(4.4)遍历台账数据Pi,找到台账数据Pi中设备型号字段与xik相同的台账数据后,将台账数据ID存至Ti’k,Ti’k代表第i’类功能位置类型的台账数据表示的设备集合中第k类设备型号的设备集合;
(4.5)k的值加1后,若k≤m,返回到第(4.4)步,若k>m,则第i个同类台账数据Ti=[Ti1,Ti2,……Tim],m为数据集合Xi内元素的个数;
(4.6)i的值加1后,若i≤h,返回到第(4.2)步,若i>h,则数据集T=[T1,T2,……Th]T,h为数据集T内元素的行数;
(1.3)依次以数据集T的数据为匹配词,在数据集T进行匹配,根据匹配程度打分,并形成打分矩阵Z;所述依次以数据集T的数据为匹配词,在数据集T进行匹配,根据匹配程度打分,并形成打分矩阵Z,具体由以下步骤获得:
(5.1)设i’=1,i’为第i’类功能位置类型的台账数据表示的设备集合;
(5.2)从数据集T中获取台账数据集合Ti’
(5.3)设u=1,u为第i个同类数据的第u个检索词;
(5.4)从台账数据集合Ti’中获取检索词,即tmp_pipei=Ti’u,Ti’u表示第i’个同类数据的u个检索词,用tmp_pipei在台账数据集合Ti’中匹配,获得e-1个匹配程度的分值,存到Zi’u中,e为集合Ti’内元素的个数;
(5.5)u的值加1后,若u≤e,返回到第(5.4)步,若u>e,则第i个同类台账数据集合Ti的打分矩阵Zi=[Zi1,Zi2,……Zie];
(5.6)i’的值加1后,若i’≤h,返回到第(5.2)步,若i>h,则数据集T的打分矩阵Z=[Z1,Z2,……Zh]T,h为集合T内元素的行数;
(1.4)从打分矩阵中获取每一行分数在阈值区间δ的元素的位置,获得新台账数据集合Q,新台账数据集合Q即为潜在互为备品或存在数据质量的台账数据;所述从打分矩阵中获取每一行分数在阈值区间δ的元素的位置,获得新台账数据集合Q,具体由以下步骤获得:
(6.1)设i’=1,i’为第i’类功能位置类型的台账数据表示的设备集合;
(6.2)从打分矩阵Z中获取分值集合Zi’
(6.3)设u'=1,u'代表第i’类功能位置类型的设备集合中的第u个检索词获得的相似度;
(6.4)从分值集合Zi’=[Zi’1,Zi’2,……Zi’w]中获取Zi’u'中落在阈值区间δ的分值,并把分值的下标存到tmp_weizhi中,w为集合Zi内元素的个数;
(6.5)u'的值加1后,若u'≤w,返回到第(6.4)步,若u'>w,则对tmp_weizhi取唯一值,获得数组k’,第i个同类台账数据的台账数据集合Qi=k’;
(6.6)i’的值加1后,若i’≤p,返回到第(6.2)步,若i’>p,则新台账数据集合Q=[Q1,Q2,……Qp]T,p为分值集合Zi’的行数;
(1.5)对潜在互为备品或存在数据质量的台账数据进行检查性维护。
2.根据权利要求1所述的一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,所述台账数据至少包括以下字段:
(2.1)设备台账数据ID;
(2.2)设备品类;
(2.3)设备型号;
(2.4)生产厂家;
(2.5)技术参数;
(2.6)功能位置类型;
(2.7)设备运维部门。
3.根据权利要求1所述的一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,步骤(1.1)所述从台账数据中获取同类台账数据集合V,具体由以下步骤获得:
(3.1)对台账数据功能位置类型字段内的数据取唯一值,获得数据集合G,G=[g1,g2,……gn],n为集合G内元素的个数;
(3.2)设j=1,j表示第j类功能位置类型的设备集合;
(3.3)遍历台账数据,找到台账数据功能位置类型字段与gj相同的台账数据后,将台账数据ID存至Vj,Vj代表相同功能位置类型的采用台账数据表达的设备对象的集合;
(3.4)j的值加1后,若j≤n,返回到第(3.3)步,若j>n,则同类台账数据集合V=[V1,V2,……Vn],n为集合G内元素的个数。
4.根据权利要求3所述的一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,步骤(3.1)和(3.3)所述台账数据功能位置类型字段更换为台账数据的设备品类字段或生产厂家字段。
5.根据权利要求1所述的一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,其特征在于,步骤(4.2)和(4.4)台账数据设备型号字段更换为台账数据中步骤(3.1)和(3.3)所述字段以外的任一字段。
6.根据权利要求1所述的一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,所述根据匹配程度打分为,
通过匹配词tmp_pipei在台账数据集合Ti中匹配时,匹配词占匹配对象的比例即为根据匹配程度打分得到的分值。
7.根据权利要求1所述的一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,步骤(1.4)所述的阈值区间δ是50%~85%。
8.根据权利要求1所述的一种适用于同类电力设备台账数据相同字段的查错方法,其特征在于,步骤(1.5)所述的对潜在互为备品或存在数据质量的台账数据进行检查性维护为,对设备品类、设备型号、生产厂家、技术参数、功能位置类型、历史更换维修记录、设备图片的内容进行复核:
(9.1)对于确互为备品,则在台账数据的标签字段中增加互为备品台账数据的ID信息;
(9.2)对于确非互为备品的情况,则判断为存在数据质量的台账数据,对差异字段进行核实后更正。
CN202010457987.5A 2020-05-26 2020-05-26 一种适用于同类电力设备台账数据相同字段的查错方法 Active CN111898961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457987.5A CN111898961B (zh) 2020-05-26 2020-05-26 一种适用于同类电力设备台账数据相同字段的查错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457987.5A CN111898961B (zh) 2020-05-26 2020-05-26 一种适用于同类电力设备台账数据相同字段的查错方法

Publications (2)

Publication Number Publication Date
CN111898961A CN111898961A (zh) 2020-11-06
CN111898961B true CN111898961B (zh) 2024-03-15

Family

ID=73207588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457987.5A Active CN111898961B (zh) 2020-05-26 2020-05-26 一种适用于同类电力设备台账数据相同字段的查错方法

Country Status (1)

Country Link
CN (1) CN111898961B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591068B (zh) * 2021-08-03 2023-07-21 北京奇艺世纪科技有限公司 一种在线登录设备管理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426125A (zh) * 2013-08-05 2013-12-04 国家电网公司 生产管理系统变压器台账智能核查系统
CN105678646A (zh) * 2016-03-24 2016-06-15 国网辽宁省电力有限公司电力科学研究院 生产管理系统配网设备台账智能核查系统
CN110866150A (zh) * 2019-10-31 2020-03-06 南方电网调峰调频发电有限公司 一种快速生成台账数据图谱及预控设备家族缺陷的检修方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120135877A1 (en) * 2010-11-03 2012-05-31 Jarrard David F DNA Methylation Markers For Prostate Cancer Field Defect

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426125A (zh) * 2013-08-05 2013-12-04 国家电网公司 生产管理系统变压器台账智能核查系统
CN105678646A (zh) * 2016-03-24 2016-06-15 国网辽宁省电力有限公司电力科学研究院 生产管理系统配网设备台账智能核查系统
CN110866150A (zh) * 2019-10-31 2020-03-06 南方电网调峰调频发电有限公司 一种快速生成台账数据图谱及预控设备家族缺陷的检修方法

Also Published As

Publication number Publication date
CN111898961A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
US8190556B2 (en) Intellegent data search engine
CN110910243A (zh) 一种基于可重构大数据知识图谱技术的产权交易方法
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
WO2019196210A1 (zh) 数据分析方法、计算机可读存储介质、终端设备及装置
EP2616960A2 (en) Method and arrangement for handling data sets, data processing program and computer program product
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN108563773A (zh) 基于知识图谱的法律条文精准搜索排序方法
US11537905B2 (en) Inference-based assignment of data type to data
JP2006309446A (ja) 分類辞書更新装置、分類辞書更新プログラムおよび分類辞書更新方法
CN113837886B (zh) 一种基于知识图谱的车险理赔欺诈风险识别方法和系统
CN111898961B (zh) 一种适用于同类电力设备台账数据相同字段的查错方法
CN111143370B (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
CN113641653A (zh) 一种基于国产达梦数据库的历史数据迁移方法及系统
CN107908739A (zh) 动态语法解析方法及其解析系统
CN115982329A (zh) 一种工程施工方案编制依据的智能生成方法及系统
CN112115230B (zh) 一种基于层次类别信息的知识图谱构建方法
CN111461815B (zh) 订单识别模型生成方法、识别方法、系统、设备和介质
CN117290404A (zh) 一种主配网故障处理方法快速检索实用方法及系统
CN112613741A (zh) 一种空间数据质检结果人工复核记录自动继承方法、电子设备、存储介质
CN114462736A (zh) 一种核电厂辐射工作许可证申请的经验反馈智能推荐方法
CN108615124B (zh) 基于词频分析的企业评价方法及系统
CN113569005B (zh) 一种基于数据内容的大规模数据特征智能化提取方法
CN112015916B (zh) 知识图谱的补全方法、装置、服务器和计算机存储介质
CN115860697B (zh) 一种基于智能识别的自动化数据管理系统
CN113139106B (zh) 一种保密检查的事件审核方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant