CN110197197A - 一种基于文本相似度改进的电网档案相似度计算方法 - Google Patents

一种基于文本相似度改进的电网档案相似度计算方法 Download PDF

Info

Publication number
CN110197197A
CN110197197A CN201910301144.3A CN201910301144A CN110197197A CN 110197197 A CN110197197 A CN 110197197A CN 201910301144 A CN201910301144 A CN 201910301144A CN 110197197 A CN110197197 A CN 110197197A
Authority
CN
China
Prior art keywords
similarity
attribute
text
numerical value
archives
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910301144.3A
Other languages
English (en)
Other versions
CN110197197B (zh
Inventor
孔庆波
吴漾
纪元
杨箴
吴忠
王玮
罗念华
王鹏宇
周玲
曾路
郭仁超
龙娜
缪新萍
田钺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN201910301144.3A priority Critical patent/CN110197197B/zh
Publication of CN110197197A publication Critical patent/CN110197197A/zh
Application granted granted Critical
Publication of CN110197197B publication Critical patent/CN110197197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本相似度改进的电网档案相似度计算方法,属于文件管理技术领域。该方法包括以下步骤:S1:属性分类及相似度定义;S2:定义全属性综合相似度;S3:同义词转换;S4:获得文本相对相似度。本发明利用系统间的共有属性的数据,快速、简单、有效地得到电网档案中文本的相似度,更有利于对电网档案的管理。

Description

一种基于文本相似度改进的电网档案相似度计算方法
技术领域
本发明属于文件管理技术领域,涉及一种基于文本相似度改进的电网档案相似度计算方法。
背景技术
在电网的多个系统中,站线变户档案会存在多套,但数据一致性却极差,在很多时候我们需要对档案进行比对,核定其是否为同一个对象。比较两个人是否为同一个人,我们会采用诸如姓名、年龄、性别、身高、体重、地址等多个属性来进行综合判断。同样,对于电网档案我们会采用系统间的共有属性的数据是否相同或者相似来进行综合判断。但是,目前没有一种可靠有效的办法快速得到判断的结果。
发明内容
有鉴于此,本发明的目的在于提供一种基于文本相似度改进的电网档案相似度计算方法。
为达到上述目的,本发明提供如下技术方案:
一种基于文本相似度改进的电网档案相似度计算方法,该方法包括以下步骤:
S1:属性分类及相似度定义;
S2:定义全属性综合相似度;
S3:同义词转换;
S4:获得文本相对相似度。
进一步,所述步骤S1具体为:
S11:类别属性相似度定义
类别属性表示该属性所属类别,其中的数据内容能够枚举,每一个枚举值代表一个类别;
由于每个类别值代表的含义不同,那么类别属性的相似度定义为:若类别相同,则属性相似度为1;若类别不同,则属性相似度为0;
S12:数值属性相似度定义
数值属性是用来量化一个属性的大小和范围的,其中的数据内容无法枚举,但能够定量描述的;
由于数值属性的值无法预测,采用数值之间的绝对值差异来判断2个数据的相似度大小,数值属性的相似度定义为:
MIN(||数值1|,|数值2||)/MAX(|数值1|,|数值2|)
其中,|数值1|表示数值1的绝对值,MAX(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最大的那个,MIN(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最小的那个;
相似度范围为0-1,若数值1与数值2相等,则相似度为1;若数值1与数值2中有一个为0,另一个不为0,则相似度为0;
S13:文本属性相似度定义
编辑距离定义:指两个字串之间,由一个转成另一个所需的最少编辑操作次数;
许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;编辑距离越小,两个串的相似度越大;
在编辑距离中,删除和插入算1次操作,替换算2次操作;
操作具有可逆性,删除对应插入,替换对应替换,A文本转换成B文本的编辑距离与B文本转换成A的编辑距离相等;
文本相似度包括2种形式:
公式一:AB文本相似度=1-AB编辑距离/MAX(A长度,B长度)
其中,若A文本为’黑石’,B文本为’黑山’,则AB编辑距离为2,A长度为2,B长度为2,AB文本相似度则为0;
公式二:AB文本相似度=1-AB类编辑距离/(A长度+B长度)
其中,若A文本为’黑石’,B文本为’黑山’,则AB编辑距离为2,A长度为2,B长度为2,AB文本相似度则为0.5;
在电网档案比较中选择公式二作为文本相似度的度量算法;
S14:时间属性相似度定义
时间属性存放的是日期和时间戳类数据,此类属性的相似度定义为:若日期和时间完全相同则为1,否则为0;
采用时间的比对只精确到日期,即若日期相同则为1,否则为0。
进一步,所述步骤S2具体为:
基于站线变户的档案模型,各系统档案的属性不是单一的,而是由多个属性构成的;全属性的构成是营销、GIS和生产系统对象共有的属性,共性属性有对比价值,差异属性无对比价值,需要对给系统的站线变户档案的属性进行梳理和权重设定,用于计算两个对象之间的全属性综合相似度;
全属性综合相似度=属性1权重*属性1相似度+属性2权重*属性2相似度+......+属性N权重*属性N相似度;
赋权方式采用专家打分法、AHP层次分析法或熵值法,权重分配考虑属性值的重要性、离散程度以及缺失值的占比;
属性越重要,权重越高;
属性离散程度越高,权重分配越高;
缺失值越多,权重分配越低。
进一步,所述步骤S3具体为:
在处理文本属性相似度之前需要考虑到同义词转换,优化计算过程,通过同义词转换,提升整体运算准确率。
进一步,所述步骤S4具体为:
相对相似度定义为原始相似度/理论最大相似度;
对象综合相似度,即改进后的文本相似度=0.5*原始相似度+0.5*相对相似度。
本发明的有益效果在于:本发明利用系统间的共有属性的数据,快速、简单、有效地得到电网档案中文本的相似度,更有利于对电网档案的管理。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明流程原理图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
1、属性分类及相似度定义
基于属性的数据形式,大体可以划分为类别属性、数值属性、文本属性和时间属性,基于不同的属性,可以定义不同的相似度。
1.1类别属性相似度
类别属性表示该属性所属类别,其中的数据内容是可以枚举的,例如属性电压等级其值的定义是可以由220KV、110KV、35KV、10KV等进行枚举的。此类属性的每一个枚举值代表了一个类别。
由于每个类别值代表的含义不同,那么类别属性的相似度定义为:类别相同,则属性相似度为1;类别不同,则属性相似度为0。
1.2数值属性相似度
数值属性一般是用来量化一个属性的大小、范围等,其中的数据内容是无法枚举,但可以定量描述的。例如属性导线长度,其数据内容是无法枚举的,但是可以用数值来量化其大小。
由于数值属性的值无法预测,采用数值之间的绝对值差异来判断2个数据的相似度大小,数值属性的相似度定义为:MIN(||数值1|,|数值2||)/MAX(|数值1|,|数值2|),这里的|数值1|表示数值1的绝对值,MAX(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最大的那个,MIN(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最小的那个。相似度范围为0-1,如果数值1与数值2相等,则相似度为1;如果数值1与数值2中有一个为0,另一个不为0,则相似度为0。之所以采用绝对值,主要考虑避免负号运算带来相似度计算结果不可控。
以导线长度为例,如果实体1的导线长度为100,实体2的导线长度为104,那么2个实体的导线长度相似度为:MIN(|100|,|104|)/MAX(|100|,|104|)=100/104。
1.3文本属性相似度
编辑距离定义:指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。例如’ab’与’ac’的编辑距离为1,操作方式为替换,将b替换为c。
类编辑距离,与编辑距离相似。在编辑距离中,删除、插入算1次操作,替换算2次操作。例如’ab’与’ac’的编辑距离为2,操作方式为替换,将b替换为c。
由于操作具有可逆性,删除对应插入,替换对应替换,那么A文本转换成B文本的编辑距离与B文本转换成A的编辑距离相等。
文本相似度通常有2种形式。
公式一:AB文本相似度=1-AB编辑距离/MAX(A长度,B长度)
对于此公式,如果A文本为’黑石’,B文本为’黑山’,那么AB编辑距离为2,A长度为2,B长度为2,AB文本相似度则为0。
公式二:AB文本相似度=1-AB类编辑距离/(A长度+B长度)
对于此公式,如果A文本为’黑石’,B文本为’黑山’,那么AB编辑距离为2,A长度为2,B长度为2,AB文本相似度则为0.5。
在电网档案比较中通常选择公式二:AB文本相似度=1-AB类编辑距离/(A长度+B长度)作为文本相似度的度量算法。
1.4时间属性相似度
时间属性存放的是日期、时间戳类数据,此类属性的相似度定义为如果两者完全相同则为1,否则为0,与类别属性的相似度相近。
考虑到多个系统的时间不可能完全一致,采用时间的比对只精确到日期,即日期相同则为1,否则为0。
2、全属性综合相似度
基于站线变户的档案模型,各系统档案的属性不是单一的,而是由多个属性构成的。全属性的构成是营销、GIS和生产系统对象共有的属性,共性属性有对比价值,差异属性无对比价值,需要对给系统的站线变户档案的属性进行梳理和权重设定,用于计算两个对象之间的全属性综合相似度。
全属性综合相似度=属性1权重*属性1相似度+属性2权重*属性2相似度+......+属性N权重*属性N相似度。
赋权方式可以采用专家打分法、AHP层次分析法或熵值法等,权重分配可参考属性值的重要性、离散程度以及缺失值的占比。
属性越重要,权重越高。例如用户的名称,一般来说重名概率相对较低,在相同名称的情况下认为是同一个用户的可能性非常高,作为一个重要的属性,该属性的权重分配应该较高。
属性离散程度越高,权重分配越高。例如电压等级的取值相对离散,有220KV、110KV、35KV、20KV、10KV、0.4KV等等,如果数据相同那么说明他们是同一对象的可能性会比较高;而对于变电站运行状态,取值范围主要为运行、暂停、拆除等,离散程度相对较低,相同运行状态的变电站太多,即使状态相同也只有很小概率说明2个变电站是同一个对象,相应的权重要低。
缺失值越多,权重分配越低。不同系统中同一属性的取值如果均是空值,不能说明2者相似度是100%,有可能是缺失导致,如果对象的某个属性空值太多,说明该属性的可比性差,需要降低该属性的相似度权重。
3、改进方案
由于类别属性、数值属性和时间属性相对比较简单。重点对于文本属性的相似度进行改进,以贴合电网档案比对业务。
3.1同义词转换
在处理文本属性相似度之前需要考虑到同义词转换,优化计算过程,通过同义词转换,提升整体运算准确率。如变电站名称由于各业务系统命名规范不一致,出现“变电站”、“站”、“变”、”变站”、”电站”等后缀,都代表变电站,在计算文本相似度之前需要对文本数据统一处理为”变电站”。在文本比较之前将同义词进行统一转换,避免降低同一对象的相似度。
3.2文本相对相似度
在电网档案比对中会出现形如文本A:“玉客城茅-屏山公园门球场专变”、文本B:“屏山公园门球场”在不同的系统中存放。从人眼判断,这2个文本是几乎描述的是同一个对象,但基于文本相似度公式得到的文本相似度只有66.67%。
由于长度为14的字符与长度为7的字符串能得到的理论最大文本相似度是66.67%,所以需要进行修正,计算相对相似度。相对相似度可定义为原始相似度/理论最大相似度,对于上面的案例来说理论最大相似度为66.67%,所以相对相似度为100%。
考虑到可能出现误判,那么最终改进后的文本相似度=0.5*原始相似度+0.5*相对相似度。
最终总体的计算实现过程如图1所示。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (5)

1.一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:该方法包括以下步骤:
S1:属性分类及相似度定义;
S2:定义全属性综合相似度;
S3:同义词转换;
S4:获得文本相对相似度。
2.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:所述步骤S1具体为:
S11:类别属性相似度定义
类别属性表示该属性所属类别,其中的数据内容能够枚举,每一个枚举值代表一个类别;
由于每个类别值代表的含义不同,那么类别属性的相似度定义为:若类别相同,则属性相似度为1;若类别不同,则属性相似度为0;
S12:数值属性相似度定义
数值属性是用来量化一个属性的大小和范围的,其中的数据内容无法枚举,但能够定量描述的;
由于数值属性的值无法预测,采用数值之间的绝对值差异来判断2个数据的相似度大小,数值属性的相似度定义为:
MIN(||数值1|,|数值2||)/MAX(|数值1|,|数值2|)
其中,|数值1|表示数值1的绝对值,MAX(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最大的那个,MIN(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最小的那个;
相似度范围为0-1,若数值1与数值2相等,则相似度为1;若数值1与数值2中有一个为0,另一个不为0,则相似度为0;
S13:文本属性相似度定义
编辑距离定义:指两个字串之间,由一个转成另一个所需的最少编辑操作次数;
许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;编辑距离越小,两个串的相似度越大;
在编辑距离中,删除和插入算1次操作,替换算2次操作;
操作具有可逆性,删除对应插入,替换对应替换,A文本转换成B文本的编辑距离与B文本转换成A的编辑距离相等;
文本相似度包括2种形式:
公式一:AB文本相似度=1-AB编辑距离/MAX(A长度,B长度)
其中,若A文本为’黑石’,B文本为’黑山’,则AB编辑距离为2,A长度为2,B长度为2,AB文本相似度则为0;
公式二:AB文本相似度=1-AB类编辑距离/(A长度+B长度)
其中,若A文本为’黑石’,B文本为’黑山’,则AB编辑距离为2,A长度为2,B长度为2,AB文本相似度则为0.5;
在电网档案比较中选择公式二作为文本相似度的度量算法;
S14:时间属性相似度定义
时间属性存放的是日期和时间戳类数据,此类属性的相似度定义为:若日期和时间完全相同则为1,否则为0;
采用时间的比对只精确到日期,即若日期相同则为1,否则为0。
3.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:所述步骤S2具体为:
基于站线变户的档案模型,各系统档案的属性不是单一的,而是由多个属性构成的;全属性的构成是营销、GIS和生产系统对象共有的属性,共性属性有对比价值,差异属性无对比价值,需要对给系统的站线变户档案的属性进行梳理和权重设定,用于计算两个对象之间的全属性综合相似度;
全属性综合相似度=属性1权重*属性1相似度+属性2权重*属性2相似度+......+属性N权重*属性N相似度;
赋权方式采用专家打分法、AHP层次分析法或熵值法,权重分配考虑属性值的重要性、离散程度以及缺失值的占比;
属性越重要,权重越高;
属性离散程度越高,权重分配越高;
缺失值越多,权重分配越低。
4.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:所述步骤S3具体为:
在处理文本属性相似度之前需要考虑到同义词转换,优化计算过程,通过同义词转换,提升整体运算准确率。
5.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:所述步骤S4具体为:
相对相似度定义为原始相似度/理论最大相似度;
对象综合相似度,即改进后的文本相似度=0.5*原始相似度+0.5*相对相似度。
CN201910301144.3A 2019-04-15 2019-04-15 一种基于文本相似度改进的电网档案相似度计算方法 Active CN110197197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910301144.3A CN110197197B (zh) 2019-04-15 2019-04-15 一种基于文本相似度改进的电网档案相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910301144.3A CN110197197B (zh) 2019-04-15 2019-04-15 一种基于文本相似度改进的电网档案相似度计算方法

Publications (2)

Publication Number Publication Date
CN110197197A true CN110197197A (zh) 2019-09-03
CN110197197B CN110197197B (zh) 2022-08-30

Family

ID=67751967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910301144.3A Active CN110197197B (zh) 2019-04-15 2019-04-15 一种基于文本相似度改进的电网档案相似度计算方法

Country Status (1)

Country Link
CN (1) CN110197197B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632953A (zh) * 2020-12-22 2021-04-09 云汉芯城(上海)互联网科技股份有限公司 一种快速准确侦测多次上传的物料清单属于同一产品的方法
CN112733521A (zh) * 2021-01-16 2021-04-30 江苏网进科技股份有限公司 一种用于确认法律案件相似关系的方法
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332511A1 (en) * 2009-06-26 2010-12-30 Entanglement Technologies, Llc System and Methods for Units-Based Numeric Information Retrieval
CN102289569A (zh) * 2011-07-21 2011-12-21 中国电力科学研究院 一种电力系统突发事件应急处理方法
CN103853922A (zh) * 2014-02-27 2014-06-11 中国海洋石油总公司 一种油气田相似性的可视化定量评价方法
US20140280146A1 (en) * 2013-03-15 2014-09-18 Oracle International Corporation Per-attribute data clustering using tri-point data arbitration
CN104090865A (zh) * 2014-07-08 2014-10-08 安一恒通(北京)科技有限公司 文本相似度计算方法及装置
CN104899267A (zh) * 2015-05-22 2015-09-09 中国电子科技集团公司第二十八研究所 一种社交网站账号相似度的综合数据挖掘方法
CN106844781A (zh) * 2017-03-10 2017-06-13 广州视源电子科技股份有限公司 数据处理的方法及装置
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332511A1 (en) * 2009-06-26 2010-12-30 Entanglement Technologies, Llc System and Methods for Units-Based Numeric Information Retrieval
CN102289569A (zh) * 2011-07-21 2011-12-21 中国电力科学研究院 一种电力系统突发事件应急处理方法
US20140280146A1 (en) * 2013-03-15 2014-09-18 Oracle International Corporation Per-attribute data clustering using tri-point data arbitration
CN103853922A (zh) * 2014-02-27 2014-06-11 中国海洋石油总公司 一种油气田相似性的可视化定量评价方法
CN104090865A (zh) * 2014-07-08 2014-10-08 安一恒通(北京)科技有限公司 文本相似度计算方法及装置
CN104899267A (zh) * 2015-05-22 2015-09-09 中国电子科技集团公司第二十八研究所 一种社交网站账号相似度的综合数据挖掘方法
CN106844781A (zh) * 2017-03-10 2017-06-13 广州视源电子科技股份有限公司 数据处理的方法及装置
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WAEL H. GOMAA等: "A Survey of Text Similarity Approaches", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 *
武璠菲: "牙齿正畸病例相似性分析方法研究及应用", 《中国优秀硕士学位论文全文数据库_医药卫生科技辑》 *
王海涛: "基于大规模文本数据集的相似检测关键技术研究", 《中国博士学位论文全文数据库_信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632953A (zh) * 2020-12-22 2021-04-09 云汉芯城(上海)互联网科技股份有限公司 一种快速准确侦测多次上传的物料清单属于同一产品的方法
CN112632953B (zh) * 2020-12-22 2023-07-25 云汉芯城(上海)互联网科技股份有限公司 一种快速准确侦测多次上传的物料清单属于同一产品的方法
CN112733521A (zh) * 2021-01-16 2021-04-30 江苏网进科技股份有限公司 一种用于确认法律案件相似关系的方法
CN112733521B (zh) * 2021-01-16 2023-07-04 江苏网进科技股份有限公司 一种用于确认法律案件相似关系的方法
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法
CN113722509B (zh) * 2021-09-07 2022-03-01 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法

Also Published As

Publication number Publication date
CN110197197B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110674311A (zh) 一种基于知识图谱的电力资产异构数据融合方法
CN110197197A (zh) 一种基于文本相似度改进的电网档案相似度计算方法
CN110929042B (zh) 一种基于电力企业的知识图谱构建和查询方法
CN108446396B (zh) 一种基于改进型cim模型的电力数据处理方法
CN102708130A (zh) 计算用户微细分以用于要约匹配的可扩展引擎
CN111552813A (zh) 一种基于电网全业务数据的电力知识图谱构建方法
CN108280562B (zh) 一种规范电力企业数据资源的方法
CN101719135A (zh) 一种政务资源目录控制系统及方法
CN111159365A (zh) 调度模型本体智能问答系统的实现方法、系统及存储介质
CN114077674A (zh) 一种电网调度知识图谱数据优化方法及系统
CN109960612B (zh) 一种确定数据存储占比的方法、装置及服务器
CN103473307A (zh) 跨媒体稀疏哈希索引方法
CN110674152A (zh) 数据同步方法与装置、存储介质、电子设备
CN111522950B (zh) 一种针对非结构化海量文本敏感数据的快速识别系统
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
CN104679784A (zh) 一种o2b智能搜索方法及系统
Yang et al. Knowledge mapping in electricity demand forecasting: A scientometric insight
Bakalov et al. A network model for the utility domain
CN111625596A (zh) 新能源实时消纳调度的多源数据同步共享方法及系统
CN116596574A (zh) 电网用户画像构建方法及系统
Wang et al. Research on enterprise employee information system based on big data analysis
CN105447616A (zh) 基于多维分类和全文检索的知识管理系统
CN115937881A (zh) 一种知识图谱构建标准表格内容自动识别方法
Liu et al. Animation user value portrait based on RFM model under big data
Wu et al. Machine learning–driven deduction prediction methodology for power grid infrastructure investment and planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant