CN113342909A - 识别相同实体模型的数据处理系统 - Google Patents

识别相同实体模型的数据处理系统 Download PDF

Info

Publication number
CN113342909A
CN113342909A CN202110899046.1A CN202110899046A CN113342909A CN 113342909 A CN113342909 A CN 113342909A CN 202110899046 A CN202110899046 A CN 202110899046A CN 113342909 A CN113342909 A CN 113342909A
Authority
CN
China
Prior art keywords
attribute item
sim
attribute
similarity
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110899046.1A
Other languages
English (en)
Other versions
CN113342909B (zh
Inventor
张正义
傅晓航
刘宸
林方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202110899046.1A priority Critical patent/CN113342909B/zh
Publication of CN113342909A publication Critical patent/CN113342909A/zh
Application granted granted Critical
Publication of CN113342909B publication Critical patent/CN113342909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种识别相同实体模型的数据处理系统,包括第一预设属性项集合、第二预设属性项集合、存储有计算机程序的存储器和处理器,当所述处理器执行所述计算机程序时,实现A1和A2是否相同的步骤。本发明能够基于实体模型属性项的类型进行实体模型相似度的比较,提高了仿真实验中识别相同实体模型的准确度。

Description

识别相同实体模型的数据处理系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种识别相同实体模型的数据处理系统。
背景技术
在现实中,实体是指具体的某个实物,例如“A型温湿度传感器”、“SF-II型元器件”、“58号设备”等。属性项是指每个实体所具有的特征,例如“尺寸大小”、“防水级别”、“可支持最大电压”等。一般情况下,一个实体具有多个属性项,每个属性项包含一条属性值。在仿真模型建立及联合使用时,通常会遇到不同模型中存在同名实体模型,此时实体模型之间的共有属性项个数可能不同,同一属性项的属性值也可能存在差异,因此在使用模型前需要对这类实体模型进行识别,判断它们在模型中是否能够被认为是同一对象。若判断出多个实体模型表征同一对象,则在这些实体模型之间构建对齐关系,对各条属性项进行融合和聚集;若判断出同名的实体模型表征不同对象时,则需要重新建立新的实体模型识别相同实体模型的数据处理系统用以区分。
现有的识别相同实体模型技术中,主要依靠属性项的相似度计算。现有的相似度计算,大多将实体属性项的属性值认定为字符串,通过字符串查重方法或词频统计方法判断两个属性值的相似度。然而在仿真模型中,实体模型的属性值的数据类型存在较大差异,当属性值为数字、日期、列表条目的形式时,现有的识别相同实体模型技术无法准确的判断两个实体模型的相似程度,例如,判别“耐高温”和“抗热性”时,如果只对字符串查重,则会得到二者的相似度很低,而实际上二者的表达的意思十分相近;判别“120℃”与“130℃”时,若仅仅比较数值大小,二者完全不相等,但如果此属性项是“支持最高温度”且本次实验是在常温下进行时,实际上二者在该属性项上可看做是一致的。由此可知,如何提高仿真实验中识别相同实体模型的准确度成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种识别相同实体模型的数据处理系统,提高了仿真实验中识别相同实体模型的准确度。
根据本发明一方面,提供了一种识别相同实体模型的数据处理系统,包括第一预设属性项集合、第二预设属性项集合、存储有计算机程序的存储器和处理器,当所述处理器执行所述计算机程序时,实现以下步骤:
步骤S1、获取第一属性项列表F1和第二属性列表F2的属性项数量R1、R2,以及F1和F2具有相同属性项列表{C1,C2,…Ck},其中,k为相同属性项数量,Ci为第i个相同属性项,i的取值范围为1到k;
其中,F1用于存储第一实体模型A1的属性项名称和属性值,F2用于存储第二实体模型A2的属性项名称和属性值,基于R1、R2、k确定第一识别参数M:
Figure 9370DEST_PATH_IMAGE001
比较M和预设的参数阈值D1,若M≥D1,则执行步骤S2和/或步骤S3和/或步骤S4,否则,确定A1和A2不相同,结束流程;
步骤S2、判断{C1,C2,…Ck}中是否存在第一预设属性项,若存在,则判断F1和F2中每一第一预设属性项对应的属性值的相似度是否全部为1,若全部为1,则确定A1和A2相同,结束流程,若不是全部为1,则执行步骤S5;
步骤S3、判断{C1,C2,…Ck}中是否存在第二预设属性项,若存在,则判断F1和F2中每一第二预设属性项的相似度是否全部为0,若全部为0,则确定A1和A2不相同,结束流程,若不是全部为0,则执行步骤S5;
步骤S4、判断{C1,C2,…Ck}中所有属性项是否为同一属性项类型,若是,则获取F1和F2的{C1,C2,…Ck}对应的属性值的整体相似度,并判断整体相似度是否大于预设的该属性项类型对应的相似度阈值D2,若大于等于,则确定A1和A2相同,若小于,则确定A1和A2不相同,结束流程,否则,执行步骤S5;
步骤S5、根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),Ci1为F1中Ci对应的属性值,Ci2为F2中Ci对应的属性值,基于所有的sim(Ci)判断A1和A2是否相同, sim(Ci1,Ci2)的取值范围为0到1。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种识别相同实体模型的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明能够基于实体模型属性项的类型进行实体模型相似度的比较,提高了仿真实验中识别相同实体模型的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的识别相同实体模型的数据处理系统示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种识别相同实体模型的数据处理系统的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种识别相同实体模型的数据处理系统,如图1所示,包括第一预设属性项集合、第二预设属性项集合、存储有计算机程序的存储器和处理器,所述第一预设属性项集合中存储有至少一个第一预设属性项,所述第二预设属性项集合中存储有至少一个第二预设属性项,当所述处理器执行所述计算机程序时,实现以下步骤:
步骤S1、获取第一属性项列表F1和第二属性列表F2的属性项数量R1、R2,以及F1和F2具有相同属性项列表{C1,C2,…Ck},其中,k为相同属性项数量,Ci为第i个相同属性项,i的取值范围为1到k;
其中,F1用于存储第一实体模型A1的属性项名称和属性值,F2用于存储第二实体模型A2的属性项名称和属性值,基于R1、R2、k确定第一识别参数M:
Figure 346810DEST_PATH_IMAGE001
比较M和预设的参数阈值D1,若M≥D1,则执行步骤S2和/或步骤S3和/或步骤S4,否则,确定A1和A2不相同,结束流程;
作为示例,在执行步骤S1之前,还可根据具体使用场景构建别名词库,基于所述别名词库按照词义消歧处理算法对F1和F2的属性项名称进行消歧处理,提高相同实体模型识别的准确度,D1根据具体的应用场景和目标精度需求来具体设定,例如可以设定为0.5。
可以理解的是,步骤S2、步骤S3、步骤S4可并行执行,也基于此顺序或者调整顺序串行执行。
步骤S2、判断{C1,C2,…Ck}中是否存在第一预设属性项,若存在,则判断F1和F2中每一第一预设属性项对应的属性值的相似度是否全部为1,若全部为1,则确定A1和A2相同,结束流程,若不是全部为1,则执行步骤S5;
步骤S3、判断{C1,C2,…Ck}中是否存在第二预设属性项,若存在,则判断F1和F2中每一第二预设属性项的相似度是否全部为0,若全部为0,则确定A1和A2不相同,结束流程,若不是全部为0,则执行步骤S5;
步骤S4、判断{C1,C2,…Ck}中所有属性项是否为同一属性项类型,若是,则获取F1和F2的{C1,C2,…Ck}对应的属性值的整体相似度,并判断整体相似度是否大于预设的该属性项类型对应的相似度阈值D2,若大于等于,则确定A1和A2相同,若小于,则确定A1和A2不相同,结束流程,否则,执行步骤S5;
需要说明的是,每一属性项类型对应的一个相似度阈值D2,D2根据具体的应用场景和目标精度需求来设定,具体可以为用户输入设定,或者基于历史数据设置默认值。
步骤S5、根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),Ci1为F1中Ci对应的属性值,Ci2为F2中Ci对应的属性值,基于所有的sim(Ci)判断A1和A2是否相同, sim(Ci1,Ci2)的取值范围为0到1。
作为一种实施例,所述步骤S5中,包括基于所有的sim(Ci)判断A1和A2是否相同,包括:
步骤S51、基于sim(Ci1,Ci2),Ci所属的属性项类型对应的预设权重值
Figure 803331DEST_PATH_IMAGE002
获取 A1和A2相似度sim(A1,A2);
Figure 200814DEST_PATH_IMAGE003
步骤S52、将sim(A1,A2)与预设的实体模型相似度阈值D3比较,若sim(A1,A2)≥D3,则确定A1和A2相同,否则,确定A1和A2不相同。
需要说明的是,实体模型相似度阈值D3根据具体的应用场景和目标精度需求来设定,具体可以为用户输入设定,或者基于历史数据设置默认值。当确定A1和A2相同后,可以进行属性融合操作,反之,可以分被对A1和A2重新设置不同的名称进行区分。
作为一种实施例,所述系统还包括权重参数配置表,用于配置每一属性项类型的预设权重参数,当所述处理器执行所述计算机程序时,还实现以下步骤:
步骤S510、基于{C1,C2,…Ck}、gi确定
Figure 232531DEST_PATH_IMAGE002
Figure 639241DEST_PATH_IMAGE004
其中,gi为所述权重参数配置表中,Ci所属的属性项类型的预设权重参数,
Figure 340481DEST_PATH_IMAGE005
为{C1,C2,…Ck}中属于Ci所属的属性项类型的所有属性项数量。
属性项类型具体可包括数值型、周期型数据、是非描述型、列表描述型和语义型等类型中的一种或多种。数值型具体可包括整数、浮点数或带有单位的数词等。周期型数据具体可以指日期时间数据。是非描述型是指属性值为某一条件判断结果的一种,通常结果相互对立,要么条件成立,要么条件不成立,例如“支持”与“不支持”、“允许”与“禁止”、“是”与“否”等。列表描述型是指属性值为条目总数固定的待选列表中的一项,通常列表条目从上到下的词语呈现出等级程度下降或上升趋势,例如第一列表包含“大”、“中”、“小”3个条目,第二列表包含“高级”、“中等”、“低级”3个条目,第三列表包含“重”、“较重”、“较轻”、“轻”4个条目等。语义型是指属性值为常规文本类型,此时不同字符文本可能表示同一含义,例如“2K分辨率”与“2048×1080”、“耐热”与“耐高温”等。针对不同类型的属性项确定单个属性项对应的相似度,然后再基于所有属性项对应的相似度,来综合确定两个实体模型的相似度,从而提高仿真实验中识别相同实体模型的准确度。
以下针对每种属性类型分别描述如何确定该属性类型的属性项的相似度:
实施例一、
若Ci所属的属性项类型为数值型,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S511、将Ci1和Ci2转换为预设的数值型标准格式数据;
步骤S512、基于预设的数据标准格式的数值取值范围,对转换为标准格式后的Ci1进行归一化处理得到ai1,对转换为标准格式后的Ci2进行归一化处理得到ai2
其中,归一化的算法包括不限于最大最小归一化、标准归一化、Sigmoid函数转换等。
步骤S513、基于ai1和ai2确定sim(Ci1,Ci2):
sim(Ci1,Ci2)=
Figure 190757DEST_PATH_IMAGE006
实施例二、
若Ci所属的属性项类型为周期型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S521、将Ci1和Ci2转换为预设的周期型标准格式数据,所述周期型标准格式为{B1,B2,…BQ},其中,Q为所述周期类型数据的数据段数量,Bq为第q段周期数据,Bq的周期为Tq,则Ci1对应的周期型标准格式数据为{ B11,B12,…B1Q }, Ci2对应的周期型标准格式数据为{ B21,B22,…B2Q };
步骤S522、获取周期数据匹配条件和周期颗粒度U,U的取值为1到Q,若所述周期匹配条件为精准匹配,则执行步骤S523,如果所述周期匹配条件为间隔阈值匹配,则获取预设的间隔阈值V,执行步骤S524;
其中,周期颗粒度U、预设的间隔阈值V均根据具体应用需求、计算精确度等综合设定,也可直接基于用户输入设定。
步骤S523、基于{ B11,B12,…B1Q }、{ B21,B22,…B2Q }、U确定sim(Ci1,Ci2):
Figure 203712DEST_PATH_IMAGE007
其中,u的取值为1到U;
步骤S524、基于{ B11,B12,…B1Q }、{ B21,B22,…B2Q }、U、Tq、V确定sim(Ci1,Ci2):
Figure 397802DEST_PATH_IMAGE008
其中,u的取值为1到U,Tu为q取值为u时的Tq值。
实施例三、
所述系统还包括预先构建的正向描述语料库和负向描述语料库,若Ci所属的属性项类型为是非描述型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S531、分别基于Ci1和Ci2查询所述正向描述语料库和负向描述语料库,若Ci1和Ci2属于同一语料库,则sim(Ci1,Ci2)=1,否则,sim(Ci1,Ci2)=0。
实施例四、
若Ci所属的属性项类型为列表描述型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S541、判断获取Ci1列表和Ci2列表的列表条目数是否相同,若不同,则将sim(Ci1,Ci2)确定为0,否则,执行步骤S542;
步骤S542、按照预设的列表描述型数据的项目排序确定Ci1和Ci2对应的排序编号Ni1和Ni2
步骤S543、基于Ni1和Ni2以及Ci1列表和Ci2列表的列表条目数N0确定sim(Ci1,Ci2):
Figure 812603DEST_PATH_IMAGE009
实施例五、
所述系统还包括预设的文本语料库,若Ci所属的属性项类型为是语义型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S551、基于所述语料库分别对Ci1和Ci2进行分词处理,并转换为对应的词向量(x11,x12,x13,…,x1N)和(x21,x22,x23,…,x2N);
步骤S552、基于(x11,x12,x13,…,x1N)和(x21,x22,x23,…,x2N)确定sim(Ci1,Ci2):
Figure 833779DEST_PATH_IMAGE010
需要说明的,具体可采用余弦距离算法、欧几里得距离、余弦距离、马氏距离等来确定(x11,x12,x13,…,x1N)和(x21,x22,x23,…,x2N)的相似度,在此不在赘述。
以下通过一个更为具体的实施例进行进一步说明
Figure 334031DEST_PATH_IMAGE011
表1 几种同名实体模型的属性参数
表1中展示了在仿真过程中应用到的几种HO型传感器,需要对4个实体模型进行相似度计算,判断它们是不是同一实体模型。具体的判断过程可包括:
(1)设定M值为60%,即两个实体若有60%以上的属性项相同,就进行相似度计算,否则直接判别为不同实体。
(2)规定若属性项(e):夜间显示功能的相似度为0,即判定两个实体为不同实体。
(3)计算属性值的相似度时,日期型属性值的允许差值为12个月。
(4)属性项的权重系数设定:属性项(d)的权重系数γ4为0.8,属性项(e)的权重系数γ5为1.2,其余各项均为默认1。
(5)根据整体相似度计算结果,设定两个实体的整体相似度在0.7及以上时,两个实体模型可被认为是同一实体;反之,两个实体模型为不同实体模型。
基于表1,实体1到实体5共5个实体的名称相同,均叫HO型传感器,但它们不同属性项的属性值存在差异。此时,使用者可以应用本方明实施例的方法对不同实体之间的相似度进行计算,例如:
①以计算实体模型1和实体模型2之间的相似度为例,由于实体2的属性项d、e、f和g缺失,使得实体模型1和实体模型2的共有属性项个数仅为3,通过公式计算M=(3×2/14)×100%,结果约为43 %,不满足M的阈值60 %,因此可以直接判定实体模型1和实体模型2为不同的实体模型。
②以计算实体模型实体1和实体模型3之间的相似度为例,通过计算得出实体模型1和实体模型3的M值为100 %,可以进行下一步相似度计算,具体流程是首先对不同属性项的类型进行判断,根据对应的类型进行各属性值的相似度计算,最终汇总进行综合计算得出两个实体模型的整体相似度。
对于属性项(a),判断出属性项(a)为数值型描述,通过格式转换统一成标准格式后,得到实体模型1和实体模型3的属性值均为10千克,因此可以得出实体模型1和实体模型3属性项(a)的相似度Sim(a1,a3) = 1;
对于属性项(b),判断出属性项(b)为数值型描述,通过格式转换统一成标准格式后,实体模型1和实体模型3的属性值均为0.3 米,因此可以得出实体模型1和实体模型3属性项(b)的相似度Sim(b1,b3) = 1;
对于属性项(c),判断出属性项(c)为数值型描述,通过格式转换统一成标准格式后,实体模型1和实体模型3的属性值均为0.4 米,因此可以得出实体模型1和实体模型3属性项(c)的相似度Sim(c1,c3) = 1;
对于属性项(d),判断出属性项(d)为日期型描述,通过格式转换统一成标准格式,根据精度转换成“YYYYMM”格式后,计算求得实体模型1和实体模型3的属性值相差为1个月。若所述周期匹配条件为精准匹配,那么实体模型1和3的属性项(d)的相似度Sim(d1,d3) =0。若日期型属性值按间隔阈值匹配,例如日期型属性值允许差值为12个月,那么可以得实体模型1和实体模型3属性项(d)的相似度Sim(d1,d3) = 1。
对于属性项(e),判断出属性项(e)为是非型描述,通过情感分析判断出实体模型1和实体模型3的属性值均为正向,因此可以得出实体模型1和实体模型3属性项(e)的相似度Sim(e1,e3) = 1;
对于属性项(f),判断出属性项(f)为列表型描述,通过统计获取此列表的条目数量N0为9,从上到下排序为从IPX0到IPX8。根据属性值所在位置,可以计算出Sim(d1,d3) = 1- |5-6|/9,结果约为0.89,即得出实体模型1和实体模型3属性项(f)的相似度Sim(f1,f3) =0.89;
对于属性项(g),判断出属性项(g)为语义型描述,首先利用训练过的Word2vec模型将两段文本信息转成词向量,在根据余弦距离公式计算求得实体模型1和实体模型3属性项(g)的相似度Sim(g1,g3) = 0.93。
综合各属性项的相似度,那么实体模型1和实体模型3的整体相似度最终为:
Figure 334741DEST_PATH_IMAGE012
根据0.97 > 0.7的设定,判断出在此次仿真过程中,实体模型1与实体3模型可以被认定为同一实体。
③若计算实体模型1和实体模型4之间的相似度,可以首先得出二者的共有属性项为7个,M的值为100 %。接着在单个属性项的相似度计算过程中得出属性项(e)的相似度为0,此时可以直接判定实体模型1和实体模型4为不同实体模型。
需要说明的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,部分步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (8)

1.一种识别相同实体模型的数据处理系统,其特征在于,
包括第一预设属性项集合、第二预设属性项集合、存储有计算机程序的存储器和处理器,当所述处理器执行所述计算机程序时,实现以下步骤:
步骤S1、获取第一属性项列表F1和第二属性列表F2的属性项数量R1、R2,以及F1和F2具有相同属性项列表{C1,C2,…Ck},其中,k为相同属性项数量,Ci为第i个相同属性项,i的取值范围为1到k;
其中,F1用于存储第一实体模型A1的属性项名称和属性值,F2用于存储第二实体模型A2的属性项名称和属性值,基于R1、R2、k确定第一识别参数M:
Figure 284270DEST_PATH_IMAGE001
比较M和预设的参数阈值D1,若M≥D1,则执行步骤S2和/或步骤S3和/或步骤S4,否则,确定A1和A2不相同,结束流程;
步骤S2、判断{C1,C2,…Ck}中是否存在第一预设属性项,若存在,则判断F1和F2中每一第一预设属性项对应的属性值的相似度是否全部为1,若全部为1,则确定A1和A2相同,结束流程,若不是全部为1,则执行步骤S5;
步骤S3、判断{C1,C2,…Ck}中是否存在第二预设属性项,若存在,则判断F1和F2中每一第二预设属性项的相似度是否全部为0,若全部为0,则确定A1和A2不相同,结束流程,若不是全部为0,则执行步骤S5;
步骤S4、判断{C1,C2,…Ck}中所有属性项是否为同一属性项类型,若是,则获取F1和F2的{C1,C2,…Ck}对应的属性值的整体相似度,并判断整体相似度是否大于预设的该属性项类型对应的相似度阈值D2,若大于等于,则确定A1和A2相同,若小于,则确定A1和A2不相同,结束流程,否则,执行步骤S5;
步骤S5、根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),Ci1为F1中Ci对应的属性值,Ci2为F2中Ci对应的属性值,基于所有的sim(Ci)判断A1和A2是否相同, sim(Ci1,Ci2)的取值范围为0到1。
2.根据权利要求1所述的系统, 其特征在于,
所述步骤S5中,包括基于所有的sim(Ci)判断A1和A2是否相同,包括:
步骤S51、基于sim(Ci1,Ci2),Ci所属的属性项类型对应的预设权重值
Figure 866561DEST_PATH_IMAGE002
获取 A1和A2相似度sim(A1,A2);
Figure 136000DEST_PATH_IMAGE003
步骤S52、将sim(A1,A2)与预设的实体模型相似度阈值D3比较,若sim(A1,A2)≥D3,则确定A1和A2相同,否则,确定A1和A2不相同。
3.根据权利要求2所述的系统, 其特征在于,
所述系统还包括权重参数配置表,用于配置每一属性项类型的预设权重参数,当所述处理器执行所述计算机程序时,还实现以下步骤:
步骤S510、基于{C1,C2,…Ck}、gi确定
Figure 734209DEST_PATH_IMAGE002
Figure 936651DEST_PATH_IMAGE004
其中,gi为所述权重参数配置表中,Ci所属的属性项类型的预设权重参数,
Figure 66675DEST_PATH_IMAGE005
为{C1,C2,…Ck}中属于Ci所属的属性项类型的所有属性项数量。
4.根据权利要求1-3中任意一项所述的系统, 其特征在于,
若Ci所属的属性项类型为数值型,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S511、将Ci1和Ci2转换为预设的数值型标准格式数据;
步骤S512、基于预设的数据标准格式的数值取值范围,对转换为标准格式后的Ci1进行归一化处理得到ai1,对转换为标准格式后的Ci2进行归一化处理得到ai2
步骤S513、基于ai1和ai2确定sim(Ci1,Ci2):
sim(Ci1,Ci2)=
Figure 682464DEST_PATH_IMAGE006
5.根据权利要求1-3中任意一项所述的系统, 其特征在于,
若Ci所属的属性项类型为周期型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S521、将Ci1和Ci2转换为预设的周期型标准格式数据,所述周期型标准格式为{B1,B2,…BQ},其中,Q为所述周期类型数据的数据段数量,Bq为第q段周期数据,Bq的周期为Tq,则Ci1对应的周期型标准格式数据为{ B11,B12,…B1Q }, Ci2对应的周期型标准格式数据为{B21,B22,…B2Q };
步骤S522、获取周期数据匹配条件和周期颗粒度U,U的取值为1到Q,若所述周期匹配条件为精准匹配,则执行步骤S523,如果所述周期匹配条件为间隔阈值匹配,则获取预设的间隔阈值V,执行步骤S524;
步骤S523、基于{ B11,B12,…B1Q }、{ B21,B22,…B2Q }、U确定sim(Ci1,Ci2):
Figure 648146DEST_PATH_IMAGE007
其中,u的取值为1到U;
步骤S524、基于{ B11,B12,…B1Q }、{ B21,B22,…B2Q }、U、Tq、V确定sim(Ci1,Ci2):
Figure 531526DEST_PATH_IMAGE008
其中,u的取值为1到U,Tu为q取值为u时的Tq值。
6.根据权利要求1-3中任意一项所述的系统, 其特征在于,
所述系统还包括预先构建的正向描述语料库和负向描述语料库,若Ci所属的属性项类型为是非描述型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S531、分别基于Ci1和Ci2查询所述正向描述语料库和负向描述语料库,若Ci1和Ci2属于同一语料库,则sim(Ci1,Ci2)=1,否则,sim(Ci1,Ci2)=0。
7.根据权利要求1-3中任意一项所述的系统, 其特征在于,
若Ci所属的属性项类型为列表描述型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S541、判断获取Ci1列表和Ci2列表的列表条目数是否相同,若不同,则将sim(Ci1,Ci2)确定为0,否则,执行步骤S542;
步骤S542、按照预设的列表描述型数据的项目排序确定Ci1和Ci2对应的排序编号Ni1和Ni2
步骤S543、基于Ni1和Ni2以及Ci1列表和Ci2列表的列表条目数N0确定sim(Ci1,Ci2):
Figure 924461DEST_PATH_IMAGE009
8.根据权利要求1-3中任意一项所述的系统, 其特征在于,
所述系统还包括预设的文本语料库,若Ci所属的属性项类型为是语义型数据,所述步骤S5中,根据Ci所属的属性项类型确定Ci1和Ci2的相似度sim(Ci1,Ci2),包括:
步骤S551、基于所述语料库分别对Ci1和Ci2进行分词处理,并转换为对应的词向量(x11,x12,x13,…,x1N)和(x21,x22,x23,…,x2N);
步骤S552、基于(x11,x12,x13,…,x1N)和(x21,x22,x23,…,x2N)确定sim(Ci1,Ci2):
Figure 168492DEST_PATH_IMAGE010
CN202110899046.1A 2021-08-06 2021-08-06 识别相同实体模型的数据处理系统 Active CN113342909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110899046.1A CN113342909B (zh) 2021-08-06 2021-08-06 识别相同实体模型的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110899046.1A CN113342909B (zh) 2021-08-06 2021-08-06 识别相同实体模型的数据处理系统

Publications (2)

Publication Number Publication Date
CN113342909A true CN113342909A (zh) 2021-09-03
CN113342909B CN113342909B (zh) 2021-11-02

Family

ID=77481003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110899046.1A Active CN113342909B (zh) 2021-08-06 2021-08-06 识别相同实体模型的数据处理系统

Country Status (1)

Country Link
CN (1) CN113342909B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580392A (zh) * 2022-04-29 2022-06-03 中科雨辰科技有限公司 一种识别实体的数据处理系统
CN114969041A (zh) * 2022-05-27 2022-08-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体同一性甄别及数据自补的处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668333A (zh) * 2019-10-15 2021-04-16 华为技术有限公司 命名实体的识别方法和设备、以及计算机可读存储介质
US20210117854A1 (en) * 2019-10-21 2021-04-22 International Business Machines Corporation Resolving conflicts between experts' intuition and data-driven artificial intelligence models
CN112699667A (zh) * 2020-12-29 2021-04-23 京东数字科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
CN112861963A (zh) * 2021-02-04 2021-05-28 北京三快在线科技有限公司 训练实体特征提取模型的方法、装置和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668333A (zh) * 2019-10-15 2021-04-16 华为技术有限公司 命名实体的识别方法和设备、以及计算机可读存储介质
US20210117854A1 (en) * 2019-10-21 2021-04-22 International Business Machines Corporation Resolving conflicts between experts' intuition and data-driven artificial intelligence models
CN112699667A (zh) * 2020-12-29 2021-04-23 京东数字科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
CN112861963A (zh) * 2021-02-04 2021-05-28 北京三快在线科技有限公司 训练实体特征提取模型的方法、装置和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580392A (zh) * 2022-04-29 2022-06-03 中科雨辰科技有限公司 一种识别实体的数据处理系统
CN114580392B (zh) * 2022-04-29 2022-07-29 中科雨辰科技有限公司 一种识别实体的数据处理系统
CN114969041A (zh) * 2022-05-27 2022-08-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体同一性甄别及数据自补的处理方法

Also Published As

Publication number Publication date
CN113342909B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN111274811B (zh) 地址文本相似度确定方法以及地址搜索方法
Santos et al. Toponym matching through deep neural networks
CN108664574B (zh) 信息的输入方法、终端设备及介质
Zhu et al. Heterogeneous hypergraph embedding for document recommendation
CN110188223B (zh) 图像处理方法、装置及计算机设备
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN113342909B (zh) 识别相同实体模型的数据处理系统
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
US20150199567A1 (en) Document classification assisting apparatus, method and program
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
US11783252B1 (en) Apparatus for generating resource allocation recommendations
US12118813B2 (en) Continuous learning for document processing and analysis
US11507901B1 (en) Apparatus and methods for matching video records with postings using audiovisual data processing
Zhu et al. Representation learning with ordered relation paths for knowledge graph completion
Ma et al. Deformable self-attention for text classification
Balaji et al. Text summarization using NLP technique
CN112182144B (zh) 搜索词标准化方法、计算设备和计算机可读存储介质
US20230334742A1 (en) Apparatus, system, and method for generating a video avatar
US11803575B2 (en) Apparatus, system, and method for classifying and neutralizing bias in an application
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
Falzone et al. Measuring similarity for technical product descriptions with a character-level siamese neural network
CN113779248A (zh) 数据分类模型训练方法、数据处理方法及存储介质
CN113420699A (zh) 一种人脸匹配方法、装置及电子设备
Muhammad Fuad Extreme-SAX: extreme points based symbolic representation for time series classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant