CN110795607A - 一种基于多级相似度计算的装备保障数据匹配方法及系统 - Google Patents
一种基于多级相似度计算的装备保障数据匹配方法及系统 Download PDFInfo
- Publication number
- CN110795607A CN110795607A CN201911035716.4A CN201911035716A CN110795607A CN 110795607 A CN110795607 A CN 110795607A CN 201911035716 A CN201911035716 A CN 201911035716A CN 110795607 A CN110795607 A CN 110795607A
- Authority
- CN
- China
- Prior art keywords
- matched
- data
- equipment guarantee
- guarantee data
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多级相似度计算的装备保障数据匹配方法及系统。该方法包括:对待匹配的装备保障数据进行预处理;对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配;若是,记录字面相似度匹配结果;若否,对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配;若是,记录语义相似度匹配结果;若否,对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配;若是,记录值域相似度匹配结果;若否,进行人工识别;对记录好的匹配结果进行标准化表示。通过本方法或系统能够快速、准确地建立各个业务系统中各个数据项的匹配关系。
Description
技术领域
本发明涉及装备保障数据匹配领域,特别是涉及一种基于多级相似度计算的装备保障数据匹配方法及系统。
背景技术
在装备保障领域,由于各个信息系统缺乏顶层设计,技术体制各异,业务信息片段化存储在各个业务系统之中,无法从全局的角度进行数据整合,为各个保障机构决策提供有力的数据支撑。为了能够使碎片的数据整体化,发挥数据最大的效用,首要的是建立各个业务系统中各个数据项的匹配关系,为下一步的数据整合提供基础。
发明内容
本发明的目的是提供一种基于多级相似度计算的装备保障数据匹配方法及系统,用以快速、准确地建立各个业务系统中各个数据项的匹配关系。
为实现上述目的,本发明提供了如下方案:
一种基于多级相似度计算的装备保障数据匹配方法,所述方法包括:
对待匹配的装备保障数据进行预处理;
对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配;
若是,记录字面相似度匹配结果;
若否,对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配;
若是,记录语义相似度匹配结果;
若否,对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配;
若是,记录值域相似度匹配结果;
若否,进行人工识别;
对记录好的匹配结果进行标准化表示。
可选的,所述对待匹配的装备保障数据进行预处理具体包括:
去除与装备保障业务无关的数据;
通过数据元素技术对所述待匹配的装备保障数据进行规范化描述。
可选的,所述对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配,具体包括:
获取所述待匹配的装备保障数据中相同的字符串;
计算所述相同的字符串的长度;
判断字符串长度是否小于字符串长度阈值;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,判断所述相同的字符串是否被记录;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,记录所述相同的字符串并判断所述相同的字符串中是否存在未操作部分;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,计算所述相同的字符串的Jaccard相似系数;
判断所述相似系数是否大于系数阈值;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
可选的,所述对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配,具体包括:
提取所述预处理后的待匹配的装备保障数据中的分词;
根据所述分词建立分词同义词库;
计算所述分词是否相同;
若是,则进行标记;
若否,则选择所述分词同义词库中的分词并计算是否相同;
若是,则进行标记;
若否,判断所述预处理后的待匹配的装备保障数据中是否有未匹配的分词;
否是,则根据所述未匹配的分词构建分词同义词库;
若否,则计算所述预处理后的待匹配的装备保障数据中匹配分词的个数;
判断所述个数是否超过个数阈值;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
可选的,所述对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配,具体包括:
构建转换函数;
根据所述转换函数将所述预处理后的待匹配的装备保障数据进行值域转换;
判断值域中的数据元素是否相匹配;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
本发明还提供了一种基于多级相似度计算的装备保障数据匹配系统,所述系统包括:
预处理模块,用于对待匹配的装备保障数据进行预处理;
字面相似度计算模块,用于对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配;
第一记录模块,用于当预处理后的待匹配的装备保障数据匹配时,记录字面相似度匹配结果;
语义相似度计算模块,用于当预处理后的待匹配的装备保障数据不匹配时,对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配;
第二记录模块,用于当预处理后的待匹配的装备保障数据匹配时,记录语义相似度匹配结果;
值域相似度计算模块,用于当预处理后的待匹配的装备保障数据不匹配时,对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配;
第三记录块,用于当预处理后的待匹配的装备保障数据匹配时,记录值域相似度匹配结果;
识别模块,用于当预处理后的待匹配的装备保障数据不匹配时,进行人工识别;
标准化模块,用于对记录好的匹配结果进行标准化表示。
可选的,所述预处理模块具体包括:
去除单元,用于去除与装备保障业务无关的数据;
规范单元,用于通过数据元素技术对所述待匹配的装备保障数据进行规范化描述。
可选的,所述字面相似度计算模块具体包括:
第一获取单元,用于获取所述待匹配的装备保障数据中相同的字符串;
长度计算单元,用于计算所述相同的字符串的长度;
第一判断单元,用于判断字符串长度是否小于字符串长度阈值;
第二获取单元,用于当字符串长度小于字符串长度阈值时,重新获取所述待匹配的装备保障数据中相同的字符串;
第二判断单元,用于当字符串长度大于字符串长度阈值时,判断所述相同的字符串是否被记录;
第三获取单元,用于当相同的字符串被记录时,重新获取所述待匹配的装备保障数据中相同的字符串;
记录单元,用于当相同的字符串未被记录时,记录所述相同的字符串并判断所述相同的字符串中是否存在未操作部分;
第四获取单元,用于当相同的字符串中存在未操作部分时,重新获取所述待匹配的装备保障数据中相同的字符串;
相似系数计算单元,用于当相同的字符串中不存在未操作部分时,计算所述相同的字符串的Jaccard相似系数;
第三判断单元,用于判断所述相似系数是否大于系数阈值;
第一结果确定单元,用于当相似系数大于系数阈值时,确定所述待匹配的装备保障数据相匹配;以及用于相似系数是小于系数阈值时,确定所述待匹配的装备保障数据不匹配。
可选的,所述语义相似度计算模块具体包括:
提取单元,用于提取所述预处理后的待匹配的装备保障数据中的分词;
第一词库建立单元,用于根据所述分词建立分词同义词库;
计算单元,用于计算所述分词是否相同;
第一标记单元,用于当所述分词相同时,进行标记;
选择单元,用于当所述分词不相同时,选择所述分词同义词库中的分词并计算是否相同;
第二标记单元,用于当分词同义词库中的分词相同时,进行标记;
第四判断单元,用于当分词同义词库中的分词不相同时,判断所述预处理后的待匹配的装备保障数据中是否有未匹配的分词;
第二词库构建单元,用于当所述预处理后的待匹配的装备保障数据中有未匹配的分词时,根据所述未匹配的分词构建分词同义词库;
个数计算单元,用于当所述预处理后的待匹配的装备保障数据中没有未匹配的分词时,计算所述预处理后的待匹配的装备保障数据中匹配分词的个数;
第五判断单元,用于判断所述个数是否超过个数阈值;
第二结果确定单元,用于当个数超过个数阈值时,确定所述待匹配的装备保障数据相匹配;以及用于当个数未超过个数阈值时,确定所述待匹配的装备保障数据不匹配。
可选的,所述值域相似度计算模块具体包括:
函数构建单元,用于构建转换函数;
转换单元,用于根据所述转换函数将所述预处理后的待匹配的装备保障数据进行值域转换;
第六判断单元,用于判断值域中的数据元素是否相匹配;
第三结果确定单元,用于当值域中的数据元素相匹配时,确定示所述待匹配的装备保障数据相匹配;以及用于当值域中的数据元素不匹配时,确定所述待匹配的装备保障数据不匹配。
与现有技术相比,本发明具有以下技术效果:本发明对待匹配的装备保障数据进行字面相似度计算、语义相似度计算以及至于相似度计算,通过多级相似对于计算,本发明能够快速、准确地建立各个业务系统中各个数据项的匹配关系,为下一步的数据整合提供基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于多级相似度计算的装备保障数据匹配方法的流程图;
图2为本发明实施例数据元素命名结构的示意图;
图3为本发明实施例基于多级相似度计算的装备保障数据匹配系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于多级相似度计算的装备保障数据匹配方法及系统,用以快速、准确地建立各个业务系统中各个数据项的匹配关系。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种基于多级相似度计算的装备保障数据匹配方法,所述方法包括:
步骤101:对待匹配的装备保障数据进行预处理。具体的:
去除与装备保障业务无关的数据;
通过数据元素技术对所述待匹配的装备保障数据进行规范化描述。
步骤102:对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配。字面相似度计算是对需要匹配的数据项的名称进行字面相似度匹配,对于计算结果达到阈值要求的数据项,则认定是匹配的。具体的:
获取所述待匹配的装备保障数据中相同的字符串;
计算所述相同的字符串的长度;
判断字符串长度是否小于字符串长度阈值;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,判断所述相同的字符串是否被记录;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,记录所述相同的字符串并判断所述相同的字符串中是否存在未操作部分;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,计算所述相同的字符串的Jaccard相似系数;
判断所述相似系数是否大于系数阈值;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
步骤103:若是,记录字面相似度匹配结果。
步骤104:若否,对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配。语义相似度计算是对数据项名称中所包含的分词的近义词进行相似度匹配,计算需要匹配的数据项相似分词的个数,对于计算结果达到阈值要求的数据项,则认定是匹配的。具体的:
提取所述预处理后的待匹配的装备保障数据中的分词;
根据所述分词建立分词同义词库;
计算所述分词是否相同;
若是,则进行标记;
若否,则选择所述分词同义词库中的分词并计算是否相同;
若是,则进行标记;
若否,判断所述预处理后的待匹配的装备保障数据中是否有未匹配的分词;
否是,则根据所述未匹配的分词构建分词同义词库;
若否,则计算所述预处理后的待匹配的装备保障数据中匹配分词的个数;
判断所述个数是否超过个数阈值;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
步骤105:若是,记录语义相似度匹配结果。
步骤106:若否,对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配。值域相似度计算是通过对数据项的值域进行变换对数据项进行相似度计算。具体的:
构建转换函数;
根据所述转换函数将所述预处理后的待匹配的装备保障数据进行值域转换;
判断值域中的数据元素是否相匹配;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
进行值域相似度计算主要包含以下几个方面,
1)基本匹配
两个数据项之间可以通过构建转换函数f,实现值域和语义的转换,则数据元素之间具有基本匹配关系。即
设a,b分别为两个数据项,DOM(a)为a的值域,DOM(b)为b的值域; SMNa为数据元素a的表示,SMNb为数据元素b的表示;D是DOM(a)上的非空子集,R是DOM(b)上的非空子集。则
基本匹配特性:
交换性:BasicEquivalent(a,b)∧BasicEquivalent(b,a)
(2)相交匹配
相交匹配(IntersectEquivalent)是指取值集合交集不为空的数据项之间的匹配关系。若两个局部数据元素之间可以通过构建转换函数f,实现其取值交集和语义的转换,则数据项具有相交匹配关系。即
相交匹配特性:
交换性:IntersectEquivalent(a,b)∧IntersectEquivalent(b,a)
传递性:
(3)包含匹配
包含匹配(IncludeEquivalent)是指值域范围不同的匹配关系。若可以通过构建转换函数,将值域和语义的全部转换到另一个数据项,而另一数据项可以通过f-1,只能将值域和语义部分转换到该局部数据元素的值域和语义,则数据元素之间具有包含匹配关系。即
包含匹配特性:
传递性:
(4)抽象匹配
抽象匹配(AbstrateEquivalent)是指能够抽象为相同数据元素概念的数据项之间的匹配关系。对于两个值域无交集的数据元素而言,若存在这样一个数据元素,使得这两个数据元素都可以分别构造函数f和g,将各自的值域和语义转换到该数据元素,则这两个数据元素具有抽象匹配关系。即
抽象匹配特性:
传递性:
(5)多数据项匹配
多数据元素匹配是从不同的对象特征粒度划分出发,判断局部数据元素之间匹配关系。多数据元素匹配可以分为两种情况:一是合并匹配,即多个数据项到另一个数据项,建立数据项之间多对一的匹配关系;二是分裂匹配,即一个数据项匹配到多个数据项,建立数据项之间一对多的匹配关系。
①合并匹配(UniteEquivalent)
设a1,a2,…,an为系统S的数据项,b为熊B的数据项,D1,D2,…, Dn分别为DOM(a1),DOM(a2),…,DOM(an)的非空子集,R为DOM(b)的非空子集合,若函数f(D1,D2,...,Dn)=R满足包含匹配要求,则称A1,A2,…, An可合并匹配到B,即UniteEquivalent(∑a,b)。
②分裂匹配(SpliteEquivalent)
设A为系统S的数据元素,b1,b2,…,bn为系统T的数据元素,D为 DOM(a)的非空子集,R1,R2,…,Rn分别为DOM(b1),DOM(b2),…,DOM(bn) 的非空子集,若函数f(D)={R1,R2,...,Rn}满足包含匹配的要求,则称A可分裂匹配到B1,B2,…,Bn,即SpliteEquivalent(b,∑a)。
步骤107:若是,记录值域相似度匹配结果。
步骤108:若否,进行人工识别。对于值域相似度计算无法解决的,要通过领域专家和技术专家进行研讨,由人工的方式进行识别是否相似,并将专家知识进行专家知识库的规则表示。
步骤109:对记录好的匹配结果进行标准化表示。利用数据元素属性描述,建立数据元素标准化表示,并建立各个业务系统中数据项与标准化数据元素之间的转换关系。
标准化描述方法:
(1)标准化数据元素命名设计
数据元素命名是为数据元素选择合适的中文名称的过程,其本质是用简明规范的语言对数据元素概念进行描述。数据元素命名应以数据的用途或功能为核心,选择一组简明的词组来描述数据元素的意义和用途,其一般结构为:
修饰词—基本词—类别词
类别词是指能对数据对象作一般性分类的词,通常用于表示数据元素描述对象的特征,同时决定数据元素的表示形式,如代码、标准等;基本词是指能对数据对象作进一步分类的词,与行业特性相关,表达数据元素描述的对象,如弹药、器材;修饰词是对数据元素表示对象的进一步分类,如保障、军械。其中,类别词和基本词都只有一个,修饰词可以有一个或多个;一般类别词居后,修饰词和基本词居前,根据命名的实际情况,顺序也可以灵活处置。例如,“战损装备编码”是一个数据元素名称,其结构如图2所示。
对标准化数据元素的命名要根据局部数据元素匹配方式的特点,按照标准化命名规则,选择装备保障领域中常用的词汇进行。
(2)标准化数据元素标识设计
数据元素标识,是对数据元素的编码,用于区分数据内容和实现信息交互。数据元素表示可以用限定长度的大些字母字符串表达,字母字符串可以按数据元素名称的汉语拼音抽取首字母,也可按英文单词首字母或缩写规则表达。
例如,用数据元素名称的汉语拼音抽取首字母表达数据元素标识:
数据元素标识 数据元素名称
ZBDM 装备代码
GZXX 故障现象
数据元素一致性标准:数据元素命名和数据元素标识要在标准化数据元素中保持一致,或者说不允许有“同名异义”的数据元素,也不允许有“异名同义”的数据元素。这里的“名”是指数据元素的标识,“义”是指数据元素的名称。
例如,“同名异义”的数据元素有:
数据元素标识 数据元素名称
ZM 装备名称
ZM 装备代码
这是因为没有遵循数据元素标识规则,用两个字符来标识数据元素的结果过于简单。如果用中文名称的汉语拼音首字母来标识数据元素,就消除了“同名异义”现象:
数据元素标识 数据元素名称
ZBMC 装备代码
ZBDM 装备代码
“异名同义”的数据元素有:
数据元素标识 数据元素名称
ZM 装备代码
ZBDM 装备代码
用中文名称的汉语拼音首字母来标识数据元素,可以消除“异名同义”现象:
数据元素标识 数据元素名称
ZBDM 装备代码
(3)标准化数据元素语义设计
对于允许值是编码描述的数据元素,其语义的标准化设计是指对允许值的编码结构(码段和描述项)、编码长度和码值含义进行标准化,通常要能够包含所有具有匹配关系数据元素的码段和属性项及所有描述项的码值。
对于允许值是数值描述的数据元素,其语义的规范化设计可以通过对以下几个方面进行标准化来实现:
数据类型:数据类型是指基本数据类型,如整型,字符串型等。
计量单位:用于记录计量单位,如米、千克、基数等。
长度:要能够包含允许值的最大数据长度,如允许值的上限和下限。
精度:可有效区分不同值的最小增量。
格式:对于日期、时间等数据,需要相同的格式进行规范。
默认值:通常每个数据都有一个默认值,由于编程语言中变量的默认值不同,公共变量会继续保存上次的使用值,为了维护信息的稳定性和准确性,应该为每个数据元素实例提供一个默认值。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明对待匹配的装备保障数据进行字面相似度计算、语义相似度计算以及至于相似度计算,通过多级相似对于计算,本发明能够快速、准确地建立各个业务系统中各个数据项的匹配关系,为下一步的数据整合提供基础。
如图3所示,本发明还提供了一种基于多级相似度计算的装备保障数据匹配系统,所述系统包括:
预处理模块301,用于对待匹配的装备保障数据进行预处理。
所述预处理模块301具体包括:
去除单元,用于去除与装备保障业务无关的数据;
规范单元,用于通过数据元素技术对所述待匹配的装备保障数据进行规范化描述。
字面相似度计算模块302,用于对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配。
所述字面相似度计算模块302具体包括:
第一获取单元,用于获取所述待匹配的装备保障数据中相同的字符串;
长度计算单元,用于计算所述相同的字符串的长度;
第一判断单元,用于判断字符串长度是否小于字符串长度阈值;
第二获取单元,用于当字符串长度小于字符串长度阈值时,重新获取所述待匹配的装备保障数据中相同的字符串;
第二判断单元,用于当字符串长度大于字符串长度阈值时,判断所述相同的字符串是否被记录;
第三获取单元,用于当相同的字符串被记录时,重新获取所述待匹配的装备保障数据中相同的字符串;
记录单元,用于当相同的字符串未被记录时,记录所述相同的字符串并判断所述相同的字符串中是否存在未操作部分;
第四获取单元,用于当相同的字符串中存在未操作部分时,重新获取所述待匹配的装备保障数据中相同的字符串;
相似系数计算单元,用于当相同的字符串中不存在未操作部分时,计算所述相同的字符串的Jaccard相似系数;
第三判断单元,用于判断所述相似系数是否大于系数阈值;
第一结果确定单元,用于当相似系数大于系数阈值时,确定所述待匹配的装备保障数据相匹配;以及用于相似系数是小于系数阈值时,确定所述待匹配的装备保障数据不匹配。
第一记录模块303,用于当预处理后的待匹配的装备保障数据匹配时,记录字面相似度匹配结果。
语义相似度计算模块304,用于当预处理后的待匹配的装备保障数据不匹配时,对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配。
所述语义相似度计算模块304具体包括:
提取单元,用于提取所述预处理后的待匹配的装备保障数据中的分词;
第一词库建立单元,用于根据所述分词建立分词同义词库;
计算单元,用于计算所述分词是否相同;
第一标记单元,用于当所述分词相同时,进行标记;
选择单元,用于当所述分词不相同时,选择所述分词同义词库中的分词并计算是否相同;
第二标记单元,用于当分词同义词库中的分词相同时,进行标记;
第四判断单元,用于当分词同义词库中的分词不相同时,判断所述预处理后的待匹配的装备保障数据中是否有未匹配的分词;
第二词库构建单元,用于当所述预处理后的待匹配的装备保障数据中有未匹配的分词时,根据所述未匹配的分词构建分词同义词库;
个数计算单元,用于当所述预处理后的待匹配的装备保障数据中没有未匹配的分词时,计算所述预处理后的待匹配的装备保障数据中匹配分词的个数;
第五判断单元,用于判断所述个数是否超过个数阈值;
第二结果确定单元,用于当个数超过个数阈值时,确定所述待匹配的装备保障数据相匹配;以及用于当个数未超过个数阈值时,确定所述待匹配的装备保障数据不匹配。
第二记录模块305,用于当预处理后的待匹配的装备保障数据匹配时,记录语义相似度匹配结果。
值域相似度计算模块306,用于当预处理后的待匹配的装备保障数据不匹配时,对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配。
所述值域相似度计算模块306具体包括:
函数构建单元,用于构建转换函数;
转换单元,用于根据所述转换函数将所述预处理后的待匹配的装备保障数据进行值域转换;
第六判断单元,用于判断值域中的数据元素是否相匹配;
第三结果确定单元,用于当值域中的数据元素相匹配时,确定示所述待匹配的装备保障数据相匹配;以及用于当值域中的数据元素不匹配时,确定所述待匹配的装备保障数据不匹配。
第三记录块307,用于当预处理后的待匹配的装备保障数据匹配时,记录值域相似度匹配结果。
识别模块308,用于当预处理后的待匹配的装备保障数据不匹配时,进行人工识别。
标准化模块309,用于对记录好的匹配结果进行标准化表示。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于多级相似度计算的装备保障数据匹配方法,其特征在于,所述方法包括:
对待匹配的装备保障数据进行预处理;
对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配;
若是,记录字面相似度匹配结果;
若否,对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配;
若是,记录语义相似度匹配结果;
若否,对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配;
若是,记录值域相似度匹配结果;
若否,进行人工识别;
对记录好的匹配结果进行标准化表示。
2.根据权利要求1所述的基于多级相似度计算的装备保障数据匹配方法,其特征在于,所述对待匹配的装备保障数据进行预处理具体包括:
去除与装备保障业务无关的数据;
通过数据元素技术对所述待匹配的装备保障数据进行规范化描述。
3.根据权利要求1所述的基于多级相似度计算的装备保障数据匹配方法,其特征在于,所述对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配,具体包括:
获取所述待匹配的装备保障数据中相同的字符串;
计算所述相同的字符串的长度;
判断字符串长度是否小于字符串长度阈值;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,判断所述相同的字符串是否被记录;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,记录所述相同的字符串并判断所述相同的字符串中是否存在未操作部分;
若是,重新获取所述待匹配的装备保障数据中相同的字符串;
若否,计算所述相同的字符串的Jaccard相似系数;
判断所述相似系数是否大于系数阈值;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
4.根据权利要求1所述的基于多级相似度计算的装备保障数据匹配方法,其特征在于,所述对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配,具体包括:
提取所述预处理后的待匹配的装备保障数据中的分词;
根据所述分词建立分词同义词库;
计算所述分词是否相同;
若是,则进行标记;
若否,则选择所述分词同义词库中的分词并计算是否相同;
若是,则进行标记;
若否,判断所述预处理后的待匹配的装备保障数据中是否有未匹配的分词;
否是,则根据所述未匹配的分词构建分词同义词库;
若否,则计算所述预处理后的待匹配的装备保障数据中匹配分词的个数;
判断所述个数是否超过个数阈值;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
5.根据权利要求1所述的基于多级相似度计算的装备保障数据匹配方法,其特征在于,所述对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配,具体包括:
构建转换函数;
根据所述转换函数将所述预处理后的待匹配的装备保障数据进行值域转换;
判断值域中的数据元素是否相匹配;
若是,则表示所述待匹配的装备保障数据相匹配;
若否,则表示所述待匹配的装备保障数据不匹配。
6.一种基于多级相似度计算的装备保障数据匹配系统,其特征在于,所述系统包括:
预处理模块,用于对待匹配的装备保障数据进行预处理;
字面相似度计算模块,用于对预处理后的待匹配的装备保障数据进行字面相似度计算,判断是否匹配;
第一记录模块,用于当预处理后的待匹配的装备保障数据匹配时,记录字面相似度匹配结果;
语义相似度计算模块,用于当预处理后的待匹配的装备保障数据不匹配时,对预处理后的待匹配的装备保障数据进行语义相似度计算,判断是否匹配;
第二记录模块,用于当预处理后的待匹配的装备保障数据匹配时,记录语义相似度匹配结果;
值域相似度计算模块,用于当预处理后的待匹配的装备保障数据不匹配时,对预处理后的待匹配的装备保障数据进行值域相似度计算,判断是否匹配;
第三记录块,用于当预处理后的待匹配的装备保障数据匹配时,记录值域相似度匹配结果;
识别模块,用于当预处理后的待匹配的装备保障数据不匹配时,进行人工识别;
标准化模块,用于对记录好的匹配结果进行标准化表示。
7.根据权利要求6所述的基于多级相似度计算的装备保障数据匹配系统,其特征在于,所述预处理模块具体包括:
去除单元,用于去除与装备保障业务无关的数据;
规范单元,用于通过数据元素技术对所述待匹配的装备保障数据进行规范化描述。
8.根据权利要求6所述的基于多级相似度计算的装备保障数据匹配系统,其特征在于,所述字面相似度计算模块具体包括:
第一获取单元,用于获取所述待匹配的装备保障数据中相同的字符串;
长度计算单元,用于计算所述相同的字符串的长度;
第一判断单元,用于判断字符串长度是否小于字符串长度阈值;
第二获取单元,用于当字符串长度小于字符串长度阈值时,重新获取所述待匹配的装备保障数据中相同的字符串;
第二判断单元,用于当字符串长度大于字符串长度阈值时,判断所述相同的字符串是否被记录;
第三获取单元,用于当相同的字符串被记录时,重新获取所述待匹配的装备保障数据中相同的字符串;
记录单元,用于当相同的字符串未被记录时,记录所述相同的字符串并判断所述相同的字符串中是否存在未操作部分;
第四获取单元,用于当相同的字符串中存在未操作部分时,重新获取所述待匹配的装备保障数据中相同的字符串;
相似系数计算单元,用于当相同的字符串中不存在未操作部分时,计算所述相同的字符串的Jaccard相似系数;
第三判断单元,用于判断所述相似系数是否大于系数阈值;
第一结果确定单元,用于当相似系数大于系数阈值时,确定所述待匹配的装备保障数据相匹配;以及用于相似系数是小于系数阈值时,确定所述待匹配的装备保障数据不匹配。
9.根据权利要求6所述的基于多级相似度计算的装备保障数据匹配系统,其特征在于,所述语义相似度计算模块具体包括:
提取单元,用于提取所述预处理后的待匹配的装备保障数据中的分词;
第一词库建立单元,用于根据所述分词建立分词同义词库;
计算单元,用于计算所述分词是否相同;
第一标记单元,用于当所述分词相同时,进行标记;
选择单元,用于当所述分词不相同时,选择所述分词同义词库中的分词并计算是否相同;
第二标记单元,用于当分词同义词库中的分词相同时,进行标记;
第四判断单元,用于当分词同义词库中的分词不相同时,判断所述预处理后的待匹配的装备保障数据中是否有未匹配的分词;
第二词库构建单元,用于当所述预处理后的待匹配的装备保障数据中有未匹配的分词时,根据所述未匹配的分词构建分词同义词库;
个数计算单元,用于当所述预处理后的待匹配的装备保障数据中没有未匹配的分词时,计算所述预处理后的待匹配的装备保障数据中匹配分词的个数;
第五判断单元,用于判断所述个数是否超过个数阈值;
第二结果确定单元,用于当个数超过个数阈值时,确定所述待匹配的装备保障数据相匹配;以及用于当个数未超过个数阈值时,确定所述待匹配的装备保障数据不匹配。
10.根据权利要求6所述的基于多级相似度计算的装备保障数据匹配系统,其特征在于,所述值域相似度计算模块具体包括:
函数构建单元,用于构建转换函数;
转换单元,用于根据所述转换函数将所述预处理后的待匹配的装备保障数据进行值域转换;
第六判断单元,用于判断值域中的数据元素是否相匹配;
第三结果确定单元,用于当值域中的数据元素相匹配时,确定示所述待匹配的装备保障数据相匹配;以及用于当值域中的数据元素不匹配时,确定所述待匹配的装备保障数据不匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035716.4A CN110795607A (zh) | 2019-10-29 | 2019-10-29 | 一种基于多级相似度计算的装备保障数据匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035716.4A CN110795607A (zh) | 2019-10-29 | 2019-10-29 | 一种基于多级相似度计算的装备保障数据匹配方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110795607A true CN110795607A (zh) | 2020-02-14 |
Family
ID=69441734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911035716.4A Pending CN110795607A (zh) | 2019-10-29 | 2019-10-29 | 一种基于多级相似度计算的装备保障数据匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795607A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652299A (zh) * | 2020-05-26 | 2020-09-11 | 泰康保险集团股份有限公司 | 一种业务数据自动匹配的方法及设备 |
CN113312525A (zh) * | 2021-06-07 | 2021-08-27 | 浙江工业大学 | 一种通过java进行反向校准钢印编码的方法 |
WO2023040516A1 (zh) * | 2021-09-18 | 2023-03-23 | 腾讯科技(深圳)有限公司 | 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN102982168A (zh) * | 2012-12-12 | 2013-03-20 | 江苏省电力公司信息通信分公司 | 一种基于xml文档的元数据模式匹配方法 |
CN103218373A (zh) * | 2012-01-20 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 一种相关搜索系统、方法及装置 |
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN106250769A (zh) * | 2016-07-30 | 2016-12-21 | 北京明朝万达科技股份有限公司 | 一种多级过滤的源代码数据检测方法及装置 |
CN106777218A (zh) * | 2016-12-26 | 2017-05-31 | 中央军委装备发展部第六十三研究所 | 一种基于属性相似度的本体匹配方法 |
CN107844482A (zh) * | 2016-09-17 | 2018-03-27 | 复旦大学 | 基于全局本体的多数据源模式匹配方法 |
CN109685366A (zh) * | 2018-12-24 | 2019-04-26 | 中国人民解放军32181部队 | 基于异变数据的装备健康状态评估方法 |
-
2019
- 2019-10-29 CN CN201911035716.4A patent/CN110795607A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN103218373A (zh) * | 2012-01-20 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 一种相关搜索系统、方法及装置 |
CN102982168A (zh) * | 2012-12-12 | 2013-03-20 | 江苏省电力公司信息通信分公司 | 一种基于xml文档的元数据模式匹配方法 |
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN106250769A (zh) * | 2016-07-30 | 2016-12-21 | 北京明朝万达科技股份有限公司 | 一种多级过滤的源代码数据检测方法及装置 |
CN107844482A (zh) * | 2016-09-17 | 2018-03-27 | 复旦大学 | 基于全局本体的多数据源模式匹配方法 |
CN106777218A (zh) * | 2016-12-26 | 2017-05-31 | 中央军委装备发展部第六十三研究所 | 一种基于属性相似度的本体匹配方法 |
CN109685366A (zh) * | 2018-12-24 | 2019-04-26 | 中国人民解放军32181部队 | 基于异变数据的装备健康状态评估方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652299A (zh) * | 2020-05-26 | 2020-09-11 | 泰康保险集团股份有限公司 | 一种业务数据自动匹配的方法及设备 |
CN113312525A (zh) * | 2021-06-07 | 2021-08-27 | 浙江工业大学 | 一种通过java进行反向校准钢印编码的方法 |
CN113312525B (zh) * | 2021-06-07 | 2024-02-09 | 浙江工业大学 | 一种通过java进行反向校准钢印编码的方法 |
WO2023040516A1 (zh) * | 2021-09-18 | 2023-03-23 | 腾讯科技(深圳)有限公司 | 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
CN107423279B (zh) | 一种金融信贷短信的信息抽取和分析方法 | |
US20180060314A1 (en) | Multibyte heterogeneous log preprocessing | |
CN110795607A (zh) | 一种基于多级相似度计算的装备保障数据匹配方法及系统 | |
US20200004765A1 (en) | Unstructured data parsing for structured information | |
RU2491622C1 (ru) | Способ классификации документов по категориям | |
CN111259160B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN110741376A (zh) | 用于不同自然语言的自动文档分析 | |
CN110543590A (zh) | 一种微博突发事件的检测方法 | |
CN107943785B (zh) | 一种基于大数据的pdf文档处理方法及装置 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN114117038A (zh) | 一种文档分类方法、装置、系统及电子设备 | |
CN111539383B (zh) | 公式知识点识别方法及装置 | |
CN113642327A (zh) | 一种标准知识库的构建方法及装置 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111815162A (zh) | 一种数字化审计工具及方法 | |
CN110555212A (zh) | 基于自然语言处理的文档校验方法、装置和电子设备 | |
CN115952770A (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN113642291B (zh) | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 | |
CN113011162B (zh) | 一种指代消解方法、装置、电子设备及介质 | |
CN115482075A (zh) | 财务数据的异常分析方法、装置、电子设备及存储介质 | |
CN114416977A (zh) | 文本难度分级评估方法及装置、设备和存储介质 | |
CN113128231A (zh) | 一种数据质检方法、装置、存储介质和电子设备 | |
CN112270189A (zh) | 一种提问式的分析节点生成方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200214 |