CN110704522A - 一种基于语义分析的概念数据模型自动转换方法 - Google Patents
一种基于语义分析的概念数据模型自动转换方法 Download PDFInfo
- Publication number
- CN110704522A CN110704522A CN201910831201.9A CN201910831201A CN110704522A CN 110704522 A CN110704522 A CN 110704522A CN 201910831201 A CN201910831201 A CN 201910831201A CN 110704522 A CN110704522 A CN 110704522A
- Authority
- CN
- China
- Prior art keywords
- semantic
- meta
- model
- attributes
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义分析的概念数据模型自动转换方法,包括:(1)将概念语义网络数据库中的单词及其之间关系导入至Neo4J数据库;(2)分析Neo4J数据库中的单词间的关系,计算两个单词之间的语义比较关系值;(3)根据语义比较关系值检测一对源元模型之间的概念映射关系,对应得到匹配成功的元模型中的实体和属性,并分别将匹配不成功元模型中实体和属性存储作为新源元模型,重复该步骤直至比较完所有源元模型;(4)将新源元模型和目标元模型进行匹配,匹配成功的部分作为元模型转换规则,得到具有潜在映射的实体和属性。本发明在ACDMTM中定义了基于精细元模型的模型转换过程,在该转换过程中定义了从自动检测到的潜在映射生成转换规则的机制,提高了转换效率和有效性。
Description
技术领域
本发明主要涉及信息处理技术领域,尤其涉及一种基于语义分析的概念数据模型自动转换方法。
背景技术
数据是表示对象,事件及其环境的属性的符号,它们是观察的产物,数据以非常快的速度从各种各样的异构源到达,社会的各个方面都被大量生成的数据所淹没。为了更好地使用这些数据,有必要进行数据集成,数据集成涉及组合驻留在不同来源的数据并为用户提供统一的视图,数据集成在生成信息然后构建知识库方面起着关键作用。
科学推动了实体分析的进步,但实体分析不仅面临属性模糊等传统问题,而且由于大数据时代的到来,实体解析面临越来越多的数据集,以及更多的异构数据。因此,ER需要更高效的并行技术,并且可以匹配不同数据源的不同数据结构。例如,在企业合作中,有必要从更多维度选择合作伙伴来收集不同渠道的企业信息,而不仅仅是名称匹配。ER需要分析异构的更复杂的链接关系、更复杂的实体结构、多域、甚至用于多个应用程序的大量数据。
进行数据集成的目标是提供对独立的和异构的数据源的集合的统一访问。解决数据集成的典型方案是建立协作。整合来自合作伙伴的异构数据是建立高强度合作的保证之一。在传统的模型转换实例中,存在一些缺点:可重用性低,包含重复性任务并涉及大量手动操作等。
发明内容
发明目的:本发明实施例提供了一种基于语义分析的概念数据模型自动转换方法,用以解决现有技术模型转换实例中可重用性低,转换效率和有效性低的问题。
技术方案:本发明所述的基于语义分析的概念数据模型自动转换方法,包括:
(1)将概念语义网络数据库中的单词及其之间关系导入至Neo4J数据库;
(2)分析Neo4J数据库中的单词间的关系,进而计算两个单词之间的语义比较关系值;
(3)从源元模型集合中选择两个元模型,根据所述语义比较关系值检测两个元模型之间的概念映射关系,对应得到匹配成功的元模型中的实体和属性,并分别将匹配不成功元模型中属性及其所在实体存储进新源元模型;
(4)迭代步骤(3),得到所有源元模型之间的潜在概念映射关系,扩充新源元模型;
(5)将得到的新源元模型和目标元模型进行匹配,匹配成功的部分作为元模型转换规则,得到具有潜在映射的实体和属性,并最终建立多个源元模型到一个目标元模型的转换规则进一步地,包括:
所述步骤(2)中,分析Neo4J数据库中的单词间的关系,具体包括:
(21)采用词干提取算法确定存在前后缀语义关系的单词;
(22)对来自相同域和不同域的单词进行语义检查测量,确定不同类型的语义关系及对应的语义关系阈值。
进一步地,包括:
所述步骤(2)中,计算两个单词之间的语义比较关系值,具体包括:
(23)计算两个单词之间的编辑距离SynS,若所述编辑距离SynS>α,则比较关系值为1,其中,α为设定阈值;
(24)若两个单词之间的编辑距离SynS≤α,则比较关系值为两个单词之间的语义关系值S_CV:若两单词存在直接语义关系,则所述直接语义对应语义关系值为两个单词的语义关系值S_CV;否则,若两单词存在迭代语义关系,则两单词之间每条路径的语义关系值为路径上所有关系的语义关系值的乘积,并取最大的关系值作为S_CV。
进一步地,包括:
所述直接语义关系为两单词之间路径长度为1个有向边(从源元模型的属性或实体名称指向目标模型的属性或实体名称或者为具有边上的语义关系为双向)的语义关系;所述迭代语义关系为基于固定语义关系下两单词之间路径长度大于1个边时的语义关系,所述固定语义关系包括:Synonym、SimilarTo、DerivedFrom、IsA、InstanceOf、RelatedTo和DistinctFrom。
进一步地,包括:
所述步骤(3),根据所述语义比较关系值检测两个元模型之间的概念映射关系,所述元模型包括2个及以上的源元模型和一个目标元模型,每个元模型包括不少于一个的实体,每个实体包括不少于一个的属性,属性解析为属性名称和对应属性类型,检测过程包括:
第一匹配:(31)选择两个源元模型作为一对源元模型和目标元模型,根据语义比较关系值计算源元模型和目标元模型中一对实体对应每对属性的语义相似度;
(32)根据每对属性的语义相似度计算该对实体的语义相似度;
(33)对每对属性的相似度和实体的相似度分别预设阈值范围[σ,ζ],并将相似度结果与阈值进行比较,σ<ζ,若大于ζ,则对应的实体或属性直接判断为匹配成功,若小于σ,则匹配失败,若在σ~ζ之间,则用户自定义是否匹配成功;
(34)针对每对实体都进行步骤(31)-(33)的比较,得到匹配成功的实体对和属性对;
第二匹配:(35)对于匹配失败的源元模型中的属性和目标元模型中的属性,根据所属实体名称的语义相似度和属性名称的语义相似度计算这些属性之间的相似度,寻找匹配成功的属性对,属性对为第一匹配中匹配失败的属性对应的实体和该属性的共同表示;
第三匹配:(36)将第一匹配和第二匹配后源元模型的所有匹配失败的属性名称与目标元模型中的实体名称进行比较,将匹配失败的源元模型中属性及所在实体(该实体仅有匹配失败的属性)存储在新源元模型中。
进一步地,包括:
所述步骤(4),包括:
(41)重复步骤(31-36)直至完成所有源元模型的匹配;
(42)将新的源元模型和作为目标元模型的元模型采用所述第一匹配、第二匹配和第三匹配进行比较。
进一步地,包括:
所述步骤(31)中,每对属性的语义相似度表示为:
att_S_CV=aName_asp*S_CV+aT_asp*eq_type
其中,aName_asp和aT_asp为由用户分配的系数,用于确定这两个部分的相互重要性,和为1,S_CV为该对比较属性的语义比较关系值,该语义比较关系值包括直接语义关系形成的语义比较关系值和最大两次迭代的迭代语义关系形成的语义比较关系值,所述最大两次迭代即为路径长度不大于2;eq_type表示属性类型,若两个属性具有相同的类型,则eq_type=1,否则,如果一种类型包含另一种类型,则eq_type=0.5;如果这两种类型是不相关的,则eq_type=0。
进一步地,包括:
所述步骤(32)中,实体的语义相似度表示为:
其中,eName_asp和att_asp为权重,这两个系数之和为1;S_CV是在两个比较实体的语义比较关系值,该语义比较关系值包括直接语义关系形成的语义比较关系值和最大三次迭代的迭代语义关系形成的语义比较关系值,所述最大三次迭代即为路径长度不大于3;att_S_CVj分别表示来自两个比较实体的一对属性之间的语义相似度;x表示来自源元模型的实体属性的数量。
进一步地,包括:
所述步骤(35)中,对于匹配失败的源元模型中的属性和目标元模型中的属性,根据所属实体名称的语义相似度和属性相似度计算这些属性之间的语义相似度,表示为:
mAtt_S_CV=en_asp*S_CV+att_asp*att_S_CV
其中,en_asp和att_asp是实体影响和属性影响的两个系数,其和为1,S_CV是语义比较关系值,包括:检测实体之间的直接语义关系,和在一对比较属性之间检测到直接语义关系和最大两次迭代的迭代语义关系。
有益效果:本发明提出了一种自动概念数据模型转换方法:ACDMTM,它致力于概念数据模型,并采用基于语义的检查作为主要技术。检测潜在的转换映射对,为了更好地结合基于语义的检查测量,在ACDMTM中定义了基于精细元模型的模型转换过程,在该转换过程中定义了从自动检测到的潜在映射生成转换规则的机制,提高了转换效率和有效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为ACDMTM的流程概述;
图2为本发明所述的语义检测数据分析方法流程;
图3为ACDMTM的语义关系检测的流程;
图4为Vehicle和Automobile在ConcpetNet中的关系查找结果;
图5为ACDMTM从潜在映射生成转换规则的机制;
图6为ACDMTM的四个匹配步骤的概述;
图7为实施例元模型的概述;
图8为实施例元模型匹配结果的概述。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的一种基于语义分析的概念数据模型自动转换方法,建立在概念语义网络数据库(ConceptNet)之上,兼具中文和英文双语语义关系分析的功能;提取“ConceptNet”中的语义相关知识,存储在是一个高性能的NOSQL图形数据库“Neo4J”中,利用“Neo4J”善于处理大量复杂、互连接、低结构化的数据的自身优点,提升大量数据查询、管理及维护的效率。
图1显示了基于语义分析的概念数据模型自动转换方法ACDMTM的总体概况,输入和输出都是概念语义网络数据模型。这两个模型都应首先转换为具有特定格式的XML文档,作为特定的元模型。在语义检验和句法检验的基础上,定义了几种用于迭代过程的潜在映射检测算法。在迭代转换中划分了几个转换步骤,每个步骤都使用一个或多个算法来检测两个XML文档之间的潜在映射。此外,还应在转换过程中应用一些验证方法。
基于语义分析的概念数据模型自动转换方法ACDMTM具体包括:
S1将概念语义网络数据库中的单词及其之间关系导入至Neo4J数据库。
步骤1.1、选取ConceptNet中的中英文概念,存入Neo4J。对于源文件csv的导入,首先需要进行分隔处理,找出有向边的头节点、尾节点和边上的关系及可信度。
步骤1.2、由于Neo4J是图结构的数据库,存储数据是构建有向图的过程,所以在插入每一条边时应首先在数据库中查询该边的两个节点以判断节点进行是否已经存在于图中的判断,没有,则创建新的节点。
S2分析Neo4J数据库中的单词间的关系,进而计算两个单词之间的语义比较关系值;具体包括:
步骤2.1采用词干提取算法确定存在前后缀语义关系的单词;
检测到两个不同形式的字符串是否具有相同或相似的语义意义,例如复数形式或动名词形式的单词。如果两个字符串之间存在词干问题关系,则它们之间可能存在语义关系。
在ACDMTM中检测到七种词干关系Porter stemming情况,如表1。
表1词干关系及对应的语义关系情况表
步骤2.2对来自相同域和不同域的单词进行语义检查测量,确定不同类型的语义关系及对应的语义关系阈值。
语义检查测量涉及两种情况:来自相同域或不同域的字符串。对于第一种情况,域本体如果存在且具有自由访问权限将用作辞典,并且最终比较值基于语义距离来计算。
对于第二种情况,采用的ConceptNet用作一般词库,最终比较值基于潜在的语义关系在ConceptNet中维护计算。
表2不同的语义关系及对应的语义关系阈值
步骤2.3计算两个单词之间的编辑距离SynS,若所述编辑距离SynS>α,则所述语义比较关系值S_CV[i]=1,其中,α为设定阈值,S_CV[i]为第i对单词之间的语义比较关系值;
步骤2.4若两个单词之间的编辑距离SynS≤α,则:若两单词存在直接语义关系,则所述语义比较关系值为所述语义关系阈值,否则,两单词为迭代语义关系,则两单词之间每条路径的语义比较关系值为路径上所有关系的语义关系阈值的乘积。
在本实施例中,计算两个词语的Levenshtein距离,以此计算两个字符串a和b之间的句法相似性,其中,|a|表示a的长度。
SynS=1-Lev(a,b)/max(|a|,|b|)
根据结果判断两个词的句法关系值是否>0.8,如果≤0.8,则计算词语在ConceptNet中的关系值,并将结果作为语义比较关系值S_CV;如果>0.8,则直接判断语义比较关系值S_CV为1。
如果不超过0.8则采用以下计算方法计算S_CV:
(1)关于直接语义关系的计算,例如图4中Vehicle和Automobile,直接查找两个词语之间的路径长度为1的从Vehicle出发的有向边,或者从Automobile出发的具有双向关系的有向边。例如位于图中间的“RelatedTo”关系。语义比较关系值为语义关系阈值。
(2)在计算迭代关系时只考虑7种语义关系:“Synonym”、“SimilarTo”、“DerivedFrom”、“IsA”、“InstanceOf”、“RelatedTo”和“DistinctFrom”。如图4中的其他边(路径长度大于1),均为Vehicle和Automobile之间的迭代关系。则两个词之间,每条路径的语义比较关系值为路径上所有语义关系阈值的乘积,并取最大的路径关系值为两个词的迭代关系值。
S3根据所述语义比较关系值检测两个元模型之间的概念映射关系,对应得到匹配成功的元模型中的实体和属性,并分别将匹配不成功元模型中实体和属性存储作为新源元模型。
ACDMTM定义了一个特殊的元模型概念数据元模型:CDMMM,用于概念数据模型的转换。CDMMM定义了所有元模型都应符合的标准格式,它是一个包含9个元素的类图,如图3。图3定义了元模型的元素成分和语义检测在元模型中的应用。
将元模型解析为:实体名称、实体的属性名称和属性类型。
(1)第一个匹配:从源元模型集合中选择一对源元模型分别作为源元模型和目标元模型,选择属于源元模型和目标元模型的一对实体,根据属性类型和属性名称,计算这对实体中的每对属性的语义相似度,公式如下。
att_S_CV=aName_asp*S_CVp+aT_asp*eq_type
“att_S_CV”是两个重要部分的总和:属性的名称和属性的类型。两个系数“aName_asp”和“aT_asp”(由用户分配)用于确定这两个部分的相互重要性,和为1。在方程中,计算了两个比较属性的名称之间的S_CVp,检测直接语义关系和迭代语义关系,此处最大两次迭代,即距离最大为2。“eq_type”表示属性类型,例如,String、Integer和Double。如果两个属性具有相同的类型,则“eq_type”的值为1。否则,如果一种类型包含另一种类型,例如,这两种类型为Double和Float,则此值可以为0.5;如果这两种类型是不相关的,例如Integer和String,则为0。
然后计算实体之间的语义相似度,在比较一对实体时,应将源实体的所有属性与目标实体的属性进行比较。公式如下:
“en_S_CV”表示实体对之间的相似度。它是两个重要部分的总和:实体的名称(字符串)和实体的属性组。分别用两个系数“eName_asp”和“att_asp”来确定两个部分的相互权重。这两个系数之和为1。这两个系数的精确值由用户指定。S_CVe是在两个比较实体的名称之间计算的。直接语义关系和迭代语义关系都被检测到,本发明最多三次迭代。“att_S_CVi”分别表示来自两个比较实体的一对属性之间的语义相似度。当比较两个实体的属性时,潜在映射对的最大数量等于源实体的属性数量。因此,“x”表示来自源元模型的实体属性的数量。
如图5,设置阈值:0.57~0.78,超过0.78的实体和属性的语义相似度直接判断匹配成功,在0.57~0.78之间的由用户判断是否匹配成功,低于0.57的则忽略。
迭代上述步骤,源元模型中的每个实体将与目标元模型中的所有实体进行比较。通过以上方程,在每对比较实体之间计算一个en_S_CV。基于这些en_S_CV值,如果在一对实体之间建立映射,则它们的属性之间的映射(超过属性的阈值)也将自动生成。
(2)第二个匹配:对于无法匹配成功的源元模型中的属性和目标元模型中的属性,根据它们所属实体名称的语义相似度和属性相似度计算这些属性之间的语义相似度,寻找匹配成功的属性对,公式如下:
mAtt_S_CV=en_asp*S_CVt+att_asp*att_S_CV
“mAtt_S_CV”表示属性之间的语义比较值。“en_asp”和“att_asp”是“实体影响”和“属性影响”的两个系数。在方程中,S_CVt是在两个实体的名称之间计算的。在该匹配步骤中,只检测实体名称之间的直接语义关系,并在一对比较属性的名称之间检测到直接和迭代语义关系,本发明最大两次迭代。
(3)第三个匹配:“跨层匹配”的目的是在属性和实体之间进行映射。这个步骤集中在执行第一和第二匹配步骤之后,来自源元模型的不匹配属性。源元模型的所有不匹配属性将与目标元模型的实体进行比较。公式如下:
clm_S_CV=S_CV
“clm_S_CV”表示“跨级别匹配步骤中的语义比较值”。在等式中,S_CV是在名称(直接语义关系和二次迭代语义关系)之间计算的:一个属于源元模型的属性名,另一个名称属于目标元模型的实体名,该步骤打破了顽固的粒度问题,建立了属性到实体的映射规则。
以上三个匹配步骤都试图检测源元模型和目标元模型之间的共享概念中的映射。
在所有的源元模型集合中,依次将源元模型组对(源元模型和目标元模型对),重复以上三个匹配步骤,并将以上三个步骤都匹配失败的源元模型部分加入到新模型ACDMTM_O模型。
S4将ACDMTM_O模型和作为目标元模型的元模型进行匹配,匹配成功的部分作为元模型转换规则,得到具有潜在映射的实体和属性。
步骤4.1、选择分别属于新源元模型和目标元模型的一对实体,根据属性类型和属性名称,计算这对实体中的每对属性的相似度。重复此步骤,直至完成新源元模型和目标元模型的所有实体对的属性比较。
关于任一对实体,选择来自源元模型中的实体中的所有属性与目标元模型的属性的相似度的最高值进行求和,并考虑实体名称的语义相似度,计算实体的相似度。
设置阈值,超过阈值的实体判断匹配成功,并判断这些实体中的超过阈值的属性对匹配成功。
步骤4.2、对于无法匹配成功的源元模型中的属性和目标元模型中的属性对,根据它们所属实体名称的语义相似度和属性相似度计算这些属性之间的相似度,寻找匹配成功的属性对。
步骤4.3、对于步骤3.2中无法匹配的来自源元模型的属性,将之与目标元模型中的实体名称进行匹配,超过阈值的判断为匹配成功,匹配成功的部分即为元模型转换规则。
在一个单一的转换迭代中,源元模型和目标元模型的共享和特定的概念被划分。源元模型中的所有不匹配项(特定概念)都作为不完全模型存储在ACDMTM_O中,该模型将用作后一次转换迭代的另一个源元模型。共享概念用于构建潜在的映射,如图6。
为了模拟和使用迭代转换过程,涉及三个简单的概念元模型(用类图表示):“vehicle management”、“traffic management”和“resident management”。整个模型转换过程包含两个迭代:1)从“vehicle management”元模型到“traffic management”元模型;2)从“traffic management”元模型到“resident management”元模型。图7详细介绍了三种元模型。
“vehicle management”元模型包含两个实体“person”(七个属性)和“vehicle”(五个属性)。两者之间的关联是:“person”拥有“vehicle”。
“traffic management”元模型包含三个实体“automobile”(四个属性)、“ticket”(五个属性)和“driver”(四个属性)。其中的关联是:“ticket”涉及“vehicle”,“driver”支付“ticket”和驾驶“automobile”。
“resident management”元模型包含两个实体“citizen”(六个属性)和“address”(五个属性)。这两个实体之间的联系是:“citizen”生活在“address”中。
表3方程式中使用的系数赋值。
系数 | 值 | 系数 | 值 |
eName_asp | 0.4 | att_asp | 0.6 |
aName_asp | 0.8 | aT_asp | 0.2 |
en_asp | 0.6 | att_asp | 0.4 |
迭代一:从“vehicle management”元模型到“traffic management”元模型
步骤一:以vehicle实体和automobile实体之间的比较为例,首先比较其中的每对属性。为了提高效率,当源实体中的属性出现匹配关系值为1时,不再继续判断该属性与目标实体中其他属性的语义关系。
表4 vehicle实体和automobile实体之间的语义比较关系值
vehicle\automobile | license | type | driver | insurance |
license | 1 | - | - | - |
producer | 0.488 | 0.488 | 0.288 | 0 |
type | 0.2 | 1 | - | - |
production date | 0.17 | 0.17 | 0.29 | 0 |
owner | 0.46 | 0.288 | 0.536 | 0 |
对于源实体中的每个属性,在每行选取最大值,进行平均值计算,再根据实体名称的语义关系比较,得到vehicle和automobile的比较值为0.657,该值在0.57~0.78之间,由用户判断是否匹配成功,此处判断成功。
然后得出所有实体对之间的关系值,如下表,根据最大值优先,可以得出两对匹配成功的实体:“vehicle”-“automobile”和“person”-“driver”。
表5所有实体对之间的关系值
Vehicle\Traffic | automobile | driver | ticket |
person | 0.578 | 0.748 | 0.598 |
vehicle | 0.657 | 0.461 | 0.565 |
步骤二:比较步骤一中未匹配成功的属性对,根据这些计算值,在这一匹配步骤中,应建立一个映射对“owner”(来自实体vehicle)-“driver”(来自实体automobile)。
表6匹配失败的属性对的语义比较关系值
步骤三:比较步骤二后仍未匹配成功的属性名称和目标实体名称。
表7匹配失败的属性名称和实体名称之间的语义比较关系值
Property\Element | automobile | driver | ticket |
name | 0 | 0 | 0.57 |
address | 0 | 0 | 0 |
vehicle | 0.6 | 0.36 | 0 |
producer | 0 | 0 | 0 |
production date | 0 | 0 | 0 |
将未匹配成功的部分存入ACDMTM_O模型,如属性“name”(person)、“address”(person)、“producer”(vehicle)和“production date”(vehicle)。
迭代二:从“traffic management”元模型到“resident management”元模型
步骤一二三与迭代一中的一致。
步骤四:从ACDMTM元模型到“resident management”元模型
第四个匹配步骤采用ACDMTM_O作为源元模型,并重用前三个匹配步骤,结果如下表。
表7辅助匹配的步骤和语义比较关系值
这一步骤以ACDMTM元模型中实体“person”的属性“name”和“address”丰富了“resident management”元模型中实体“citizen”的属性“name”和“address”,最后匹配结果如图8。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于语义分析的概念数据模型自动转换方法,其特征在于,包括:
(1)将概念语义网络数据库中的单词及其之间关系导入至Neo4J数据库;
(2)分析Neo4J数据库中的单词间的关系,进而计算两个单词之间的语义比较关系值;
(3)从源元模型集合中选择两个元模型,根据所述语义比较关系值检测两个元模型之间的概念映射关系,对应得到匹配成功的元模型中的实体和属性,并分别将匹配不成功元模型中属性及其所在实体存储进新源元模型;
(4)迭代步骤(3),得到所有源元模型之间的潜在概念映射关系,扩充新源元模型;
(5)将得到的新源元模型和目标元模型进行匹配,匹配成功的部分作为元模型转换规则,得到具有潜在映射的实体和属性,并最终建立多个源元模型到一个目标元模型的转换规则。
2.根据权利要求1所述的基于语义分析的概念数据模型自动转换方法,其特征在于,所述步骤(2)中,分析Neo4J数据库中的单词间的关系,具体包括:
(21)采用词干提取算法确定存在前后缀语义关系的单词;
(22)对来自相同域和不同域的单词进行语义检查测量,确定不同类型的语义关系及对应的语义关系值。
3.根据权利要求2所述的基于语义分析的概念数据模型自动转换方法,其特征在于,所述步骤(2)中,计算两个单词之间的比较关系值,具体包括:
(23)计算两个单词之间的编辑距离SynS,若所述编辑距离SynS>α,则比较关系值为1,其中,α为设定阈值;
(24)若两个单词之间的编辑距离SynS≤α,则比较关系值为两个单词之间的语义关系值S_CV:若两单词存在直接语义关系,则所述直接语义对应语义关系值为两个单词的语义关系值S_CV;否则,若两单词存在迭代语义关系,则两单词之间每条路径的语义关系值为路径上所有关系的语义关系值的乘积,并取最大的关系值作为S_CV。
4.根据权利要求3所述的基于语义分析的概念数据模型自动转换方法,其特征在于,所述直接语义关系为两单词之间路径长度为1个有向边的语义关系,有向边可以是从源元模型的属性或实体名称指向目标模型的属性或实体名称的边,也可以是具有双向语义关系的边;所述迭代语义关系为基于固定语义关系下两单词之间路径长度大于1个边时的语义关系,所述固定语义关系包括:Synonym、SimilarTo、DerivedFrom、IsA、InstanceOf、RelatedTo和DistinctFrom。
5.根据权利要求1所述的基于语义分析的概念数据模型自动转换方法,其特征在于,所述步骤(3),根据所述语义比较关系值检测源元模型到目标模型之间的概念映射关系,所述元模型包括2个及以上的源元模型和一个目标元模型,每个元模型包括不少于一个的实体,每个实体包括不少于一个的属性,属性解析为属性名称和对应属性类型,检测过程包括:
第一匹配:(31)选择两个源元模型作为一对源元模型和目标元模型,根据语义比较关系值计算源元模型和目标元模型中一对实体对应每对属性的相似度;
(32)根据每对属性的相似度和实体名称的语义相似度计算该对实体的相似度;
(33)对每对属性的相似度和实体的相似度分别预设阈值范围[σ,ζ],并将相似度结果与阈值进行比较,σ<ζ,若大于ζ,则对应的实体或属性直接判断为匹配成功,若小于σ,则匹配失败,若在σ~ζ之间,则用户自定义是否匹配成功;
(34)针对每对实体都进行步骤(31)-(33)的比较,得到匹配成功的实体对和属性对;
第二匹配:(35)对于匹配失败的源元模型中的属性和目标元模型中的属性,根据所属实体名称的语义相似度和属性名称的语义相似度计算这些属性之间的相似度,寻找匹配成功的属性对,属性对为第一匹配中匹配失败的属性对应的实体和该属性的共同表示;
第三匹配:(36)将第一匹配和第二匹配后源元模型的所有匹配失败的属性名称与目标元模型中的实体名称进行比较,将匹配失败的源元模型中属性及所在实体名以结构方式存储在新源元模型中。
6.根据权利要求5所述的基于语义分析的概念数据模型自动转换方法,其特征在于,所述步骤(4),包括:
(41)重复步骤(31-36)直至完成所有源元模型的匹配;
(42)将新的源元模型和作为目标元模型的元模型采用所述第一匹配、第二匹配和第三匹配进行比较。
7.根据权利要求5所述的基于语义分析的概念数据模型自动转换方法,其特征在于,所述步骤(31)中,每对属性的语义相似度表示为:
att_S_CV=aName_asp*S_CV+aT_asp*eq_type
其中,aName_asp和aT_asp为由用户分配的系数,用于确定这两个部分的相互重要性,和为1,S_CV为该对比较属性的语义关系值,该语义关系值取最大两次迭代的语义关系形成的语义关系值的最大值,所述最大两次迭代即为路径长度不大于2;eq_type表示属性类型,若两个属性具有相同的类型,则eq_type=1,否则,如果一种类型包含另一种类型,则eq_type=0.5;如果这两种类型是不相关的,则eq_type=0。
9.根据权利要求5所述的基于语义分析的概念数据模型自动转换方法,其特征在于,所述步骤(35)中,对于匹配失败的源元模型中的属性和目标元模型中的属性,根据所属实体名称的语义相似度和属性相似度计算这些属性之间的相似度,表示为:
mAtt_S_CV=en_asp*S_CV+att_asp*att_S_CV
其中,en_asp和att_asp是实体影响和属性影响的两个系数,其和为1,S_CV是语义关系值,包括:检测实体之间的直接语义关系,和在一对比较属性之间检测到直接语义关系和最大两次迭代的迭代语义关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831201.9A CN110704522B (zh) | 2019-09-04 | 2019-09-04 | 一种基于语义分析的概念数据模型自动转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831201.9A CN110704522B (zh) | 2019-09-04 | 2019-09-04 | 一种基于语义分析的概念数据模型自动转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704522A true CN110704522A (zh) | 2020-01-17 |
CN110704522B CN110704522B (zh) | 2023-04-07 |
Family
ID=69193566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910831201.9A Active CN110704522B (zh) | 2019-09-04 | 2019-09-04 | 一种基于语义分析的概念数据模型自动转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704522B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881473A (zh) * | 2015-06-01 | 2015-09-02 | 中国人民解放军装备学院 | 一种结构化数据本体学习中的概念映射方法 |
CN105808768A (zh) * | 2016-03-19 | 2016-07-27 | 浙江大学 | 一种基于图书的概念-描述词知识网络的构建方法 |
US20180365297A1 (en) * | 2017-06-16 | 2018-12-20 | Innoplexus Ag | Method and system for performing context-based search |
CN109582961A (zh) * | 2018-11-28 | 2019-04-05 | 重庆邮电大学 | 一种高效的机器人数据相似度计算算法 |
CN110008354A (zh) * | 2019-04-10 | 2019-07-12 | 华侨大学 | 一种基于知识图谱的对外汉语学习内容的构建方法 |
-
2019
- 2019-09-04 CN CN201910831201.9A patent/CN110704522B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881473A (zh) * | 2015-06-01 | 2015-09-02 | 中国人民解放军装备学院 | 一种结构化数据本体学习中的概念映射方法 |
CN105808768A (zh) * | 2016-03-19 | 2016-07-27 | 浙江大学 | 一种基于图书的概念-描述词知识网络的构建方法 |
US20180365297A1 (en) * | 2017-06-16 | 2018-12-20 | Innoplexus Ag | Method and system for performing context-based search |
CN109582961A (zh) * | 2018-11-28 | 2019-04-05 | 重庆邮电大学 | 一种高效的机器人数据相似度计算算法 |
CN110008354A (zh) * | 2019-04-10 | 2019-07-12 | 华侨大学 | 一种基于知识图谱的对外汉语学习内容的构建方法 |
Non-Patent Citations (1)
Title |
---|
ENRICO GIACINTO CALDAROLA等: "Improving the Visualization of WordNet Large Lexical Database through Semantic Tag Clouds", 《 2016 IEEE INTERNATIONAL CONGRESS ON BIG DATA (BIGDATA CONGRESS)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110704522B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8407253B2 (en) | Apparatus and method for knowledge graph stabilization | |
CN102792298B (zh) | 使用特征化匹配的规则来匹配元数据源 | |
US8122045B2 (en) | Method for mapping a data source to a data target | |
JP4997856B2 (ja) | データベース分析プログラム、データベース分析装置、データベース分析方法 | |
CN108959395B (zh) | 一种面向多源异构大数据的层次约减联合清洗方法 | |
US11562262B2 (en) | Model variable candidate generation device and method | |
CN106156082A (zh) | 一种本体对齐方法及装置 | |
US9880834B2 (en) | Source program analysis system, source program analysis method, and recording medium on which program is recorded | |
CA2796061A1 (en) | Ascribing actionable attributes to data that describes a personal identity | |
CN108647322A (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
US20160070706A1 (en) | Method and system for selecting public data sources | |
Shivaji et al. | Plagiarism detection by using karp-rabin and string matching algorithm together | |
CN115328883A (zh) | 一种数据仓库建模方法和系统 | |
Martínez et al. | Efficient model similarity estimation with robust hashing | |
Wen et al. | Crossing scientific workflow fragments discovery through activity abstraction in smart campus | |
Guimarães et al. | Mining ℰℒ⊥ Bases with Adaptable Role Depth | |
Eyal-Salman et al. | Feature-to-code traceability in legacy software variants | |
Sassi et al. | Supporting ontology adaptation and versioning based on a graph of relevance | |
CN110704522B (zh) | 一种基于语义分析的概念数据模型自动转换方法 | |
JP5894273B2 (ja) | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム | |
Jung et al. | Hierarchical business process clustering | |
CN114443783A (zh) | 一种供应链数据分析和增强处理方法及装置 | |
CN113010642A (zh) | 语义关系的识别方法、装置、电子设备及可读存储介质 | |
Rattan et al. | Detecting high level similarities in source code and beyond | |
US20090319505A1 (en) | Techniques for extracting authorship dates of documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |