CN110555111A - 一种食材/食谱知识图谱的本体映射方法及装置 - Google Patents

一种食材/食谱知识图谱的本体映射方法及装置 Download PDF

Info

Publication number
CN110555111A
CN110555111A CN201810297673.6A CN201810297673A CN110555111A CN 110555111 A CN110555111 A CN 110555111A CN 201810297673 A CN201810297673 A CN 201810297673A CN 110555111 A CN110555111 A CN 110555111A
Authority
CN
China
Prior art keywords
concept
ontology
instance
pair
mapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810297673.6A
Other languages
English (en)
Inventor
朱泽春
钟敬德
王鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Joyoung Co Ltd
Original Assignee
Joyoung Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Joyoung Co Ltd filed Critical Joyoung Co Ltd
Priority to CN201810297673.6A priority Critical patent/CN110555111A/zh
Publication of CN110555111A publication Critical patent/CN110555111A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明揭示了一种食材/食谱知识图谱的本体映射方法,包括:获取实例数据并构建本体集合;从本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,生成待映射实例对集合IP和待映射概念对集合CP;基于决策树模型对待映射实例对集合IP进行实例映射并获得实例映射结果;基于支持向量机模型对待映射概念对集合CP进行概念映射并获得概念映射结果;根据实例映射结果和概念映射结果获得本体映射结果;其中,实例数据为食材实例数据,本体集合为食材本体集合;或者,实例数据为食谱实例数据,本体集合为食谱本体集合。该方法能够实现本体之间的映射,用于知识图谱的构建。本发明还揭示了一种食材/食谱知识图谱的本体映射方法。

Description

一种食材/食谱知识图谱的本体映射方法及装置
技术领域
本发明涉及饮食领域,更具体的说,涉及一种食材/食谱知识图谱的本体映射方法。本发明同时还揭示了一种食材/食谱知识图谱的本体映射装置。
背景技术
近年来,随着语义网的不断发展,万维网中含有越来越多的本体的形式的知识。本体作为一种新颖的知识表现形式,能够与知识图谱相结合,对现实世界的实体或概念进行描述,其在语义网的发展扮演着极其重要的作用,基于本体的应用也越来越多,包括电子工程、化学、远程教育等。随着语义网中的本体的不断增加,必然存在相关或相同的应用领域存在相近或相同的本体,由于这些本体的来源不同,本体的构建方式不同,因此这些本体之间可以信息互补,因此使用本体映射技术将相关本体映射是一件具有重大意义的工作。
然而,目前并未出现针对食材、食谱领域的本体映射知识图谱或者系统,仅仅使用通用本体映射系统来对食材、食谱领域的本体进行映射,无法挖掘出食材、食谱领域本体更深层次的信息,因此本体映射的效果也不好,达不到实用的标准。
发明内容
本发明为解决上述现有技术中存在的技术问题,提供了一种食材/食谱知识图谱的本体映射方法,该方法针对食材/食谱领域专门设计,不仅能够对本体的实例进行映射,还能够对本体的概念进行映射,同时还能深入的挖掘出相应的等价关系以及上下位关系,实现本体之间的信息互补。
为达到上述目的,本发明采用的技术方案如下:
一种食材/食谱知识图谱的本体映射方法,包括:获取实例数据并根据实例数据的类别属性构建本体集合;从本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP;基于决策树模型对待映射实例对集合IP进行实例映射并获得实例映射结果,实例映射结果中包含等价实例对集合Set1和不等价实例对集合Set2;基于支持向量机模型对待映射概念对集合CP进行概念映射并获得概念映射结果,概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4;根据实例映射结果和概念映射结果获得本体映射结果;其中,实例数据为食材实例数据,本体集合为食材本体集合;或者,实例数据为食谱实例数据,本体集合为食谱本体集合。
进一步地,从本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP的步骤包括:
S11,对待映射实例对集合IP和待映射概念对集合CP进行表示,其中,
IP={(I11,I21),(I11,I22),…,(I11,I2m),(I12,I21),…,(I12,I2m),…,(I1n,I21),…,(I1n,I2m)},
CP={(C11,C21),(C11,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1s,C21),…,(C1s,C2t)},
I1i为第一本体O1的实例,C1k为第一本体O1的概念,I2j为第二本体O2的实例,C2p为第二本体O2的概念,i∈{1,2,…,n},k∈{1,2,…,s},j∈{1,2,…,m},p∈{1,2,…,t},n为第一本体O1中实例的总量,s为第一本体O1中概念的总量,m为第二本体O2中实例的总量,t为第二本体O2中概念的总量;
S12,如果第一本体O1中还有未标记的第一实例,则从中取出一个实例I1i并标记,把第二本体O2中的实例全部不标记;否则转至S15;
S13,如果第二本体O2中还有未标记的第二实例,则从中取出一个实例I2j并标记;否则转至S12;
S14,由步骤S12和步骤S13得到的两个实例组成一个待映射实例对(I1i,I2j)并将该实例对放入待映射实例对集合IP中,转至S13;
S15,结束,生成待映射实例对集合IP。
进一步地,从本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP的步骤包括:
S21,如果第一本体O1中还有未标记的第一概念,则从中取出一个概念C1k并标记,把第二本体O2中的概念全部不标记;否则转至S24;
S22,如果第二本体O2中还有未标记的第二概念,则从中取出一个概念C2p并标记;否则转至S21;
S23,由步骤S21和步骤S22得到的两个概念组成一个待映射概念对(C1k,C2p)并将该概念对放入待映射概念对集合CP中,转至S22;
S24,结束,生成待映射概念对集合CP。
进一步地,基于决策树模型对待映射实例对集合IP进行实例映射并获得实例映射结果,实例映射结果中包含等价实例对集合和不等价实例对集合的步骤包括:
S31,将待映射实例对集合IP中的所有实例对加入队列Q1,并将训练实例对加入队列Q2,训练实例对通过人工标注获得;
S32,使用Q2中的训练实例对作为训练数据训练获得一个基于监督学习的决策树模型;
S33,从队列Q1中选取一个实例对出列,将该实例对的特征向量输入决策树模型,由决策树模型判断该实例对中的两个实例是否等价,若等价则将该实例对添加至等价实例对集合Set1;反之,则将该实例对添加至不等价实例对集合Set2;
S34,如果Q1不为空,就转至S33;
S35,实例映射结束,获得实例映射结果。
进一步地,步骤S32包括:
S41,从队列Q2中抽取正例放入等价实例对集合Set1,从Q2中抽取负例放入不等价实例对集合Set2;
S42,对队列Q1和队列Q2中的所有实例对,依次抽取每个实例对中每个实例的特征;若有特征缺失,则标记为Null;
S43,对队列Q1和队列Q2中的每个实例的特征向量进行清洗,清洗规则为:去除字符串中的括号以及标点符号,然后利用编辑距离计算出文本相似度;
S44,清洗完毕后,判定每个实例对中两个实例的特征是否接近,判定方法为:若两个实例的对应特征的字符串完全相同,则判定两个实例的对应特征相同;或者,若两个实例的对应特征的文本相似度大于预设阈值,则判定两个实例的对应特征相同;
S45,根据所有训练实例对的数据构建决策树模型,并引入熵函数entropy(D)衡量数据的纯净度,其中,
Pr(car)指类别标签car在训练数据集D中出现的概率,CA为所有类别标签组成的类别集合,|CA|为类别集合CA中类别标签的数量。
进一步地,步骤S45包括:
S51,根据一组训练数据集D及一组未被用来构建决策树模型的属性特征集合A,构造一个根节点;
S52,如果训练数据集D只存在被标注为两实例等价的正例,则把步骤S51构造的根节点标注为“两实例等价”,转至S58;
S53,如果训练数据集D只存在被标注为两实例不等价的负例,则把步骤S51构造的根节点标注为“两实例不等价”,转至S58;
S54,如果属性特征集合A是空集,则比较训练数据集D中正例和负例的数量,若正例数量大于或等于负例数量,则把步骤S51中构造的根节点标注为“两实例等价”然后转至S58,否则把步骤S51中构造的根节点标注为“两实例不等价”然后转至S58;若训练数据集D为空集,则把全部训练数据中出现次数最多的类别属性放入S51中用于构建根节点,并将相应的根节点标注为“两实例不等价”,转至S58;
S55,根据特征az将训练数据集D划分为V个不相交的子集D1,D2,…,DV,则划分后得:
从中选出能够使entropyaz(D)值最小的特征az
S56,将步骤S51中构造的根节点标注为“用特征az来划分”;
S57,根据属性az的取值个数将训练数据集D划分成相同组数的数据,然后对每组数据分别转至步骤S51中运行;
S58,结束,获得构建而成的决策树模型。
进一步地,基于支持向量机模型对待映射概念对集合CP进行概念映射并获得概念映射结果,概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4的步骤包括:
S61,为待映射概念对集合CP的所有概念对生成对偶概念对并将相应的对偶概念对添加至待映射概念对集合CP形成一个新的集合CP’中;
S62,对集合CP’的所有概念对计算五种不对称相似度,五种不对称相似度包括:概念反编辑距离相似度、概念集合杰卡德相似度、概念向量相似度、概念文本上下文相似度以及实例集合杰卡德相似度;
S63,人工标注部分概念对的上下位关系,并使用该些已标注的概念对作为训练数据训练获得一个基于监督学习的支持向量机模型;
S64,使用支持向量机模型预测集合CP’中所有未标注的概念对,在遍历所有被标注有上下位关系的概念对中,若其对偶概念对也存在上下位关系,则判定相应的概念对中两个概念为等价关系;反之,则判定相应概念对中两个概念仍为上下位关系;
S65,概念映射结束,获得概念映射结果。
进一步地,步骤63包括:
S71,抽取CP’中所有已标注的概念对的特征向量和类别标签作为训练数据M,M={(x1,y1),(x2,y2),...,(xn,yn)},其中xi为一个概念对的特征向量,yi为一个概念对的类别标签,n为已标注的概念对的个数;
S72,获取一个决策平面以分割正例训练数据和负例训练数据,定义决策平面<w*x>+b=0,并定义正例和负例的边界,其中正例H+:<w*x>+b-1=0,负例H-:<w*x>+b+1=0,w为决策平面的法向量,b为决策平面的偏置,则将支持向量机模型需要学习的问题转化为在满足第一约束条件的情况下正例和负例之间的边距d的最小化问题,其中,
第一约束条件为:yi*(<w*xi>+b)≥1,i=1,2,...,n;
S73,采用标准拉格朗日乘子法,根据边距d和第一约束条件求解得到目标函数Lp,其中:
ai为拉格朗日乘子,且目标函数Lp满足KKT条件;
S74,根据目标函数Lp和KKT条件求得目标函数Lp的对偶函数Ld,其中:
且对偶函数Ld满足第二约束条件:
S75,求解对偶函数Ld获得法向量w和偏置b用以构建分类函数f(z),根据分类函数f(z)对新的概念对进行判定,其中:
f(z)=sign(<w*z>+b);
sign(<w*z>+b)为符号函数,如果<w*z>+b>0,则sign(<w*z>+b)返回1,相应的概念对被判定为正例;如果<w*z>+b小于0,则sign(<w*z>+b)返回0,相应的概念对被判定为负例。
进一步地,步骤S42中,
特征为食材特征,食材特征包括:食材名称、食材别称、食材功效、食材储藏方法、食材烹饪要点、食材简介;或者,
特征为食谱特征,食谱特征包括:食谱名称、食谱别称、食谱口味、食谱烹饪工艺、食谱烹饪难度、食谱描述。
本发明同时还揭示了一种食材/食谱知识图谱的本体映射装置:
一种食材/食谱知识图谱的本体映射装置,包括:获取模块,用于获取实例数据;本体构建模块,用于根据实例数据的类别属性构建本体集合;集合生成模块,用于根据挑选出的需要相互映射的第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP;实例映射模块,用于基于决策树模型对待映射实例对集合IP进行实例映射并获得实例映射结果,实例映射结果中包含等价实例对集合Set1和不等价实例对集合Set2;概念映射模块,用于基于支持向量机模型对待映射概念对集合CP进行概念映射并获得概念映射结果,概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4;本体映射模块,用于根据实例映射结果和概念映射结果获得本体映射结果;其中,实例数据为食材实例数据,本体集合为食材本体集合;或者,实例数据为食谱实例数据,本体集合为食谱本体集合。
本发明技术方案的有益效果如下:
本发明揭示了一种食材/食谱知识图谱的本体映射方法,该方法能够通过决策树模型和支持向量机模型分别对本体的实例和概念进行映射,从而获得本体映射结果,建立起本体之间的联系,从而挖掘出食谱/食材之间的深层次信息,为饮食领域的智能化提供数据基础。本发明同时还揭示了一种食材/食谱知识图谱的本体映射装置,该装置能够用于建立本体映射,挖掘出食材/食谱本体之间的联系。
附图说明
图1是本发明所述方法其中一实施例的步骤框图;
图2是本发明所述方法其中一实施例的流程示意图;
图3是本发明所述方法其中一实施例中实例映射步骤的流程示意图;
图4是本发明所述方法其中一实施例中概念映射步骤的流程是有图;
图5是本发明所述装置的模块架构图。
具体实施方式
以下通过附图和具体实施例对本发明所提供的技术方案做更加详细的描述:
附图1揭示了本发明所述方法的具体实施例。如图1所示的,是本发明所述方法的步骤框图,该实施例中揭示了一种食材/食谱知识图谱的本体映射方法,包括:
步骤101,获取实例数据并根据实例数据的类别属性构建本体集合;
步骤102,从本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP;
步骤103,基于决策树模型对待映射实例对集合IP进行实例映射并获得实例映射结果,实例映射结果中包含等价实例对集合Set1和不等价实例对集合Set2;
步骤104,基于支持向量机模型对待映射概念对集合CP进行概念映射并获得概念映射结果,概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4;
步骤105,根据实例映射结果和概念映射结果获得本体映射结果;其中,实例数据为食材实例数据,本体集合为食材本体集合;或者,实例数据为食谱实例数据,本体集合为食谱本体集合。
该实施例中,采用不同的算法模型分别对本体的实例和概念进行映射,完成了本体之间的实例映射和概念映射,能够获得实例之间的等价关系,以及概念之间的等价关系和上下位关系。由于本体通常是用以对实例以及概念进行描述的,因此获得了本体之间的实例映射结果和概念映射结果,也就相应的可以获得本体之间的映射结果。该实施例中获得的本体映射结果能够用于构建知识图谱,为饮食领域的智能化提供了数据基础。其中,若所获取的实例数据为食材实例数据,则构建的本体集合为食材本体集合,相应获得的本体映射结果为食材本体之间的映射结果;若所获取的实例数据为食谱实例数据,则构建的本体集合为食谱本体集合,相应获得的本体映射结果为食谱本体之间的映射结果。
如图2所示的,是本发明所述方法其中一实施例的流程示意图。该实施例中的方法,包括步骤:
步骤201,获取实例数据:其中的实例数据可以通过自建数据库获取,也可以通过接入第三方数据平台的方式获取;
步骤202,构建本体集合:通过实例数据构建本体集合,属于一种自下而上的本体集合构建方法;
步骤203,生成待映射实例对集合IP;
步骤204,基于决策树模型对集合IP进行实例映射:优选地,通过监督学习的决策树模型对集合IP进行实例映射;
步骤205,生成待映射概念对集合CP;
步骤206,基于支持向量机模型对集合CP进行概念映射:优选地,基于监督学习的支持向量机模型对集合CP进行概念映射;
步骤207,获得本体映射结果。
通过上述实施例,能够获得本体映射结果,用于构建食材或食谱领域的知识图谱。
作为本发明所述方法的其中一实施例,所述从所述本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP的步骤包括:
S11,对所述待映射实例对集合IP和所述待映射概念对集合CP进行表示,其中,IP={(I11,I21),(I11,I22),…,(I11,I2m),(I12,I21),…,(I12,I2m),…,(I1n,I21),…,(I1n,I2m)},
CP={(C11,C21),(C11,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1s,C21),…,(C1s,C2t)},
I1i为第一本体O1的实例,C1k为第一本体O1的概念,I2j为第二本体O2的实例,C2p为第二本体O2的概念,i∈{1,2,…,n},k∈{1,2,…,s},j∈{1,2,…,m},p∈{1,2,…,t},n为第一本体O1中实例的总量,s为第一本体O1中概念的总量,m为第二本体O2中实例的总量,t为第二本体O2中概念的总量;
S12,如果第一本体O1中还有未标记的第一实例,则从中取出一个实例I1i并标记,把第二本体O2中的实例全部不标记;否则转至S15;
S13,如果第二本体O2中还有未标记的第二实例,则从中取出一个实例I2j并标记;否则转至S12;
S14,由步骤S12和步骤S13得到的两个实例组成一个待映射实例对(I1i,I2j)并将该实例对放入待映射实例对集合IP中,转至S13;
S15,结束,生成所述待映射实例对集合IP。
作为本发明所述方法的其中一实施例,所述从所述本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP的步骤包括:
S21,如果第一本体O1中还有未标记的第一概念,则从中取出一个概念C1k并标记,把第二本体O2中的概念全部不标记;否则转至S24;
S22,如果第二本体O2中还有未标记的第二概念,则从中取出一个概念C2p并标记;否则转至S21;
S23,由步骤S21和步骤S22得到的两个概念组成一个待映射概念对(C1k,C2p)并将该概念对放入待映射概念对集合CP中,转至S22;
S24,结束,生成所述待映射概念对集合CP。
上述实施例中,生成的待映射实例对集合IP和待映射概念对集合CP将用于通过机器学习方法以及算法模型完成相应的实例映射和概念映射。
如图3所示的,揭示了本发明所述方法其中一实施例中实例映射步骤的流程示意图。作为本发明所述方法的其中一实施例,所述基于决策树模型对所述待映射实例对集合IP进行实例映射并获得实例映射结果,所述实例映射结果中包含等价实例对集合和不等价实例对集合的步骤包括:
步骤301,将待映射实例对集合IP中的所有实例对加入队列Q1,并将训练实例对加入队列Q2,所述训练实例对通过人工标注获得;
步骤302,使用Q2中的训练实例对作为训练数据训练获得一个基于监督学习的决策树模型;
步骤303,从队列Q1中选取一个实例对出列,将该实例对的特征向量输入所述决策树模型;
步骤304,由所述决策树模型判断该实例对中的两个实例是否等价;
步骤305,若等价则将该实例对添加至等价实例对集合Set1;
步骤306,反之,则将该实例对添加至不等价实例对集合Set2;
步骤307,如果Q1不为空,就转至步骤303;
步骤308,实例映射结束,获得所述实例映射结果。
该实施例中,关于步骤302,还包括:
S41,从队列Q2中抽取正例放入等价实例对集合Set1,从Q2中抽取负例放入不等价实例对集合Set2:由于在实际的映射中,负例数量多于正例数量,所以按照预设比例从Set1和Set2中随机抽取训练数据,优选地,所述预设比例为1:4,且抽取的总数据量不超过500个;
S42,对队列Q1和队列Q2中的所有实例对,依次抽取每个实例对中每个实例的特征;若有特征缺失,则标记为Null:该实施例中,所述特征为食材特征,所述食材特征包括:食材名称、食材别称、食材功效、食材储藏方法、食材烹饪要点、食材简介;或者,所述特征为食谱特征,所述食谱特征包括:食谱名称、食谱别称、食谱口味、食谱烹饪工艺、食谱烹饪难度、食谱描述;
S43,对队列Q1和队列Q2中的每个实例的特征向量进行清洗,所述清洗规则为:去除字符串中的括号以及标点符号,然后利用编辑距离计算出文本相似度:由于自然语言的多样性,相同的特征在文字表达方式上并不完全相同,所以需要对Q1与Q2中的所有数据中的每个实例特征向量进行清洗,对于食材特征来说,主要在食材简介上会存在较大差异,而对于食谱特征来说,主要在食谱描述上会存在较大差异,因此专门针对食材简介和食谱描述的特征,设计了所述清洗规则,从而使本发明所述的方法能够专门针对食材/食谱知识图谱进行本体映射;
S44,清洗完毕后,判定每个实例对中两个实例的特征是否接近,判定方法为:若两个实例的对应特征的字符串完全相同,则判定两个实例的对应特征相同(适用于食材名称、食材别称、食材功效、食材储藏方法、食材烹饪要点的特征,以及食谱名称、食谱别称、食谱口味、食谱烹饪工艺、食谱烹饪难度的特征);或者,若两个实例的对应特征的所述文本相似度大于预设阈值,则判定两个实例的对应特征相同(适用于食材简介的特征,以及食谱描述的特征);
S45,根据所有训练实例对的数据构建决策树模型,并引入熵函数entropy(D)衡量数据的纯净度,其中,
Pr(car)指类别标签car在训练数据集D中出现的概率,CA为所有类别标签组成的类别集合,|CA|为类别集合CA中类别标签的数量:使用贪心算法思想构造一个决策树模型,此算法的基本思想是每次使用一个特征将训练数据尽可能“纯净”的分开,最好的情况是分开后每组中数据的类别标签都是相同的,然后在得到的两组数据上重复这个过程直到满足终止条件,为了衡量“纯净度”,这里引入了信息论中熵(entropy)的概念。
该实施例中,关于步骤S45,包括:
S51,根据一组训练数据集D及一组未被用来构建决策树模型的属性特征集合A,构造一个根节点;
S52,如果训练数据集D只存在被标注为两实例等价的正例,则把步骤S51构造的根节点标注为“两实例等价”,转至S58;
S53,如果训练数据集D只存在被标注为两实例不等价的负例,则把步骤S51构造的根节点标注为“两实例不等价”,转至S58;
S54,如果属性特征集合A是空集,则比较训练数据集D中正例和负例的数量,若正例数量大于或等于负例数量,则把步骤S51中构造的根节点标注为“两实例等价”然后转至S58,否则把步骤S51中构造的根节点标注为“两实例不等价”然后转至S58;若训练数据集D为空集,则把全部训练数据中出现次数最多的类别属性放入S51中用于构建根节点,并将相应的根节点标注为“两实例不等价”,转至S58;
S55,根据特征az将训练数据集D划分为V个不相交的子集D1,D2,…,DV,则划分后得:
从中选出能够使entropyaz(D)值最小的特征az
S56,将步骤S51中构造的根节点标注为“用特征az来划分”;
S57,根据属性az的取值个数将训练数据集D划分成相同组数的数据,然后对每组数据分别转至步骤S51中运行;
S58,结束,获得构建而成的决策树模型。
通过上述实施例,完成了本发明方法中所述的实例映射过程,从而获得了实例映射结果。
如图4所示的,涉及本发明方法其中一实施例的概念映射步骤。作为本发明所述方法的其中一实施例,所述基于支持向量机模型对所述待映射概念对集合CP进行概念映射并获得概念映射结果,所述概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4的步骤包括:
S61,为待映射概念对集合CP的所有概念对生成对偶概念对并将相应的对偶概念对添加至待映射概念对集合CP形成一个新的集合CP’中:例如,一个原概念对为(C1k,C2p),则其对偶概念对为(C2p,C1k);
S62,对集合CP’的所有概念对计算五种不对称相似度,所述五种不对称相似度包括:概念反编辑距离相似度、概念集合杰卡德相似度、概念向量相似度、概念文本上下文相似度以及实例集合杰卡德相似度:对于五种不对称相似度的具体定义如下:
(1)概念反编辑距离相似度:给定一个概念对(C1k,C2p),概念C1k与C2p之间的概念编辑距离相似度,是指两个字串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大,则
RLev(C1k,C2p)=1-Lev(C1k,C2p)
其中Lev(C1k,C2p)是字符串C1k和字符串C2p之间的编辑距离;
(2)概念集合杰卡德相似度:给定任意一个概念C,利用概念标签l(C),从第三方平台网站返回的页面中抽取出所有的类别,这些类别构成了概念C的一组相关概念RC(C),RC(C)={rc1,rc2,…,rcn},其中rci是第i个相关概念,对于概念对(C1k,C2p),概念C1k与C2p之间的概念集合的杰卡德相似度RCJcd(C1k,C2p)的计算方式如下所示:
其中|RC(C1k)∩RC(C2p)|指C1k的概念集合与C2p的概念集合的交集的元素个数,而|RC(C1k)|表示C1k的概念集合的元素个数;
(3)概念向量相似度:定义概念C的相关概念向量RCS(c)={rc1,rc2,...,rcn}RCV(C),RCV(C)=<rc1(C),rc2(C),…,rcn(C)>,其中rcy(C)表示第y个相关概念rcy出现的次数;对于给定一个概念对(C1k,C2p),概念C1k与C2p之间的概念向量相似度RCVecsim(C1k,C2p)的定义如下所示:
(4)概念文本上下文相似度:对于给定的任意一个概念C,首先利用第三方平台检索概念C的标签l(C),将返回的所有页面作为概念C的文本上下文,并对文本上下文进行分词与去停用词,最后采用词语频率-逆向文档频率方法对得到的每个词语i进行加权,i的权重wi的计算公式如下所示:
其中tfi指i在其文本上下文中出现的次数,dfi是文本上下文包含i的词语的数量,而N为词语的总数;
定义概念C的文本上下文向量为TC(C)=<w1(C),w2(C),…,wn(C)>,其中wv(C)表示第v个词语TC(c)i的重要性,wi(c)n是所有概念的文本上下文进行分词与去停用词处理后的词词语的总量;对于给定的概念对(C1k,C2p),概念C1k与C2p之间的文本上下文的相似度Textsim(C1k,C2p)的定义如下:
(5)实例集合杰卡德相似度:首先定义概念C的实例集合为INS(C),利用两个不同本体的实例映射后得到的属于不同本体的等价实例进行计算,则概念对(C1k,C2p)中概念C1k与概念C2p之间的实例集合杰卡德相似度INSsim(C1k,C2p)的计算方式如下:
其中|INS(C1k)∩INS(C2p)|指C1k与C2p的实例集合的交集的元素个数,即等价实例的数量,而|INS(C1k)|表示C1k的实例集合的元素个数;
S63,人工标注部分概念对的上下位关系,并使用该些已标注的概念对作为训练数据训练获得一个基于监督学习的支持向量机模型;
S64,使用所述支持向量机模型预测集合CP’中所有未标注的概念对,在遍历所有被标注有上下位关系的概念对中,若其对偶概念对也存在上下位关系,则判定相应的概念对中两个概念为等价关系;反之,则判定相应概念对中两个概念仍为上下位关系;
S65,概念映射结束,获得概念映射结果。
该实施例中,为所有原概念对生成对偶概念对得到一个新的概念对集合CP’。然后计算每个概念对中两个概念间五种不对称相似度作为每个概念对的特征,再利用显式概念间上下位关系映射规则挖掘出上下位关系和非上下位关系,对并对其添加标签作为已标注概念对。之后,将所有概念对作为结点构建一个完全图谱,并根据每个概念对的特征计算所有结点间边的权重。最后使用基于监督学习的支持向量机算法挖掘概念间的上下位关系,并根据得到的概念间的上下位关系进行概念间等价关系的推断。
该实施例中,关于步骤S63,包括:
S71,抽取CP’中所有已标注的概念对的特征向量和类别标签作为训练数据M,M={(x1,y1),(x2,y2),...,(xn,yn)},其中xi为一个概念对的特征向量,yi为一个概念对的类别标签,n为已标注的概念对的个数;
S72,获取一个决策平面以分割正例训练数据和负例训练数据,定义决策平面<w*x>+b=0,并定义正例和负例的边界,其中正例H+:<w*x>+b-1=0,负例H-:<w*x>+b+1=0,w为所述决策平面的法向量,b为所述决策平面的偏置,则将支持向量机模型需要学习的问题转化为在满足第一约束条件的情况下正例和负例之间的边距d的最小化问题,其中,
第一约束条件为:yi*(<w*xi>+b)≥1,i=1,2,...,n;
S73,采用标准拉格朗日乘子法,根据边距d和所述第一约束条件求解得到目标函数Lp,其中:
ai为拉格朗日乘子,且目标函数Lp满足KKT条件;
S74,根据所述目标函数Lp和KKT条件求得目标函数Lp的对偶函数Ld,其中:
且对偶函数Ld满足第二约束条件:
S75,求解对偶函数Ld获得法向量w和偏置b用以构建分类函数f(z),根据分类函数f(z)对新的概念对进行判定,其中:
f(z)=sign(<w*z>+b);
sign(<w*z>+b)为符号函数,如果<w*z>+b>0,则sign(<w*z>+b)返回1,相应的概念对被判定为正例;如果<w*z>+b小于0,则sign(<w*z>+b)返回0,相应的概念对被判定为负例。
以上,本发明所述的方法分别通过决策树模型和支持向量机模型对涉及食材/食谱的本体进行了实例映射和概念映射,确定出了实例之间的等价关系,以及概念之间的等价关系和上下位关系,从而能够获得相应的本体映射结果,最终实现了知识图谱中的本体映射。
本发明同时还揭示了一种食材/食谱知识图谱的本体映射装置,如图5所示,该装置包括:
获取模块,用于获取实例数据;
本体构建模块,用于根据实例数据的类别属性构建本体集合;
集合生成模块,用于根据挑选出的需要相互映射的第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP;
实例映射模块,用于基于决策树模型对待映射实例对集合IP进行实例映射并获得实例映射结果,实例映射结果中包含等价实例对集合Set1和不等价实例对集合Set2;
概念映射模块,用于基于支持向量机模型对待映射概念对集合CP进行概念映射并获得概念映射结果,概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4;
本体映射模块,用于根据实例映射结果和概念映射结果获得本体映射结果;
其中,实例数据为食材实例数据,本体集合为食材本体集合;或者,实例数据为食谱实例数据,本体集合为食谱本体集合。
该实施例中所揭示的食材/食谱知识图谱的本体映射装置,采用自底而上的本体构建方法,能够自主学习实例数据,运用决策树模型和支持向量机模型分别构建出本体的实例映射和概念映射,从而最终获得本体映射结果,用于知识图谱的搭建。
上述具体实施方式只是用于说明本发明的设计方法,并不能用来限定本发明的保护范围。对于在本发明技术方案的思想指导下的变形和转换,都应该归于本发明保护范围以内。

Claims (10)

1.一种食材/食谱知识图谱的本体映射方法,其特征在于,包括:
获取实例数据并根据实例数据的类别属性构建本体集合;
从所述本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP;
基于决策树模型对所述待映射实例对集合IP进行实例映射并获得实例映射结果,所述实例映射结果中包含等价实例对集合Set1和不等价实例对集合Set2;
基于支持向量机模型对所述待映射概念对集合CP进行概念映射并获得概念映射结果,所述概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4;
根据所述实例映射结果和概念映射结果获得本体映射结果;
其中,所述实例数据为食材实例数据,所述本体集合为食材本体集合;或者,所述实例数据为食谱实例数据,所述本体集合为食谱本体集合。
2.根据权利要求1所述的方法,其特征在于,所述从所述本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP的步骤包括:
S11,对所述待映射实例对集合IP和所述待映射概念对集合CP进行表示,其中,
IP={(I11,I21),(I11,I22),…,(I11,I2m),(I12,I21),…,(I12,I2m),…,(I1n,I21),…,(I1n,I2m)},
CP={(C11,C21),(C11,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1s,C21),…,(C1s,C2t)},
I1i为第一本体O1的实例,C1k为第一本体O1的概念,I2j为第二本体O2的实例,C2p为第二本体O2的概念,i∈{1,2,…,n},k∈{1,2,…,s},j∈{1,2,…,m},p∈{1,2,…,t},n为第一本体O1中实例的总量,s为第一本体O1中概念的总量,m为第二本体O2中实例的总量,t为第二本体O2中概念的总量;
S12,如果第一本体O1中还有未标记的第一实例,则从中取出一个实例I1i并标记,把第二本体O2中的实例全部不标记;否则转至S15;
S13,如果第二本体O2中还有未标记的第二实例,则从中取出一个实例I2j并标记;否则转至S12;
S14,由步骤S12和步骤S13得到的两个实例组成一个待映射实例对(I1i,I2j)并将该实例对放入待映射实例对集合IP中,转至S13;
S15,结束,生成所述待映射实例对集合IP。
3.根据权利要求2所述的方法,其特征在于,所述从所述本体集合中挑选出需要相互映射的第一本体O1和第二本体O2,根据第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP的步骤包括:
S21,如果第一本体O1中还有未标记的第一概念,则从中取出一个概念C1k并标记,把第二本体O2中的概念全部不标记;否则转至S24;
S22,如果第二本体O2中还有未标记的第二概念,则从中取出一个概念C2p并标记;否则转至S21;
S23,由步骤S21和步骤S22得到的两个概念组成一个待映射概念对(C1k,C2p)并将该概念对放入待映射概念对集合CP中,转至S22;
S24,结束,生成所述待映射概念对集合CP。
4.根据权利要求2或3所述的方法,其特征在于,所述基于决策树模型对所述待映射实例对集合IP进行实例映射并获得实例映射结果,所述实例映射结果中包含等价实例对集合和不等价实例对集合的步骤包括:
S31,将待映射实例对集合IP中的所有实例对加入队列Q1,并将训练实例对加入队列Q2,所述训练实例对通过人工标注获得;
S32,使用Q2中的训练实例对作为训练数据训练获得一个基于监督学习的决策树模型;
S33,从队列Q1中选取一个实例对出列,将该实例对的特征向量输入所述决策树模型,由所述决策树模型判断该实例对中的两个实例是否等价,若等价则将该实例对添加至等价实例对集合Set1;反之,则将该实例对添加至不等价实例对集合Set2;
S34,如果Q1不为空,就转至S33;
S35,实例映射结束,获得所述实例映射结果。
5.根据权利要求4所述的方法,其特征在于,所述步骤S32包括:
S41,从队列Q2中抽取正例放入等价实例对集合Set1,从Q2中抽取负例放入不等价实例对集合Set2;
S42,对队列Q1和队列Q2中的所有实例对,依次抽取每个实例对中每个实例的特征;若有特征缺失,则标记为Null;
S43,对队列Q1和队列Q2中的每个实例的特征向量进行清洗,所述清洗规则为:去除字符串中的括号以及标点符号,然后利用编辑距离计算出文本相似度;
S44,清洗完毕后,判定每个实例对中两个实例的特征是否接近,判定方法为:若两个实例的对应特征的字符串完全相同,则判定两个实例的对应特征相同;或者,若两个实例的对应特征的所述文本相似度大于预设阈值,则判定两个实例的对应特征相同;
S45,根据所有训练实例对的数据构建决策树模型,并引入熵函数entropy(D)衡量数据的纯净度,其中,
Pr(car)指类别标签car在训练数据集D中出现的概率,CA为所有类别标签组成的类别集合,|CA|为类别集合CA中类别标签的数量。
6.根据权利要求5所述的方法,其特征在于,所述步骤S45包括:
S51,根据一组训练数据集D及一组未被用来构建决策树模型的属性特征集合A,构造一个根节点;
S52,如果训练数据集D只存在被标注为两实例等价的正例,则把步骤S51构造的根节点标注为“两实例等价”,转至S58;
S53,如果训练数据集D只存在被标注为两实例不等价的负例,则把步骤S51构造的根节点标注为“两实例不等价”,转至S58;
S54,如果属性特征集合A是空集,则比较训练数据集D中正例和负例的数量,若正例数量大于或等于负例数量,则把步骤S51中构造的根节点标注为“两实例等价”然后转至S58,否则把步骤S51中构造的根节点标注为“两实例不等价”然后转至S58;若训练数据集D为空集,则把全部训练数据中出现次数最多的类别属性放入S51中用于构建根节点,并将相应的根节点标注为“两实例不等价”,转至S58;
S55,根据特征az将训练数据集D划分为V个不相交的子集D1,D2,…,DV,则划分后得:
从中选出能够使entropyaz(D)值最小的特征az
S56,将步骤S51中构造的根节点标注为“用特征az来划分”;
S57,根据属性az的取值个数将训练数据集D划分成相同组数的数据,然后对每组数据分别转至步骤S51中运行;
S58,结束,获得构建而成的决策树模型。
7.根据权利要求2或3所述的方法,其特征在于,所述基于支持向量机模型对所述待映射概念对集合CP进行概念映射并获得概念映射结果,所述概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4的步骤包括:
S61,为待映射概念对集合CP的所有概念对生成对偶概念对并将相应的对偶概念对添加至待映射概念对集合CP形成一个新的集合CP’中;
S62,对集合CP’的所有概念对计算五种不对称相似度,所述五种不对称相似度包括:概念反编辑距离相似度、概念集合杰卡德相似度、概念向量相似度、概念文本上下文相似度以及实例集合杰卡德相似度;
S63,人工标注部分概念对的上下位关系,并使用该些已标注的概念对作为训练数据训练获得一个基于监督学习的支持向量机模型;
S64,使用所述支持向量机模型预测集合CP’中所有未标注的概念对,在遍历所有被标注有上下位关系的概念对中,若其对偶概念对也存在上下位关系,则判定相应的概念对中两个概念为等价关系;反之,则判定相应概念对中两个概念仍为上下位关系;
S65,概念映射结束,获得概念映射结果。
8.根据权利要求7所述的方法,其特征在于,所述步骤63包括:
S71,抽取CP’中所有已标注的概念对的特征向量和类别标签作为训练数据M,M={(x1,y1),(x2,y2),...,(xn,yn)},其中xi为一个概念对的特征向量,yi为一个概念对的类别标签,n为已标注的概念对的个数;
S72,获取一个决策平面以分割正例训练数据和负例训练数据,定义决策平面<w*x>+b=0,并定义正例和负例的边界,其中正例H+:<w*x>+b-1=0,负例H-:<w*x>+b+1=0,w为所述决策平面的法向量,b为所述决策平面的偏置,则将支持向量机模型需要学习的问题转化为在满足第一约束条件的情况下正例和负例之间的边距d的最小化问题,其中,
第一约束条件为:yi*(<w*xi>+b)≥1,i=1,2,...,n;
S73,采用标准拉格朗日乘子法,根据边距d和所述第一约束条件求解得到目标函数Lp,其中:
ai为拉格朗日乘子,且目标函数Lp满足KKT条件;
S74,根据所述目标函数Lp和KKT条件求得目标函数Lp的对偶函数Ld,其中:
且对偶函数Ld满足第二约束条件:
S75,求解对偶函数Ld获得法向量w和偏置b用以构建分类函数f(z),根据分类函数f(z)对新的概念对进行判定,其中:
f(z)=sign(<w*z>+b);
sign(<w*z>+b)为符号函数,如果<w*z>+b>0,则sign(<w*z>+b)返回1,相应的概念对被判定为正例;如果<w*z>+b小于0,则sign(<w*z>+b)返回0,相应的概念对被判定为负例。
9.根据权利要求5或6所述的方法,其特征在于,所述步骤S42中,
所述特征为食材特征,所述食材特征包括:食材名称、食材别称、食材功效、食材储藏方法、食材烹饪要点、食材简介;或者,
所述特征为食谱特征,所述食谱特征包括:食谱名称、食谱别称、食谱口味、食谱烹饪工艺、食谱烹饪难度、食谱描述。
10.一种食材/食谱知识图谱的本体映射装置,其特征在于,包括:
获取模块,用于获取实例数据;
本体构建模块,用于根据所述实例数据的类别属性构建本体集合;
集合生成模块,用于根据挑选出的需要相互映射的第一本体O1和第二本体O2的实例集合和概念集合生成待映射实例对集合IP和待映射概念对集合CP;
实例映射模块,用于基于决策树模型对所述待映射实例对集合IP进行实例映射并获得实例映射结果,所述实例映射结果中包含等价实例对集合Set1和不等价实例对集合Set2;
概念映射模块,用于基于支持向量机模型对所述待映射概念对集合CP进行概念映射并获得概念映射结果,所述概念映射结果中包含等价概念对集合Set3以及上下位概念对集合Set4;
本体映射模块,用于根据实例映射结果和概念映射结果获得本体映射结果;
其中,所述实例数据为食材实例数据,所述本体集合为食材本体集合;或者,所述实例数据为食谱实例数据,所述本体集合为食谱本体集合。
CN201810297673.6A 2018-03-30 2018-03-30 一种食材/食谱知识图谱的本体映射方法及装置 Pending CN110555111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810297673.6A CN110555111A (zh) 2018-03-30 2018-03-30 一种食材/食谱知识图谱的本体映射方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810297673.6A CN110555111A (zh) 2018-03-30 2018-03-30 一种食材/食谱知识图谱的本体映射方法及装置

Publications (1)

Publication Number Publication Date
CN110555111A true CN110555111A (zh) 2019-12-10

Family

ID=68733666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810297673.6A Pending CN110555111A (zh) 2018-03-30 2018-03-30 一种食材/食谱知识图谱的本体映射方法及装置

Country Status (1)

Country Link
CN (1) CN110555111A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447267A (zh) * 2018-10-16 2019-03-08 东北石油大学 融合数据元标准的叙词本体构建方法
CN110287306A (zh) * 2019-06-26 2019-09-27 珠海格力电器股份有限公司 一种食谱推荐方法及设备
CN111666939A (zh) * 2020-05-22 2020-09-15 华东师范大学 基于边距约束的任意形状的场景文本检测方法
CN112328810A (zh) * 2020-11-11 2021-02-05 河海大学 一种基于自适应混合本体映射的知识图谱融合方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法
CN104484433A (zh) * 2014-12-19 2015-04-01 东南大学 一种基于机器学习的图书本体匹配方法
CN106371610A (zh) * 2016-09-23 2017-02-01 重庆金瓯科技发展有限责任公司 一种基于脑电信号的驾驶疲劳的检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法
CN104484433A (zh) * 2014-12-19 2015-04-01 东南大学 一种基于机器学习的图书本体匹配方法
CN106371610A (zh) * 2016-09-23 2017-02-01 重庆金瓯科技发展有限责任公司 一种基于脑电信号的驾驶疲劳的检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447267A (zh) * 2018-10-16 2019-03-08 东北石油大学 融合数据元标准的叙词本体构建方法
CN109447267B (zh) * 2018-10-16 2021-04-06 东北石油大学 融合数据元标准的叙词本体构建方法
CN110287306A (zh) * 2019-06-26 2019-09-27 珠海格力电器股份有限公司 一种食谱推荐方法及设备
CN111666939A (zh) * 2020-05-22 2020-09-15 华东师范大学 基于边距约束的任意形状的场景文本检测方法
CN111666939B (zh) * 2020-05-22 2021-02-26 华东师范大学 基于边距约束的任意形状的场景文本检测方法
CN112328810A (zh) * 2020-11-11 2021-02-05 河海大学 一种基于自适应混合本体映射的知识图谱融合方法
CN112328810B (zh) * 2020-11-11 2022-10-14 河海大学 一种基于自适应混合本体映射的知识图谱融合方法

Similar Documents

Publication Publication Date Title
CN108959252B (zh) 基于深度学习的半监督中文命名实体识别方法
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110555111A (zh) 一种食材/食谱知识图谱的本体映射方法及装置
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN112905762A (zh) 一种基于同等注意力图网络的视觉问答方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
US20170004417A1 (en) Method of generating features optimal to a dataset and classifier
CN106874397A (zh) 一种面向物联网设备的自动语义标注方法
CN110275928A (zh) 迭代式实体关系抽取方法
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
CN109858031A (zh) 神经网络模型训练、上下文预测方法及装置
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
CN114021572B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN115545005A (zh) 一种融合知识和约束图的远程监督关系抽取方法
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN115408536A (zh) 一种基于上下文信息融合的知识图谱补全方法
CN115017144A (zh) 一种基于图神经网络的司法文书案情要素实体识别方法
CN114611519A (zh) 一种文本的实体关系抽取方法、装置及电子设备
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191210

RJ01 Rejection of invention patent application after publication