CN104484433B - 一种基于机器学习的图书本体匹配方法 - Google Patents
一种基于机器学习的图书本体匹配方法 Download PDFInfo
- Publication number
- CN104484433B CN104484433B CN201410799922.3A CN201410799922A CN104484433B CN 104484433 B CN104484433 B CN 104484433B CN 201410799922 A CN201410799922 A CN 201410799922A CN 104484433 B CN104484433 B CN 104484433B
- Authority
- CN
- China
- Prior art keywords
- concept
- books
- similarity
- pair
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的图书本体匹配方法,主要用于处理图书领域的本体匹配问题。本发明首先对于给定的两个图书本体生成所有待匹配的实例对与概念对,再利用启发式实例匹配规则与基于监督学习的决策模型从所有待匹配的实例对中挖掘实例间的等价关系,即得到实例匹配结果。然后对于所有待匹配的概念对使用基于半监督学习的标签传播算法挖掘概念间的上下位与等价关系,从而得到概念匹配结果。最终,将实例匹配结果与概念匹配结果共同作为图书本体匹配的结果。
Description
技术领域
本发明属于本体匹配领域,涉及一种基于机器学习的图书本体匹配方法。
背景技术
近年来,随着语义万维网的不断发展,越来越多的知识以本体的形式发布在万维网中。本体作为一种新的且具有代表性的知识表现形式,在语义万维网的发展与部署中扮演着不可忽视的作用,越来越多的组织及个人构建不同领域的基于本体的应用,包括电子商务、生命科学、社交媒体、地理信息等。随着互联网中本体数量的不断增加,必然存在多个本体来源于相关或相同的应用领域。由于来源于相关或相同领域的不同本体的构建方式不同,必然具有很大的信息互补性,这样对于使用不同但相关的本体构建而成的应用而言,隐含了很大的交互空间。所以,使用本体匹配技术将相关本体联系在一起是一件极富意义而且极具挑战的工作。
由于本体的构建方式不同,因此语义异构的问题是本体匹配技术所面对的最大的挑战。近年来,国内外研究人员为了解决本体匹配中的语义异构问题,许多实用系统被研制而成,包括东南大学的Falcon系统、Lily系统,卡尔斯鲁厄大学的FOMA系统、APFEL系统,清华大学与香港科技大学的RIMOM系统,以及伊利诺伊大学的GLUE系统等。但是目前并未出现针对图书领域的本体匹配系统,仅仅使用领域无关的本体匹配系统来对图书领域的本体进行匹配,无法分析与挖掘出图书领域本体固有的特点,因此匹配效果并不尽如人意,达不到实用要求。
本文中提出的基于机器学习的图书本体匹配方法,分析图书本体中所固有的属性特征,使用了启发式实例匹配规则与基于监督学习的决策模型进行实例匹配。在实例匹配完成的基础之上。定义了概念间的不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度以及实例集合相似度作为每个概念对的特征,再使用基于半监督学习的标签传播算法进行概念匹配,从而完成图书领域本体匹配的任务。
发明内容
技术问题:本发明提供一种对于给定的两个图书本体,不仅能够自动挖掘不同图书本体中实例间的等价关系,而且可以挖掘不同图书本体中概念间的上下位与等价关系的基于机器学习的图书本体匹配方法。
技术方案:本发明的基于机器学习的图书本体匹配方法,首先从给定的两个图书本体中抽取出待匹配的实例对与概念对;对于所有实例对,顺序使用启发式实例匹配规则与基于监督学习的决策模型进行实例间等价关系的判断;然后为所有待匹配的概念对生成反向概念对,再利用基于半监督学习的标签传播算法进行概念间上下位与等价关系的判断;从而获得所有实例匹配与概念匹配的结果。
本发明的基于机器学习的图书本体匹配方法,包括如下步骤:
1)分别遍历两个给定待匹配图书本体的实例集合与概念集合,生成待匹配实例对集合IP与待匹配的概念对集合CP,其中IP={(I11,I21),(I11,I22),…,(I11,I2m),(I12,I21),…(I12,I2m),…,(I1(n-1),I2m),(I1n,I21),…,(I1n,I2m)},CP={(C11,C21),(C11,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1(s-1),C2t),(C1s,C21),…,(C1s,C2t)},I1i与C1k分别为第一个图书本体的实例与概念,i∈{1,2,…,n},k∈{1,2,…,s},n与s分别为第一个图书本体中实例与概念的总量,I2j与C2p分别为第二个图书本体的实例与概念,j∈{1,2,…,m},p∈{1,2,…,t},m与t分别为第二个图书本体中实例与概念的总量,(I1i,I2j)为待匹配实例对,(C1k,C2p)为待匹配的概念对;
2)对于所述步骤1)中生成的所有待匹配的实例对,利用启发式实例匹配规则与基于监督学习的决策模型进行实例匹配,匹配过程如下:
2a)对所有待匹配实例对,利用如下启发式实例匹配规则进行关系的判断:如果待匹配的一对实例均具有国际标准书号,则进一步判断两者的国际标准书号是否相同,若相同,则判定两实例等价,若不同,则判定不等价;若待匹配的一对实例的国际标准书号有缺失,则认为无法判定该实例对之间是否存在等价关系;
完成对所有待匹配实例对的上述判断后,若存在无法判定关系的实例对,则进入步骤2b),否则实例匹配结束,进入步骤3);
2b)从判定出关系的实例对中进行抽样,并提取图书实例的有效特征,包括:书名、作者、译者、出版社、页数、开本、出版时间、原始定价,用于训练基于监督学习的决策模型,进而将无法判定关系的实例对的有效特征输入所述基于监督学习的决策模型,得出各实例对的两个实例之间是否存在等价关系;
3)对于所述步骤1)中生成的所有待匹配的概念对,利用基于半监督学习的标签传播算法进行概念匹配,匹配过程如下:
3a)将每个待匹配的概念对(C1k,C2p)作为正向概念对,为其生成反向概念对(C2p,C1k);
3b)分别为每个正向概念对和每个反向概念对构造不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,作为其自身的特征;
3c)针对所有正向概念对和反向概念对,利用显式图书概念间上下位关系匹配规则挖掘出上下位关系和非上下位关系,对并对其添加标签作为已标注概念对,然后将所有正反向概念对作为节点构建一个完全图,再根据所述步骤3b)中得到的正向概念对的特征和反向概念对的特征计算所有节点间边的权重,最后利用基于半监督学习的标签传播算法判断每个正向概念对的两个概念之间,以及每个反向概念对的两个概念之间是否存在上下位关系,若一个正向概念对(C1k,C2p)的两个概念之间,以及其反向概念对(C2p,C1k)的两个概念之间均存在上下位关系,则判定概念C1k与C2p间为等价关系;
4)将所述步骤2)中生成的实例匹配结果与所述步骤3)中生成的概念匹配结果,共同作为最终的图书本体的匹配结果。
本发明方法的优选方案中,所述步骤3b)中按照如下方法为每个正向概念对和每个反向概念对构造不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度:
1)字符串相似度:给定一个概念对(C1k,C2p),概念C1k与C2p之间的字符串相似度CLsim(C1k,C2p)的定义如下所示:
其中l(C1k)是C1k的标签字符串,|l(C1k)|是C1k的标签字符串长度,而LCS(l(C1k),l(C2p))表示l(C1k)与l(C2p)的最长公共子串的长度;
2)相关概念集合相似度:给定任意一个概念C,将其概念标签l(C)提交到百度知道后,收集返回的前十页面中的所有相关问题,然后抽取这些问题所关联的分类,将这些分类构成了概念C的一组相关概念RCS(C),RCS(C)={rc1,rc2,…,rcn},其中rcx是第x个相关概念,对应给定的概念对(C1k,C2p),概念C1k与C2p之间的相关概念集合相似度RCSsim(C1k,C2p)的定义如下所示:
其中|RCS(C1k)∩RCS(C2p)|指C1k与C2p的相关概念集合的交集的大小,而|RCS(C1k)|表示C1k的相关概念集合的大小;
3)相关概念向量相似度:定义概念C的相关概念向量RCV(C),RCV(C)=<rc1(C),rc2(C),…,rcn(C)>,其中rcy(C)表示第y个相关概念rcy出现的次数;对于给定一个概念对(C1k,C2p),概念C1k与C2p之间的相关概念向量相似度RCVsim(C1k,C2p)的定义如下所示:
4)文本上下文相似度:对于给定的任意一个概念C,首先将其标签l(C)作为关键词提交到搜索引擎,将返回的前二十个搜索结果作为C的文本上下文并进行分词与去停用词处理,最后采用词频-逆向文件频率方法对得到的每个词组u进行加权,u的权重wu的计算公式如下所示:
其中tfu指u在其文本上下文中的出现次数,dfu是包含u的文本上下文的数量,而N为文本上下文的总数;
定义概念C的文本上下文向量为TC(C)=<w1(C),w2(C),…,wn(C)>,其中第v个词组TC(C)v的权重是wv(C),n是所有概念的文本上下文进行分词与去停用词处理后的词组的总量;对于给定的一个概念对(C1k,C2p),概念C1k与C2p之间的文本上下文的相似度TCsim(C1k,C2p)的定义如下所示:
5)实例集合相似度:此处定义概念C的实例集合为IS(C),利用两个不同图书本体的实例匹配后得到的属于不同图书本体的等价实例,根据下式得到给定的概念对(C1k,C2p)中概念C1k与C2p之间的实例集合相似度ISsim(C1k,C2p):
其中|IS(C1k)∩IS(C2p)|指C1k与C2p的实例集合的交集,即等价实例的数量,而|IS(C1k)|表示C1k的实例集合的大小。
本发明方法的优选方案中,所述步骤3c)中的上下位关系匹配规则为:
1)当一个图书概念C1k字符串是另一个图书概念C2p的字符串的后缀,并且C2p中不包含“与”、“和”、“&”符号时,则判定C2p是C1k的子概念;
2)当一个图书概念C2p包含“与”或“和”或“&”符号时,以这些符号作为分隔符对C2p进行分词,若分词后得到的词组中有一个词与图书概念C1k的字符串完全相同,则判定C1k是C2p的子概念;
3)分别计算给定的一个图书概念对(C1k,C2p)的两个概念间的不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,若得到的上述五种相似度均小于0.5时,则判定这两个图书概念间不存在上下位关系。
有益效果:本发明与现有技术相比,具有以下优点:
由于本体的构建方式不同,因此语义异构的问题是本体匹配技术所面对的最大的挑战。近年来,国内外研究人员为了解决本体匹配中的语义异构问题,许多实用的本体匹配系统被研制而成,其中与本发明最为接近的是基于机器学习方法的FOMA系统、GLUE系统以及APFEL系统。
FOMA系统通过机器学习方法设计分类规则,以整合各种不同的相似度度量方式进行本体匹配。但是该方法采用人工的方式对训练数据进行标注以帮助训练匹配模型,这是非常耗时耗力的。本发明采用的匹配模型的训练过程无需人工参与,在实例匹配与概念匹配的过程中分别利用启发式实例匹配规则与显式上下位规则对训练数据进行高效率的自动化标注。
GULE系统中利用了各种不同的机器学习方法得到不同的匹配模型,再将这些模型进行整合以进行本体匹配。该方法仅对不同本体的概念进行了匹配,而在本发明中对于不同本体不仅对概念进行了匹配,而且同时对实例进行了匹配,并在概念匹配的过程中运用了实例匹配的结果。
APFEL系统首先使用许多本体自身的信息计算不同的相似度,然后机器学习方法训练出一个决策模型进行本体匹配。该方法对于不同本体中的概念匹配仅挖掘概念间的等价关系,而本发明不仅能够挖掘不同本体中概念间的等价关系,还可以挖掘出上下位关系。
此外,上述三种系统均为领域无关本体匹配系统,而本发明仅针对图书领域的本体进行匹配,所以在匹配的过程中考虑了若干领域特性。比如本发明利用图书实例的固有属性特点提取出九种特征,包括国际标准书号、书名、作者、译者、出版社、页数、开本、出版时间及原始定价以帮助进行实例匹配工作。
经过实例分析证明,利用本发明提出的基于机器学习的图书本体匹配方法,可以有效地挖掘不同图书本体中实例间等价关系与概念间的上下位及等价关系,该方法的正确率与召回率均超过现有的领域无关的本体匹配系统。
附图说明
图1是本发明的基本过程的示意图;
图2是本发明实例匹配算法流程图;
图3是本发明概念匹配算法流程图。
具体实施方式
以下结合实施例和说明书附图,详细说明本发明的实施过程。
本发明的基于机器学习的本体匹配方法,包括以下3个步骤:
1)对于给定的两个待匹配的图书本体生成待匹配的实例对集合IP与待匹配的概念对集合CP:
本体是由万维网联盟(W3C)提出的用于描述万维网上各类资源信息的一种规范,本发明中所述的本体均为图书领域本体,由图书概念、实例、属性、关系等构成。实例指具体的某个对象,概念是指对象类型或者实例集合,属性指对象或者概念可能具有的特征,而关系指对象间、概念间以及对象与概念间彼此关联的方式。比如:“Web数据挖掘”就是一个实例,“人工智能书籍”则是一个概念,“Web数据挖掘”有一个属性是“国际标准书号”,而“人工智能书籍”与“计算机书籍”这两个概念间存在上下位关系,即“人工智能书籍”是“计算机书籍”的子概念。
(a)对于两个给定的图书本体O1和O2,待匹配的实例对集合IP的生成步骤如下:
(1)如果本体O1中还有未使用的图书实例则取出一个图书实例I1i,并标记为已使用,把本体O2中的图书实例全部标注为未使用;否则转步骤(4);
(2)如果本体O2中还有未使用的图书实例则取出一个图书实例I2j,并标记为已使用;否则转步骤(1);
(3)由步骤(1)和步骤(2)得到的两个图书实例组成一个待匹配实例对(I1i,I2j),并将(I1i,I2j)放入集合IP中,转步骤(2);
(4)结束,返回待匹配的实例对集合IP,IP={(I11,I21),(I11,I22),…,(I11,I2m),(I12,I21),…(I12,I2m),…,(I1(n-1),I2m),(I1n,I21),…,(I1n,I2m)},I1i为O1的实例,i∈{1,2,…,n},n为O1中实例的总量,I2j为O2的实例,j∈{1,2,…,m},m为O2中实例的总量。
(b)对于两个给定的图书本体O1和O2,待匹配的概念对集合CP的生成步骤如下:
(1)如果本体O1中还有未使用的概念则取出一个概念C1k,并标记为已使用,把本体O2中的全部概念标注为未使用;否则转步骤(4);
(2)如果本体O2中还有未使用的概念则取出一个概念C2p,并标记为已使用;否则转步骤(1);
(3)由步骤(1)和步骤(2)得到的两个概念组成一个待匹配概念对(C1k,C2p),并将(C1k,C2p)放入集合CP中,转步骤(2);
(4)结束,返回CP={(C11,C21),(C11,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1(s-1),C2t),(C1s,C21),…,(C1s,C2t)},C1k为O1的概念,k∈{1,2,…,s},s为O1中概念的总量,C2p为O2的概念,p∈{1,2,…,t},t为O2中概念的总量。
2)进行实例匹配:
在图书实例匹配时,本发明经过分析共提取了九种图书实例的有效特征,其中最为重要的特征是国际标准书号,可视为图书实例的唯一标识符,此时使用启发式实例匹配规则进行实例匹配,即利用国际标准书号进行实例匹配,该规则使用的前提是待匹配的实例对中的实例均拥有国际标准书号。但是图书本体中,实例的国际标准书号有可能是缺失的,所以需要使用其他8种有效特征,帮助训练决策模型,从而帮助判断待匹配的实例对中的两个实例间是否存在等价关系。
这里结合图2说明图书实例匹配算法的步骤:
(a)将步骤1)-(a)中得到的待匹配实例对集合IP中的所有待匹配实例对加入队列Queue1;
(b)Queue1中一个实例对出队列,若该实例对中两个实例均拥有国际标准书号,转步骤(c),否则,该实例对进队列Queue2,转步骤(d);
(c)若给定实例对中两个实例的国际标准书号完全相同,则判定两个实例等价并将该实例对加入Set1,若不同,则判定两个实例不等价并将该实例对加入Set2;
(d)判断Queue1是否为空,否,转步骤(b);
(e)判断Queue2是否为空,是,转步骤(i);
(f)对于Queue2中待匹配的实例对而言,由于国际标准书号的缺失,所以本发明利用剩余8种有效特征:书名、作者、译者、出版社、页数、开本、出版时间与原始定价,帮助训练基于监督学习的决策模型,从而判断待匹配实例对中的两个实例之间是否存在等价关系,构建决策模型步骤如下:
(1)从Set1中抽取正例,Set2中抽取负例,以作为训练数据。由于在实际匹配中负例数据必然多于正例数据,所以此处按照正例负例1:4的比例从Set1和Set2中随机抽取训练数据,总数据量最大为500个,如果Set1或Set2中数据不足,则按照上述正例与负例的比例获取最多数据。
(2)对所有已获得的训练数据与Queue2中的所有数据,依次抽取每个实例对中每个实例的8种有效特征:书名、作者、译者、出版社、页数、开本、出版时间与原始定价,作为给定实例的特征向量,若有特征缺失,则标记为NULL。比如:给定一个待匹配的实例对(I1i,I2j),
I1i=<C++Primer(中文版第5版),{Stanley B.Lippman,Josée Lajoie,BarbaraE.Moo},{王刚,杨巨峰},电子工业出版社,NULL,16,2013-09-01,128>,
I2j=<C++Primer(中文版)(第5版),{斯坦利·李普曼(Stanley B.Lippman)(作者),约瑟·拉乔伊(Josee Lajoie)(作者),芭芭拉·默(Barbara E.Moo)(作者)},NULL,电子工业出版社,848,16,2013-09-01,128>
(3)由于相同的特征表现形式不同,易导致匹配时出现错误,所以需要对训练数据与Queue2中的所有数据中的每个实例特征向量进行清洗。对于相同的图书实例的特征来说,主要在书名、作者和译者这三者的表现形式存在较大的差异性,所以针对这三项设计了自动化的清洗规则如下:
针对书名特征,首先去除字符串中的括号及括号中的内容,再去除字符串中的标点及空格,最后将把字符串中的英文全部转换成小写格式。对实例I1i和I2j的书名特征使用上述规则,I1i与I2j的书名均转换成c++primer。
针对作者与译者特征,首先去除字符串中的括号及括号中的内容,再以“,”为分隔符对字符串进行切分,得到一组作者的集合,如果该图书实例只有一个作者那么得到的就是只包含一个作者的集合,然后判断集合中的作者或译者如果是英文,则通过一个跨语言的知识库DBpedia将英文转换成中文,作者或者译者如果是中文则不做修改,最后去除字符串中的空格和其他标点符号。对实例I1i和I2j的作者特征使用上述规则,I1i与I2j的书名均转换成{斯坦利李普曼,约瑟拉乔伊,芭芭拉默}。
(4)在对实例特征清洗完毕后,可判定每个实例对中两个实例的特征是否相同,判断方法为:对于书名、出版社、页数、开本、出版时间与原始定价而言,若两个给定实例的对应特征的字符串完全相同,则判定两个特征相同;对于作者和译者而言,由于这两个特征可能为集合,并且外国作者很有可能省略姓氏,所以若两个给定实例的作者或译者,可以一一对应且完全相同或一个是另外一个的子串,则可以判定两个实例的作者或者译者相同。
判断特征是否相同后,对于每一个待匹配实例对,可用一8维的特征向量表示。举例说明:(I1i,I2j)=<1,1,0,1,0,1,1,1>,1代表对应的特征相同,0代表不同。
(5)在获得所有训练数据的特征向量后,需构建决策模型。此处,使用一种基于贪心策略的算法构造了一个用于图书实例分类的决策树模型,此算法的基本思想是用数据中某一个特征的不同来把训练数据分为两组,选择特征的原则是使经过这个特征分得的两组数据尽可能的“纯”,即尽可能使每组中数据只属于一类,然后在得到的两组数据上重复这个过程直到满足终止条件。而为了衡量数据的纯度,这里引进信息论中的熵(entropy)的概念,设某一数据集合D,集合D中的每一条数据都属于一个特定的类别car,所有car组成类别集合CA,|CA|表示集合CA中的不同类别的数量。熵的计算公式如下:
其中Pr(car)指类别car在数据集D中的概率。
以第z个特征az划分D,其中az属性为离散的,共有V个取值,所以D可以被划分V个不相交的子集:D1,D2,…,DV,一个图书实例对的特征向量中的每个特征只有相同和不相同两种状态所以V=2,则划分后熵的计算公式如下:
构建决策树模型算法步骤如下:
i.对于一组训练数据(即一组实例对)D,一组未被使用的属性特征集合A,构造一个根节点;
ii.如果D中只存在被标注为两图书实例等价的正例,则把步骤(i)构造的节点标注为“两图书实例等价”,转步骤(viii);
iii.如果D中只存在被标注为两图书实例不等价的负例,则把步骤(i)构造的节点标注为“两图书实例不等价”,转步骤(viii);
iv.如果A是空集,则比较D中正例和负例的数量,若正例数量大于或等于负例数量则把步骤(i)构造的节点标注为“两图书实例等价”然后转步骤(viii),否则把步骤(i)构造的节点标记为“两图书实例不等价”然后转步骤(viii);若D为空,则把全部训练数据中出现次数最多的类别赋予步骤(i)构造的节点,此处中由于使用的负例比正例多所以标注节点为“两图书实例不等价”,转步骤(viii);
v.选出能使划分后熵最小的特征az;
vi.把步骤(i)构造的节点标注为“用属性az来划分”;
vii.把属性az划分得到的两组数据(D1,A-az)和(D2,A-az)分别转到步骤(i)运行;
viii.结束,返回构建而成的决策模型。
(g)Queue2中一个实例对出队列,将该实例对的特征向量输入到构建而成的决策模型中,判断该实例对中两个实例是否等价,是,将该实例对加入Set1,否,将该实例对加入Set2。
(h)判断Queue2是否为空,否,转步骤(g)。
(i)图书实例匹配结束,返回等价实例对集合Set1和不等价实例对集合Set2。
3)进行概念匹配
在图书概念匹配时,本发明首先定义步骤1)-(b)中生成的待匹配概念对集合CP中所有待匹配概念对为正向概念对,为所有正向概念对生成反向概念对。然后计算每个正反向概念对中两个概念间五种不对称相似度,包括的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度作为每个概念对的特征,再利用显式图书概念间上下位关系匹配规则挖掘出上下位关系和非上下位关系,对并对其添加标签作为已标注概念对。之后,将所有正反向概念对作为节点构建一个完全图,并根据每个正反向概念对的特征计算所有节点间边的权重。最后使用基于半监督学习的标签传播算法挖掘概念间的上下位关系,并根据得到的概念间的上下位关系进行概念间等价关系的推断。
这里结合图3说明图书概念匹配算法的步骤:
(a)此处将步骤1)-(b)中生成的待匹配概念对集合CP中所有待匹配概念对为正向概念对,然后为所有正向概念对生成方向概念对,并添加到集合CP中。比如一个正向概念对为(C1k,C2p),其反向概念对则为(C2p,C1k);
(b)对CP中所有待匹配概念对计算五种不对称相似度作为每个概念对的特征向量,具体相似度定义如下:
(1)字符串相似度:这种度量方式实际上是基于最长公共子串的字符串匹配,对于一个概念对(C1k,C2p),概念C1k与C2p之间的字符串相似度CLsim(C1k,C2p)的定义如下所示:
其中l(C1k)是C1k的标签字符串,|l(C1k)|是C1k的标签字符串长度,而LCS(l(C1k),l(C2p))表示l(C1k)与l(C2p)的最长公共子串的长度;
(2)相关概念集合相似度:此处,本发明将一个概念映射到百度知道的一组相关概念。给定任意一个概念C,将其概念标签l(C)提交到百度知道后,收集返回的前十页面中的所有相关问题,然后抽取这些问题所关联的分类,将这些分类构成了概念C的一组相关概念RCS(C),这一组相关概念可以被表示成集合的形式,RCS(C)={rc1,rc2,…,rcn},其中rcx是第x个相关概念,对应给定的概念对(C1k,C2p),概念C1k与C2p之间的相关概念集合相似度RCSsim(C1k,C2p)的定义如下所示:
其中|RCS(C1k)∩RCS(C2p)|指C1k与C2p的相关概念集合的交集的大小,而|RCS(C1k)|表示C1k的相关概念集合的大小;
(3)相关概念向量相似度:一个概念C在百度知道中的第y个相关概念rcy可能不止出现一次,实际上,rcy出现的次数即为与rcy相关联的问题出现的次数。由于rcy的出现次数在一定程度上反映了rcy的重要程度与流行程度,所以此处进一步定义概念C的相关概念向量RCV(C),RCV(C)=<rc1(C),rc2(C),…,rcn(C)>,其中rcy(C)表示第y个相关概念rcy出现的次数;对于给定一个概念对(C1k,C2p),概念C1k与C2p之间的相关概念向量相似度RCVsim(C1k,C2p)的定义如下所示:
(4)文本上下文相似度:由于概念本身没有文本上下文,为了更加精确地检测概念间的上下位关系,这里用搜索引擎丰富概念的文本表示。具体来说,对于给定的任意一个概念C,首先将其标签l(C)作为关键词提交到搜索引擎,然后返回的搜索结果为一系列以片段形式组织的相关网页,每个片段包括网页标题、带有l(C)附近词组的一小部分网页内容以及网页的链接。之后将返回的前二十个搜索结果作为C的文本上下文并进行分词与去停用词处理,最后采用词频-逆向文件频率方法对得到的每个词组u进行加权,u的权重wu的计算公式如下所示:
其中tfu指u在其文本上下文中的出现次数,dfu是包含u的文本上下文的数量,而N为文本上下文的总数,该加权方法的基本思想为:当一个词在给定文档中出现的次数越多,并且在其他文档中出现的次数越少,该词对于给定文档而言越重要,其权重也越高。
定义概念C的文本上下文向量为TC(C)=<w1(C),w2(C),…,wn(C)>,其中第v个词组TC(C)v的权重是wv(C),n是所有概念的文本上下文进行分词与去停用词处理后的词组的总量,如果词组TC(C)v没有与l(C)一起出现,那么对应的wv(C)的值是0;对于给定的一个概念对(C1k,C2p),概念C1k与C2p之间的文本上下文的相似度TCsim(C1k,C2p)的定义如下所示:
(5)实例集合相似度:在图书本体中,每个概念的实例通常也是明确给出的,此处定义概念C的实例集合为IS(C),利用两个不同图书本体的实例匹配后得到的属于不同图书本体的等价实例,根据下式得到给定的概念对(C1k,C2p)中概念C1k与C2p之间的实例集合相似度ISsim(C1k,C2p):
其中|IS(C1k)∩IS(C2p)|指C1k与C2p的实例集合的交集,即等价实例的数量,而|IS(C1k)|表示C1k的实例集合的大小。
(c)利用显式图书概念间上下位关系匹配规则从CP中所有待匹配概念对中挖掘出显然是上下位关系和非上下位关系的概念对作为已标注数据,具体规则如下所示:
(1)当一个图书概念C1k字符串是另一个图书概念C2p的字符串的后缀,并且C2p中不包含“与”、“和”、“&”符号时,则判定C2p是C1k的子概念,比如“企业管理”是“管理”的子概念;
(2)当一个图书概念C2p包含“与”或“和”或“&”符号时,以这些符号作为分隔符对C2p进行分词,若分词后得到的词组中有一个词与图书概念C1k的字符串完全相同,则判定C1k是C2p的子概念,比如“计算机”是“计算机与互联网”的子概念;
(3)分别计算给定的一个图书概念对(C1k,C2p)的两个概念间的不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,若得到的上述五种相似度均小于0.5时,则判定这两个图书概念间不存在上下位关系。
(d)将CP中所有待匹配概念对作为节点构建一个完全图,再利用每个节点的特征向量计算节点之间边的权重,权重的计算公式如下所示:
其中,D表示特征向量的维度,dij表示任意两个节点i与j的欧式距离,权重wij由参数σ调节,边的权重越大则标签的传播越顺利。此处σ由一个启发式方法确定,使用了构建最小生成树的克鲁斯卡尔算法,具体如下所示:
(1)初始时,所有节点间不连边,并且计算出所有节点间的欧氏距离,按从小到大排序;
(2)将距离最短的两个节点连接起来,但是需确保每添加一条边时,新添加的边与之前已添加的边不能构成回路,否则放弃最小边,选择次小边。
(3)不断重复步骤(2),直至所有节点都被连接。
(4)找到分别被标注为上下位关系与非上下位关系的距离最短的两个节点,这个距离d0可作为两类标签(上下位关系与非上下位关系)间的最短距离。
(5)设置σ为d0的1/3,导致具有比d0更长的结点间边的权重更加趋近于0,从而尽可能使得标签的传播仅在本类别里进行。
(e)使用标签传播算法挖掘出具有上下位关系的概念对,算法的具体步骤如下:
(1)为衡量一个节点的类别标签通过图中某边传播到其他节点的概率,先定义一个(l+u)*(l+u)的概率传递矩阵T,l为已标注节点的数量,u为未标注节点的数量,矩阵元素Tij的计算公式如下:
其中Tij是节点j到i的传播概率,与此同时,定义一个(l+u)*C标注矩阵Y,C表示类别数量(这里仅有两个类别:上下位关系和非上下位关系),矩阵元素Yic的计算公式如下:
Yic=δ(yi,c)
其中Yic表示节点yi属于类别c的概率,如果Yic>δ,则判定节点yi属于类别c,这里δ取0.5;
(2)所有节点通过如下过程传播标签:Y←TY;
(3)将Y中每一行的概率按比例进行归一处理;
(4)将已标注节点的概率分布恢复到初始值;
(5)从步骤(2)开始重复,直至Y收敛。
(f)遍历所有被标注为上下位关系的概念对,若其反向概念对也存在上下位关系,则判定该概念对中两个概念为等价关系,反之则保留上下位关系不变。
(g)图书概念匹配结束,返回所有具有等价关系与上下位关系的概念对。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
Claims (2)
1.一种基于机器学习的图书本体匹配方法,其特征在于,该方法包括如下步骤:
1)分别遍历两个给定待匹配图书本体的实例集合与概念集合,生成待匹配实例对集合IP与待匹配的概念对集合CP,其中IP={(I11,I21),(I11,I22),…,(I11,I2m),(I12,I21),…(I12,I2m),…,(I1(n-1),I2m),(I1n,I21),…,(I1n,I2m)},CP={(C11,C21),(C11,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1(s-1),C2t),(C1s,C21),…,(C1s,C2t)},I1i与C1k分别为第一个图书本体的实例与概念,i∈{1,2,…,n},k∈{1,2,…,s},n与s分别为第一个图书本体中实例与概念的总量,I2j与C2p分别为第二个图书本体的实例与概念,j∈{1,2,…,m},p∈{1,2,…,t},m与t分别为第二个图书本体中实例与概念的总量,(I1i,I2j)为待匹配实例对,(C1k,C2p)为待匹配的概念对;
2)对于所述步骤1)中生成的所有待匹配的实例对,利用启发式实例匹配规则与基于监督学习的决策模型进行实例匹配,匹配过程如下:
2a)对所有待匹配实例对,利用如下启发式实例匹配规则进行关系的判断:如果待匹配的一对实例均具有国际标准书号,则进一步判断两者的国际标准书号是否相同,若相同,则判定两实例等价,若不同,则判定不等价;若待匹配的一对实例的国际标准书号有缺失,则认为无法判定该实例对之间是否存在等价关系;
完成对所有待匹配实例对的上述判断后,若存在无法判定关系的实例对,则进入步骤2b),否则实例匹配结束,进入步骤3);
2b)从判定出关系的实例对中进行抽样,并提取图书实例的有效特征,包括:书名、作者、译者、出版社、页数、开本、出版时间、原始定价,用于训练基于监督学习的决策模型,进而将无法判定关系的实例对的有效特征输入所述基于监督学习的决策模型,得出各实例对的两个实例之间是否存在等价关系;
3)对于所述步骤1)中生成的所有待匹配的概念对,利用基于半监督学习的标签传播算法进行概念匹配,匹配过程如下:
3a)将每个待匹配的概念对(C1k,C2p)作为正向概念对,为其生成反向概念对(C2p,C1k);
3b)按照如下方法分别为每个正向概念对和每个反向概念对构造不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,作为其自身的特征:
1)字符串相似度:给定一个概念对(C1k,C2p),概念C1k与C2p之间的字符串相似度CLsim(C1k,C2p)的定义如下所示:
其中l(C1k)是C1k的标签字符串,|l(C1k)|是C1k的标签字符串长度,而LCS(l(C1k),l(C2p))表示l(C1k)与l(C2p)的最长公共子串的长度;
2)相关概念集合相似度:给定任意一个概念C,将其概念标签l(C)提交到百度知道后,收集返回的前十页面中的所有相关问题,然后抽取这些问题所关联的分类,将这些分类构成了概念C的一组相关概念RCS(C),RCS(C)={rc1,rc2,…,rcn},其中rcx是第x个相关概念,对应给定的概念对(C1k,C2p),概念C1k与C2p之间的相关概念集合相似度RCSsim(C1k,C2p)的定义如下所示:
其中|RCS(C1k)∩RCS(C2p)|指C1k与C2p的相关概念集合的交集的大小,而|RCS(C1k)|表示C1k的相关概念集合的大小;
3)相关概念向量相似度:定义概念C的相关概念向量RCV(C),RCV(C)=<rc1(C),rc2(C),…,rcn(C)>,其中rcy(C)表示第y个相关概念rcy出现的次数;对于给定一个概念对(C1k,C2p),概念C1k与C2p之间的相关概念向量相似度RCVsim(C1k,C2p)的定义如下所示:
4)文本上下文相似度:对于给定的任意一个概念C,首先将其标签l(C)作为关键词提交到搜索引擎,将返回的前二十个搜索结果作为C的文本上下文并进行分词与去停用词处理,最后采用词频-逆向文件频率方法对得到的每个词组u进行加权,u的权重wu的计算公式如下所示:
其中tfu指u在其文本上下文中的出现次数,dfu是包含u的文本上下文的数量,而N为文本上下文的总数;
定义概念C的文本上下文向量为TC(C)=<w1(C),w2(C),…,wn(C)>,其中第v个词组TC(C)v的权重是wv(C),n是所有概念的文本上下文进行分词与去停用词处理后的词组的总量;对于给定的一个概念对(C1k,C2p),概念C1k与C2p之间的文本上下文的相似度TCsim(C1k,C2p)的定义如下所示:
5)实例集合相似度:此处定义概念C的实例集合为IS(C),利用两个不同图书本体的实例匹配后得到的属于不同图书本体的等价实例,根据下式得到给定的概念对(C1k,C2p)中概念C1k与C2p之间的实例集合相似度ISsim(C1k,C2p):
其中|IS(C1k)∩IS(C2p)|指C1k与C2p的实例集合的交集,即等价实例的数量,而|IS(C1k)|表示C1k的实例集合的大小;
3c)针对所有正向概念对和反向概念对,利用显式图书概念间上下位关系匹配规则挖掘出上下位关系和非上下位关系,对并对其添加标签作为已标注概念对,然后将所有正反向概念对作为节点构建一个完全图,再根据所述步骤3b)中得到的正向概念对的特征和反向概念对的特征计算所有节点间边的权重,最后利用基于半监督学习的标签传播算法判断每个正向概念对的两个概念之间,以及每个反向概念对的两个概念之间是否存在上下位关系,若一个正向概念对(C1k,C2p)的两个概念之间,以及其反向概念对(C2p,C1k)的两个概念之间均存在上下位关系,则判定概念C1k与C2p间为等价关系,所述显式图书概念间上下位关系匹配规则如下所示:
(1)当一个图书概念C1k字符串是另一个图书概念C2p的字符串的后缀,并且C2p中不包含“与”、“和”、“&”符号时,则判定C2p是C1k的子概念;
(2)当一个图书概念C2p包含“与”或“和”或“&”符号时,以这些符号作为分隔符对C2p进行分词,若分词后得到的词组中有一个词与图书概念C1k的字符串完全相同,则判定C1k是C2p的子概念;
(3)分别计算给定的一个图书概念对(C1k,C2p)的两个概念间的不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,若得到的上述五种相似度均小于0.5时,则判定这两个图书概念间不存在上下位关系;
4)将所述步骤2)中生成的实例匹配结果与所述步骤3)中生成的概念匹配结果,共同作为最终的图书本体的匹配结果。
2.根据权利要求1所述的基于机器学习的图书本体匹配方法,其特征在于,所述步骤3c)中的上下位关系匹配规则为:
1)当一个图书概念C1k字符串是另一个图书概念C2p的字符串的后缀,并且C2p中不包含“与”、“和”、“&”符号时,则判定C2p是C1k的子概念;
2)当一个图书概念C2p包含“与”或“和”或“&”符号时,以这些符号作为分隔符对C2p进行分词,若分词后得到的词组中有一个词与图书概念C1k的字符串完全相同,则判定C1k是C2p的子概念;
3)分别计算给定的一个图书概念对(C1k,C2p)的两个概念间的不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,若得到的上述五种相似度均小于0.5时,则判定这两个图书概念间不存在上下位关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410799922.3A CN104484433B (zh) | 2014-12-19 | 2014-12-19 | 一种基于机器学习的图书本体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410799922.3A CN104484433B (zh) | 2014-12-19 | 2014-12-19 | 一种基于机器学习的图书本体匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104484433A CN104484433A (zh) | 2015-04-01 |
CN104484433B true CN104484433B (zh) | 2017-06-30 |
Family
ID=52758974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410799922.3A Active CN104484433B (zh) | 2014-12-19 | 2014-12-19 | 一种基于机器学习的图书本体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104484433B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184713A (zh) * | 2015-07-17 | 2015-12-23 | 四川久远银海软件股份有限公司 | 一种利于医保药品对照的智能匹配排序系统及方法 |
JP6828065B2 (ja) * | 2016-06-21 | 2021-02-10 | ヴァイケーリアス エフピーシー, インコーポレイテッドVicarious FPC, Inc. | 再帰的皮質ネットワークのためのシステムおよび方法 |
TWI656450B (zh) * | 2017-01-06 | 2019-04-11 | 香港商光訊網絡科技有限公司 | 從中文語料庫提取知識的方法和系統 |
CN107704602B (zh) * | 2017-10-16 | 2021-02-02 | 西南大学 | 基于agrovoc的大规模农业语义本体匹配方法 |
CN110555111A (zh) * | 2018-03-30 | 2019-12-10 | 九阳股份有限公司 | 一种食材/食谱知识图谱的本体映射方法及装置 |
CN109408822A (zh) * | 2018-10-30 | 2019-03-01 | 中译语通科技股份有限公司 | 一种跨语言图书相关度分析方法及系统 |
CN110147436B (zh) * | 2019-03-18 | 2021-02-26 | 清华大学 | 一种基于教育知识图谱与文本的混合自动问答方法 |
CN111753071B (zh) * | 2020-06-28 | 2023-09-05 | 中山市臻龙信息科技发展有限公司 | 基于人工智能的法律咨询交互方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1538838A1 (en) * | 2003-12-02 | 2005-06-08 | Sony Corporation | Information processor, information processing method and computer program |
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
CN102622354A (zh) * | 2011-01-27 | 2012-08-01 | 北京世纪读秀技术有限公司 | 一种基于特征向量的聚合数据快速查找方法 |
CN102880645A (zh) * | 2012-08-24 | 2013-01-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
CN103106584A (zh) * | 2011-11-10 | 2013-05-15 | 厦门中图壹购信息技术有限公司 | 一种处理非统一的图书信息数据的系统及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020123987A1 (en) * | 2001-01-18 | 2002-09-05 | Cox James A. | Nearest neighbor data method and system |
-
2014
- 2014-12-19 CN CN201410799922.3A patent/CN104484433B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1538838A1 (en) * | 2003-12-02 | 2005-06-08 | Sony Corporation | Information processor, information processing method and computer program |
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
CN102622354A (zh) * | 2011-01-27 | 2012-08-01 | 北京世纪读秀技术有限公司 | 一种基于特征向量的聚合数据快速查找方法 |
CN103106584A (zh) * | 2011-11-10 | 2013-05-15 | 厦门中图壹购信息技术有限公司 | 一种处理非统一的图书信息数据的系统及其方法 |
CN102880645A (zh) * | 2012-08-24 | 2013-01-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104484433A (zh) | 2015-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484433B (zh) | 一种基于机器学习的图书本体匹配方法 | |
Hidayat et al. | Sentiment analysis of twitter data related to Rinca Island development using Doc2Vec and SVM and logistic regression as classifier | |
Celikyilmaz et al. | LDA based similarity modeling for question answering | |
Al-Anzi et al. | Beyond vector space model for hierarchical Arabic text classification: A Markov chain approach | |
CN102117281B (zh) | 一种构建领域本体的方法 | |
CN103544242A (zh) | 面向微博的情感实体搜索系统 | |
US20220318317A1 (en) | Method for disambiguating between authors with same name on basis of network representation and semantic representation | |
Afzal et al. | Mayonlp at semeval-2016 task 1: Semantic textual similarity based on lexical semantic net and deep learning semantic model | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN112597316B (zh) | 一种可解释性推理问答方法及装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
Ali et al. | Semantic-based text document clustering using cognitive semantic learning and graph theory | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
Jiang et al. | Biterm pseudo document topic model for short text | |
Huang et al. | An unsupervised approach for learning a Chinese IS-A taxonomy from an unstructured corpus | |
Nityasya et al. | Hypernym-hyponym relation extraction from indonesian wikipedia text | |
Rezaei et al. | Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation | |
Kanakaris et al. | Making personnel selection smarter through word embeddings: A graph-based approach | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 | |
Abdalgader et al. | Context expansion approach for graph-based word sense disambiguation | |
CN111507098B (zh) | 多义词识别方法、装置、电子设备及计算机可读存储介质 | |
Tu et al. | Automatic multi-way domain concept hierarchy construction from customer reviews | |
Wang et al. | A semantic path based approach to match subgraphs from large financial knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |