CN110019810A - 一种本体匹配方法、装置和计算机存储介质 - Google Patents

一种本体匹配方法、装置和计算机存储介质 Download PDF

Info

Publication number
CN110019810A
CN110019810A CN201810001725.0A CN201810001725A CN110019810A CN 110019810 A CN110019810 A CN 110019810A CN 201810001725 A CN201810001725 A CN 201810001725A CN 110019810 A CN110019810 A CN 110019810A
Authority
CN
China
Prior art keywords
term vector
ontology
languages
obtains
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810001725.0A
Other languages
English (en)
Other versions
CN110019810B (zh
Inventor
李小涛
游树娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810001725.0A priority Critical patent/CN110019810B/zh
Publication of CN110019810A publication Critical patent/CN110019810A/zh
Application granted granted Critical
Publication of CN110019810B publication Critical patent/CN110019810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种本体匹配方法、装置和计算机存储介质。所述方法包括:获得第一本体的第一元素集合中第一元素对应的第一词向量,获得第二本体的第二元素集合中第二元素对应的第二词向量;分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;基于所述第一词向量模型获得所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述第三元素对应的第四词向量;将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。

Description

一种本体匹配方法、装置和计算机存储介质
技术领域
本发明涉及文本匹配技术,具体涉及一种本体匹配方法、装置和计算机存储介质。
背景技术
为解决异构本体之间的相互通信的问题,可采用本体匹配的方式确定本体之间的元素的相似度,通过相似度的值来判断本体中实体之间的语义关系,实现本体的语义之间的映射过程。
通常情况下,本体匹配可采用手动匹配方式和基于词语相似度的自动化匹配方式实现。手动匹配由领域专家通过本体编辑软件,根据自身掌握的领域知识,发现本体间的元素的匹配关系。自动化匹配方式则通过计算不同本体中的概念词汇和属性词汇之间的相似度,确定可能的本体匹配关系。
然而,手动匹配方式通常需要本领域内的专家或者辅助技术人员才能完成,工作效率较低,而且局限于领域专家自身的经验,使得组合后的模型表达的客观性下降。而自动化匹配方式则均需要在同一语种的本体背景下,不能实现不同语种本体模型间的匹配,以及一个本体内包含多种语言表示的概念间的匹配。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种本体匹配方法、装置和计算机存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种本体匹配方法,所述方法包括:
基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;
分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;
基于所述第一词向量模型获得所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述第三元素对应的第四词向量;
将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;
基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
上述方案中,所述方法还包括:分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
上述方案中,所述方法还包括:分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。
上述方案中,所述对提取的元素进行归类,获得属于同一类型的元素集合,包括:
对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。
上述方案中,所述基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系,包括:
基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;
判断所述相似度是否小于预设阈值,获得判断结果;
当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;
基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
本发明实施例还提供了一种本体匹配装置,所述装置包括:词向量获得单元、翻译单元、拼接单元和匹配单元;其中,
所述词向量获得单元,用于基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;
所述翻译单元,用于分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;
所述词向量获得单元,还用于基于所述第一词向量模型获得所述翻译单元获得的所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述翻译单元获得的所述第三元素对应的第四词向量;
所述拼接单元,用于将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;
所述匹配单元,用于基于所述拼接单元获得的所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
上述方案中,所述装置还包括:训练单元,用于分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
上述方案中,所述装置还包括分类提取单元,用于分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。
上述方案中,所述分类提取单元,用于对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。
上述方案中,所述匹配单元,用于基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;判断所述相似度是否小于预设阈值,获得判断结果;当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机指令,该指令被处理器执行时实现本发明实施例所述本体匹配方法的步骤。
本发明实施例还提供了一种本体匹配装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述本体匹配方法的步骤。
本发明实施例提供的本体匹配方法、装置和计算机存储介质,所述方法包括:基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;基于所述第一词向量模型获得所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述第三元素对应的第四词向量;将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。采用本发明实施例的技术方案,实现了不同语种的本体之间的自动化匹配,使得自动化的本体匹配技术应用的范围更广,实用性更强。
附图说明
图1为本发明实施例的本体匹配方法的流程示意图;
图2为本发明实施例的本体匹配方法中的二分图模型处理方法的示意图;
图3为本发明实施例的本体匹配装置的第一种组成结构示意图;
图4为本发明实施例的本体匹配装置的第二种组成结构示意图;
图5为本发明实施例的本体匹配装置的第三种组成结构示意图;
图6为本发明实施例的本体匹配装置的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
实施例一
本发明实施例提供了一种本体匹配方法。图1为本发明实施例的本体匹配方法的流程示意图;如图1所示,所述本体匹配方法包括:
步骤101:基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素。
步骤102:分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素。
步骤103:基于所述第一词向量模型获得所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述第三元素对应的第四词向量。
步骤104:将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量。
步骤105:基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
本发明实施例中,本体(ontology)用于表示一个领域的术语集合,即组成一个主题领域的词语以及词语间的关系,作为一种实施方式,所述词语间的关系例如父子关系,例如,“车”可作为父概念,“摩托车”可作为该父概念下的一种子概念,则“车”与“摩托车”可作为一种父子关系。则本实施例中的本体匹配(ontology Matching)是计算两个不同本体中元素之间的相似度,基于相似度判断本体中元素之间的语义关系,实现本体的语义之间的映射过程;其中,元素可以为本体中的一个词。
本实施例中,对于第一语种预先获得第一词向量模型,相应的,对于第二语种预先获得第二词向量模型,则对于对应于第一语种的第一本体中的任一元素,可通过第一词向量模型获得任一元素在第一词向量模型中的的第一词向量,相应的,对应于第二语种的第二本体中的任一元素,可通过第二词向量模型获得任一元素在第二词向量模型中的第二词向量。本实施例中,词向量(包括第一词向量和第二词向量)为分布式词向量(DistributedRepresentation),每个词向量相当于对应的词向量模型中的一个点;所有词向量形成的词向量空间记为对应的词向量模型。
在一实施例中,所述方法还包括:分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
本实施例中,选择语料库进行词向量模型的训练。其中,可基于词语的语种和应用领域选择语料库;对应于一种语种选择一语料库。例如,第一语种(例如中文)选择第一语料库,第二语种(例如英语)选择第二语料库;当然,本实施例中不限于上述列举的两种语种,还可包括其他语种。实际应用中,例如可选择中文维基百科和英文维基百科作为第一语料库和第二语料库。
基于第一语料库训练第一词向量模型,基于第二语料库训练第二词向量模型。训练获得的词向量模型用于将词语数学化。本实施例中,本体中的元素可理解为词语。实际应用中,可选择word2vec或Glove等方式训练获得所述第一词向量模型和所述第二词向量模型。
在一实施例中,所述方法还包括:分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。其中,所述对提取的元素进行归类,获得属于同一类型的元素集合,包括:对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。可以理解,所述第一本体的第一元素集合为属于概念类型的元素集合或属于属性类型的元素集合;相应的,所述第二本体的第二元素集合为属于概念类型的元素集合或属于属性类型的元素集合。
本发明实施例中,由于本体表示组成一个主题领域的词语以及词语间的关系,则在基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量之前,首先提取第一本体中的元素,对提取出的元素进行归类,具体是按照概念和属性进行归类,从而获得第一本体中属于概念类型的元素集合以及属于属性的元素集合;其中,概念可理解为文本,属性可理解为概念之间的关系。相应的,基于属于第二语种的第二词向量模型获得所述第二本体中属于所述第一类型的第二元素集合中第二元素对应的第二词向量之前,提取第二本体中的元素,对提取出的元素进行归类,按照概念和属性进行归类,从而获得第二本体中属于概念类型的元素集合以及属于属性的元素集合。基于此,使得最终获得的第一本体和第二本体之间是概念之间的匹配,以及属性之间的匹配。
则本实施例中,对于第一本体基于概念和属性分别获得的元素集合中的任一元素,分别基于所述第一词向量模型获得对应的第一词向量,相应的,对于第二本体基于概念和属性分别获得的元素集合中的任一元素,分别基于所述第二词向量模型获得对应的第二词向量。本发明实施例中,第一词向量表示第一本体中的元素基于第一词向量模型获得的词向量;第二词向量表示第二本体中的元素基于第二词向量模型获得的词向量。
本实施例中,对于第一本体中的第一元素(即第一本体中属于概念或属性类别的元素集合中的任一元素),按照所述第二语种翻译获得对应的第三元素;相应的,对于第二本体中的第二元素(即第二本体中属于概念或属性类别的元素集合中的任一元素),按照所述第一语种翻译获得对应的第四元素。其中,翻译工具可采用任一翻译工具,例如微软在线翻译工具。
进一步地,对于翻译后的属于第一语种的第四元素,基于所述第一词向量模型获得对应的第三词向量;相应的,对于翻译后的属于第二语种的第三元素,基于所述第二词向量模型获得对应的第四词向量。本实施例中,将对应于同一元素的第一词向量和第四词向量进行收尾拼接,生成第五词向量;以及将对应于同一元素的第二词向量和第三词向量进行收尾拼接,生成第六词向量。
在一实施例中,所述基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系,包括:基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;判断所述相似度是否小于预设阈值,获得判断结果;当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
本发明一种实施方式中,可通过计算所述第五词向量和所述第六词向量之间余弦距离确定所述第五词向量和第六词向量的相似度,也即确定跨语言的第一元素和第二元素的相似度。对于第一本体中的任一元素和第二本体中的任一元素,计算出的余弦距离可作为第一本体和第二本体之间的初始匹配关系。其中,余弦距离越小,表明相似度越小,相应的元素之间越不相似;相应的,余弦距离越大,表明相似度越大,相应的元素之间越相似。本发明实施例中,基于预先设置的预设阈值对初始匹配关系进行筛选,例如可对表征相似度的余弦距离进行筛选,剔除余弦距离表示的相似度小于预设阈值的初始匹配关系,保留相似度大于等于所述预设阈值的初始匹配关系。进一步将保留的初始匹配关系按照二分图模型进行处理,二分图中以概念或属性作为节点,节点之间的权重为对应的相似度,可采用匈牙利算法进行求解获得最大的匹配关系。如图2所示,以概念类型对应的元素集合为例,1_1、1_2、1_3和1_4分别表示第一语种对应的四个元素节点,2_1、2_2、2_3和2_4分别表示第二语种对应的四个元素节点,图中的线(包括实线和虚线)均表示元素节点之间的匹配关系;实际应用中,第一语种对应的每个元素节点均可匹配至少一个第二语种对应的元素节点,例如1_1元素节点可与2_1元素节点和2_3元素节点具有匹配关系;则本发明实施例中,可采用匈牙利算法进行求解,获得如图2中实线所示的元素节点之间的最大匹配关系。
结合具体的应用举例说明,以语种1的语料库训练获得的第一词向量模型表示为M1,以语种2的语料库训练获得的第二词向量模型表示为M2。对于语种1和语种2的本体中的元素,分别基于概念和属性进行分类,获得概念分类的元素集合以及属性分类的元素集合。
以概念分类的元素集合为例,假设本体1通过语种1表达,本体2通过语种2表达;本体1中的元素C1,通过第一词向量模型M1获得的词向量表示为V1,本体2中的元素C2,通过第二词向量模型M2获得的词向量表示为V2。
利用翻译工具,将本体1中的元素C1翻译为语种2的元素C1_2,将本体2中的元素C2翻译为语种1的元素C2_1。通过第一词向量模型M1,获得元素C2_1的词向量V2_1,通过第二词向量模型M2,获得元素C1_2的词向量V1_2;将词向量V1和词向量V1_2进行首尾拼接作为元素C1的跨语言词向量VC1;将词向量V2和词向量V2_1进行首尾拼接作为元素C2的跨语言词向量VC2。
计算跨语言词向量VC1和跨语言词向量VC2之间的余弦记录作为元素C1和元素C2的相似度。同理,计算出本体1和本体2中分别归属于概念的元素集合中任一元素之间的相似度,以及归属于属性的元素集合中任一元素之间的相似度,计算获得的相似度可作为本体1和本体2之间概念类别的初始匹配关系,以及属性类别的初始匹配关系。
删除相似度低于预设阈值的初始匹配关系。将本体1和本体2之间的元素的匹配问题抽象为二分图的最大匹配问题,二分图中的节点为概念或属性;图中的节点之间的权重为对应的相似度值,采用匈牙利算法求解,最终获得本体1的元素和本体2的元素之间的最大匹配关系。
采用本发明实施例的技术方案,实现了不同语种的本体之间的自动化匹配,使得自动化的本体匹配技术应用的范围更广,实用性更强。
实施例二
本发明实施例还提供了一种本体匹配装置。图3为本发明实施例的本体匹配装置的第一种组成结构示意图;如图3所示,所述装置包括:词向量获得单元31、翻译单元32、拼接单元33和匹配单元34;其中,
所述词向量获得单元31,用于基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;
所述翻译单元32,用于分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;
所述词向量获得单元31,还用于基于所述第一词向量模型获得所述翻译单元32获得的所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述翻译单元32获得的所述第三元素对应的第四词向量;
所述拼接单元33,用于将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;
所述匹配单元34,用于基于所述拼接单元33获得的所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
在一实施例中,如图4所示,所述装置还包括:训练单元35,用于分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
在一实施例中,如图5所示,所述装置还包括分类提取单元36,用于分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。
其中,所述分类提取单元36,用于对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。
本发明实施例中,所述匹配单元34,用于基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;判断所述相似度是否小于预设阈值,获得判断结果;当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
本发明实施例中,所述本体匹配装置中的词向量获得单元31、翻译单元32、拼接单元33、匹配单元34、训练单元35和分类提取单元36,在实际应用中均可由中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable GateArray)实现。
需要说明的是:上述实施例提供的本体匹配装置在进行本体匹配时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的本体匹配装置与本体匹配方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实施例三
本发明实施例还提供了本体匹配装置,图6为本发明实施例的本体匹配装置的硬件组成结构示意图,如图6所示,所述本体匹配装置包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序,所述处理器41执行所述程序时实现:基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;基于所述第一词向量模型获得所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述第三元素对应的第四词向量;将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
在一实施例中,所述处理器41执行所述程序时实现:分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
在一实施例中,所述处理器41执行所述程序时实现:分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。
在一实施例中,所述处理器41执行所述程序时实现:对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。
在一实施例中,所述处理器41执行所述程序时实现:基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;判断所述相似度是否小于预设阈值,获得判断结果;当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
本实施例中,本体匹配装置中的各个组件通过总线系统43耦合在一起。可理解,总线系统43用于实现这些组件之间的连接通信。总线系统43除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统43。
可以理解,存储器42可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器41中,或者由处理器41实现。处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,本体匹配装置可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
实施例四
在示例性实施例中,本发明实施例还提供了一种计算机存储介质,例如包括计算机程序的存储器42,上述计算机程序可由本体匹配装置的处理器41执行,以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
本发明实施例提供的计算机存储介质,其上存储有计算机指令,该指令被处理器执行时实现:基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;基于所述第一词向量模型获得所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述第三元素对应的第四词向量;将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
在一实施例中,该指令被处理器执行时实现:分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
在一实施例中,该指令被处理器执行时实现:分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。
在一实施例中,该指令被处理器执行时实现:对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。
在一实施例中,该指令被处理器执行时实现:基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;判断所述相似度是否小于预设阈值,获得判断结果;当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种本体匹配方法,其特征在于,所述方法包括:
基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;
分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;
基于所述第一词向量模型获得所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述第三元素对应的第四词向量;
将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;
基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。
4.根据权利要求3所述的方法,其特征在于,所述对提取的元素进行归类,获得属于同一类型的元素集合,包括:
对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系,包括:
基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;
判断所述相似度是否小于预设阈值,获得判断结果;
当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;
基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
6.一种本体匹配装置,其特征在于,所述装置包括:词向量获得单元、翻译单元、拼接单元和匹配单元;其中,
所述词向量获得单元,用于基于属于第一语种的第一词向量模型获得第一本体的第一元素集合中第一元素对应的第一词向量,基于属于第二语种的第二词向量模型获得第二本体的第二元素集合中第二元素对应的第二词向量;所述第一元素为所述第一元素集合中的任一元素,所述第二元素为所述第二元素集合中的任一元素;
所述翻译单元,用于分别将所述第一元素按照所述第二语种翻译获得第三元素,将所述第二元素按照所述第一语种翻译获得第四元素;
所述词向量获得单元,还用于基于所述第一词向量模型获得所述翻译单元获得的所述第四元素对应的第三词向量,基于所述第二词向量模型获得所述翻译单元获得的所述第三元素对应的第四词向量;
所述拼接单元,用于将所述第一词向量和所述第四词向量拼接获得第五词向量,将所述第二词向量和所述第三词向量拼接获得第六词向量;
所述匹配单元,用于基于所述拼接单元获得的所述第五词向量和所述第六词向量确定所述第一本体和所述第二本体的匹配关系。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:训练单元,用于分别确定至少两个语种的语料库,分别基于所述至少两个语料库训练获得所述至少两个语料库中任一语料库对应的词向量模型;所述至少两个语种包括所述第一语种和所述第二语种。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括分类提取单元,用于分别提取至少两个本体中任一本体的元素,对提取的元素进行归类,获得属于同一类型的元素集合;其中,所述至少两个本体包括所述第一本体和所述第二本体。
9.根据权利要求8所述的装置,其特征在于,所述分类提取单元,用于对提取的元素分别按照概念类型和属性类型进行归类,分别获得属于概念类型的元素集合和属于属性类型的元素集合。
10.根据权利要求6所述的装置,其特征在于,所述匹配单元,用于基于所述第五词向量和所述第六词向量确定所述第一元素和所述第二元素的相似度,基于所述相似度确定所述第一本体和所述第二本体的初始匹配关系;判断所述相似度是否小于预设阈值,获得判断结果;当所述判断结果为所述相似度小于预设阈值时,删除所述相似度对应的初始匹配关系;基于保留的初始匹配关系按照二分图模型进行处理,获得所述第一本体和所述第二本体的匹配关系。
11.一种计算机存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至5任一项所述本体匹配方法的步骤。
12.一种本体匹配装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述本体匹配方法的步骤。
CN201810001725.0A 2018-01-02 2018-01-02 一种本体匹配方法、装置和计算机存储介质 Active CN110019810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810001725.0A CN110019810B (zh) 2018-01-02 2018-01-02 一种本体匹配方法、装置和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810001725.0A CN110019810B (zh) 2018-01-02 2018-01-02 一种本体匹配方法、装置和计算机存储介质

Publications (2)

Publication Number Publication Date
CN110019810A true CN110019810A (zh) 2019-07-16
CN110019810B CN110019810B (zh) 2021-05-04

Family

ID=67187280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810001725.0A Active CN110019810B (zh) 2018-01-02 2018-01-02 一种本体匹配方法、装置和计算机存储介质

Country Status (1)

Country Link
CN (1) CN110019810B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997185A (zh) * 2021-10-27 2022-09-02 荣耀终端有限公司 翻译方法、介质、程序产品及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336852A (zh) * 2013-07-24 2013-10-02 清华大学 跨语言本体构建方法及装置
CN103744984A (zh) * 2014-01-15 2014-04-23 北京理工大学 一种利用语义信息检索文档的方法
US20150095013A1 (en) * 2013-09-27 2015-04-02 Sonja Zillner Extending Concept Labels of an Ontology
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于维基百科的中英文跨语言实体匹配方法
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336852A (zh) * 2013-07-24 2013-10-02 清华大学 跨语言本体构建方法及装置
US20150095013A1 (en) * 2013-09-27 2015-04-02 Sonja Zillner Extending Concept Labels of an Ontology
CN103744984A (zh) * 2014-01-15 2014-04-23 北京理工大学 一种利用语义信息检索文档的方法
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于维基百科的中英文跨语言实体匹配方法
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOLLEGALA DANUSHKA 等: "A Cross-Lingual Similarity Measure for Detecting Biomedical Term Translations", 《PLOS ONE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997185A (zh) * 2021-10-27 2022-09-02 荣耀终端有限公司 翻译方法、介质、程序产品及电子设备

Also Published As

Publication number Publication date
CN110019810B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN106815192B (zh) 模型训练方法及装置和语句情感识别方法及装置
CN109783795B (zh) 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN104572616B (zh) 文本倾向性的确定方法和装置
Zhang et al. Omnia mutantur, nihil interit: Connecting past with present by finding corresponding terms across time
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
AU2011326430A1 (en) Learning tags for video annotation using latent subtags
CN103518187A (zh) 用于信息建模的方法和系统及其应用
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN105612515A (zh) 矛盾表现收集装置以及用于其的计算机程序
US20210149924A1 (en) Clustering of data records with hierarchical cluster ids
CN104035955B (zh) 搜索方法和装置
John et al. Random forest classifier based multi-document summarization system
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
US20210263903A1 (en) Multi-level conflict-free entity clusters
Gindl et al. Cross-domain contextualisation of sentiment lexicons
CN109189894A (zh) 一种答案抽取方法及装置
CN108153781A (zh) 提取业务领域的关键词的方法和装置
CN106294785A (zh) 内容筛选方法以及系统
CN105653546B (zh) 一种目标主题的检索方法和系统
TW200529095A (en) Reference data recognition and learning method and pattern recognition system
CN110019810A (zh) 一种本体匹配方法、装置和计算机存储介质
CN112883736A (zh) 医疗实体关系抽取方法和装置
CN108475265B (zh) 获取未登录词的方法与装置
CN109993190A (zh) 一种本体匹配方法、装置和计算机存储介质
Mountassir et al. Some methods to address the problem of unbalanced sentiment classification in an arabic context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant