CN112199511A

CN112199511A - 跨语言多来源垂直领域知识图谱构建方法

Info

Publication number: CN112199511A
Application number: CN202011044895.0A
Authority: CN
Inventors: 崔莹; 代翔; 杨露; 李春豹; 刘鑫; 黄刘; 潘磊
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-08
Anticipated expiration: 2040-09-28
Also published as: CN112199511B

Abstract

本发明公开的一种跨语言多来源垂直领域知识图谱构建方法，涉及知识工程技术领域。本发明通过下述技术方案实现：垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据，通过内容和链接分析完成平行语料库构建，在预处理的基础上基于训练好的翻译模型实现外文文本的自动翻译；领域知识预标注训练实现基于文本分词、文本聚类的主动学习标注，完成基于分析主题的待标注语料筛选，生成确认后的业务标注数据集；选择最优算法，结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取；领域知识融合与消歧对不同来源知识，通过网络等价实体合并进行融合消歧，获得跨语言多来源垂直领域知识图谱。

Description

跨语言多来源垂直领域知识图谱构建方法

技术领域

本发明涉及知识工程技术领域跨语言知识图谱构建，尤其涉及跨语言多来源垂直领域知识图谱构建方法。

背景技术

知识图谱(Knowledge Graph)源于语义网、图数据库等相关学术研究领域，不同领域对知识图谱研究的侧重有所不同，如自然语言处理、知识工程、机器学习、数据库和数据管理等领域都有不同的研究与应用。知识图谱构建首先需要确定可用数据源，如结构化数据、机器可读的开放本体或辞典、开放链接数据和开放知识库、行业知识库和行业垂直网站、在线百科(维基、互动、百度)和文本等数据。然后，有效地采集数据，如开放链接数据采集、百科采集、文本信息采集(网络爬虫与主题爬虫)等。知识图谱使用一系列字符串符号映射于真实世界中存在的各种实体或概念中,然后以这些实体或概念间的关联关系为连接符,将不同类型的信息连接在一起,从而构成一张巨大的语义网络图。与传统的信息管理方式相比,知识图谱能够帮助人们更快速有效地获取所需的知识间的逻辑关系,有利于知识间智能推理的实现。其中,垂直领域知识图谱面向特定的行业领域,能够被应用于搜索引擎、智能问答、知识挖掘和决策支持等业务中。跨语言知识图谱构建主要内容包括：语义Web与链接数据、跨语言知识链接、跨语言属性、值抽取、跨语言本体构建和XLORE-跨语言知识图谱。知识图谱(KnowledgeGraph)在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是一种比较通用的语义知识的形式化描述框架，它用节点表示语义符号，用边表示符号之间的语义关系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱技术包括知识表示、知识图谱构建和知识图谱应用三方面。知识表示技术可以分成符号主义和联结主义。具体的表示方法可以分为三类。基于符号逻辑的知识表示主要包括逻辑表示法、产生式表示法和框架表示等。在目前大规模数据时代，已经不能很好地解决知识表示的问题。知识表示主要包括XML语言、RDF描述框架和OWL语言等。当前在工业界大规模应用的是基于RDF三元组的表示方法。表示学习的目标是通过机器学习或深度学习，将研究对象的语义信息表示为稠密低维的实值向量。相比传统方法，可显著提升计算效率，有效缓解数据稀疏性，更容易实现不同来源的异质信息融合。知识图谱的构建是一件困难的事情，是目前人工智能领域研究的热点和难点，特别是知识图谱的自动化构建。知识体系的构建也叫知识建模，是指采用什么样的方式表达知识，其核心就是构建一个本体对目标知识进行描述。所谓的本体是一个知识描述框架，它定义了知识的类别体系，每个类别下所属的概念和实体、某类概念和实体所具有的属性以及概念之间、实体之间的语义关系。知识体系的构建有两种方法：一种是自顶向下：即先构建一个完善的知识体系，再将知识填充到这个知识体系中；另外一种是自底向上：即在知识抽取的过程中，自动的扩充和构建知识体系。目前比较流行的自底向上的方法。目前大多数知识图谱都是采用自底向上的方式进行构建，知识图谱大致的构建流程是个不断迭代更新的过程。知识获取是从海量的文本数据中获取结构化知识的过程，数据来源不同，知识获取的难度和手段也不同。通常，信息抽取包括如下的基本任务：实体识别，实体消歧，关系抽取以及事件抽取等。知识体系的融合是两个或多个异构知识体系进行融合，相同的类别、属性、关系进行映射；实例的融合，就是两个图谱中的实例进行融合，包括实体实例和关系实例。语义网络是QuillanMRoss1966年在研究人类联想记忆时提出的一种心理学模型。总的来说，语义网络是一种由有向图表示的知识系统，它将知识表示为相互连接的点和边，节点代表概念，边则代表概念之间的语义关系。语义网络中最基本的单元称为语义基元，可以用我们熟悉的三元组表示：<节点1，关系，节点2>。语义网络中的关系可以有很多种，例如实例关系，分类关系，成员关系等。语义网络是由大量的实体以及他们之间的关系构成，语义网络的优点是便于计算机的存储和检索，缺点是推理过程较复杂，也不完善，需要对不同的关系做不同的处理。语义网与语义网络是完全不同的概念。语义网的概念来源于互联网，人们期望互联网能够更为有效的组织信息，使得互联网内丰富的资源得到充分的利用，互联网中的信息仅仅通过薄弱的结构组织起来。计算机一直面临着这样的困境：无法获取网络文本的语义信息。为了解决互联网信息的语义问题，TimBerners-Lee等人提出了下一代互联网——语义Web的概念，其已经成为W3C标准。在语义Web中，所有的信息都具备一定的结构，这些结构的语义通常使用本体(Ontology)来描述。本体的定义非常多，最常用的定义是“本体是指一种形式化的，对于共享概念体系的明确而又详细的说明”。通俗地说，本体描述了特定领域(领域本体)或所有领域(通用本体)中的概念以及概念之间的关联关系，并且这些概念和关系是明确的、被共同认可的。通常，本体中主要包含概念、概念的其它称谓(即同义关系)、概念之间的上下位关系、概念的属性关系(分为对象属性和数值属性)、属性的定义域(Domain)和值域(Range)，以及在这些内容上的公理、约束等。知识图谱在实体层面对本体进行了丰富和扩充；本体中突出和强调的是概念以及概念之间的关联关系，描述了知识图谱的数据模式；而知识图谱则是在本体的基础上，增加了更加丰富的关于实体的信息。本体通常使用RDF和OWL语言进行描述，知识图谱作为本体基础上的一种延伸，使用同样的方式进行描述。同时，使用SPARQL进行资源和数据的统一查询和检索。

研究得出跨语言链接应属于知识图谱构建后期的一项独立工程,不应与数据融合混为一谈。针对不同场景设计多个工具集处理跨语言的数据集,高效整合多种来源的数据,构建跨语言知识图谱CLKG(Cross-LingualKnowledgeGraph)以实现跨语言的舆情分析与预警。CLKG与单一语言知识图谱相比,突发事件一小时内的知识完整度提升13.9％,且仅比后者24小时内的完整度低5.2％。CLKG的构建受制于领域专家的稀缺,成为非通用语知识图谱建设的瓶颈。知识图谱是由Google公司在2012年提出来的一个新的概念。从学术的角度，可以对知识图谱给一个这样的定义：“知识图谱本质上是语义网络(SemanticNetwork)的知识库”。换个角度，从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图。知识图谱应用的前提是已经构建好了知识图谱，也可以把它认为是一个知识库。知识图谱的构建是后续应用的基础，而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说，它们的数据源主要来自两种渠道：一种是业务本身的数据，这部分数据通常包含在公司内的数据库表并以结构化的方式存储；另一种是网络上公开、抓取的数据，这些数据通常是以网页的形式存在所以是非结构化的数据。信息抽取的难点在于处理非结构化数据。本质上，知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱旨在描述真实世界中存在的各种实体或概念。其中，每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair，又称AVP)用来刻画实体的内在特性，而关系(relation)用来连接两个实体，刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图，图中的节点表示实体或概念，而图中的边则由属性或关系构成。知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。这些数据普遍质量较高，更新比较慢。而另一方面，知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。此外，通过搜索日志(querylog)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比高质量的常识性知识，通过数据挖掘抽取得到的知识数据更大，更能反映当前用户的查询需求并能及时发现最新的实体或事实，但其质量相对较差，存在一定的错误。这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度，并通过人工审核加入到知识图谱中。在知识图谱的构建中，最重要的三个环节就是知识单元的抽取、知识单元间关系的识别，以及知识图谱的存储与使用。其中尤以知识单元抽取和知识单元间关系的识别最为关键。知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库，例如Freebase项目就是采用这种方式，它的绝大部分数据是从维基百科中得到的。自底向上指的是从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式。目前，大多数知识图谱都采用自底向上的方式进行构建，其中最典型就是Google的KnowledgeVault。由于实体是知识图谱中的最基本元素，其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。识图谱作为一种精细的知识数据资源，在情境搜索、深度问答、舆情分析等技术中蕴含巨大潜力。国内外均已开展知识图谱相关应用研究：Google知识图谱于2012年加入Google搜索，于2012年5月16日正式发布，自此Google搜索除了显示其它网站的链接列表外，还提供结构化及详细的关于主题的信息，以知识卡片的形式提供。据Google称，其知识图谱中的信息来自许多来源，包括CIA的世界概况、其收购的Freebase、以及维基百科。在2012年时，该知识图谱已经包含超过570亿个对象，超过18亿个介绍，这些不同的对象之间还存在着丰富的链接关系。

YAGO是由德国马普研究所研制的链接数据库。以在线百科为数据来源，YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。YAGO将WordNet的词汇定义与Wikipedia的分类体系进行了融合集成，使得YAGO具有更加丰富的实体分类体系。YAGO还考虑了时间和空间知识，为很多知识条目增加了时间和空间维度的属性描述。目前，YAGO包含1.2亿条三元组知识。YAGO是IBMWatson的后端知识库之一。

百度“知心”于2013年2月份上线，是百度基于其知识图谱推出的新一代搜索引擎技术。该知识图谱在构建的过程中包含命名实体挖掘、属性值对(Attribute-ValuePair，AVP)挖掘、上下位关系挖掘和相关实体挖掘。实体的挖掘主要包括传统的命名实体(如人物、地点和组织等)和互联网新型命名实体(如电影、音乐、软件和计算机游戏等)，挖掘过程主要使用的数据源包括搜索日志，纯文本和网页。在基于搜索日志的挖掘中使用了bootstrapping方法，从属于同一类别的少数命名实体开始，从搜索日志中学习种子实体的上下文特征，然后使用这些上下文特征中抽取新的种子实体，然后再使用新的种子实体扩展上下文特征，如此反复；从文本中抽取实体主要使用了基于包装器(Wrapper)的方法；从网页中抽取实体则使用了“URL-文本”混合模式，在许多行业网站中，网页的URL中即包含了网页的标题，这一标题可作为实体的候选。百度知识图谱的属性值对则来自于在线百科(维基百科和百度百科)、垂直网站(如电影行业的IMDB和豆瓣)和普通网页。

搜狗的知立方于2012年11月22日成功上线，是国内第一个引入到搜索引擎的中文知识图谱，“知立方”的上线拉开了国内下一代搜索引擎的序幕。“知立方”在构建过程中分为本体构建、实例构建、异构数据整合、实体重要度计算和推理数据完善五个步骤，本体抽取又分为实体抽取和属性抽取两小步。在实体抽取时主要利用了用户的搜索记录，该记录保存了用户搜索的标识符、用户查询的条目、查询时间、返回结果以及用户筛选后点击的链接，该数据集从一定程度上反映了人们对搜索结果的态度，相当于用户对网络资源的一个人工标记过程；在属性抽取时，主要利用了半结构化网站中的Tagpath和Textnode标识网页，对属性进行聚类，同时也从查询日志中识别实体和属性名；在异构数据源的整合步骤中，它使用了各类百科、行业网站和一些通用的知识库等，并使用实体对齐技术整合信息。

综上，现有知识图谱主要涉及开放领域、数据来源单一，主要为单一语言图谱；有关垂直领域的知识图谱主要集中在金融领域，且其数据多为结构化文本；知识图谱在公共安全领域具有潜在应用价值，目前尚无相关跨语言多来源垂直领域知识图谱构建方法。

发明内容

本发明的发明目的是针对现有技术存在的不足之处，基于多种数据源构建中文垂直领域知识图谱，提供一种针对垂直领域多来源多语言文本数据的知识图谱构建方法，能够丰富领域知识数据来源、降低领域训练语料数量需求、丰富实体语义信息、提升领域知识提取准确性，尤其是面向垂直领域知识图谱实体表征与抽取的跨语言知识图谱的构建框架。

本发明的上述目的可以通过以下措施来得到，一种跨语言多来源垂直领域知识图谱构建方法，其特征在于包括如下步骤：垂直领域翻译、领域知识预标注训练、领域知识提取、领域知识融合与消歧，其中，垂直领域翻译是根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据，通过内容和链接分析完成平行语料库构建，利用主动学习技术实现跨语种自动语料标注，进而基于平行语料库完成基于统计模型和神经网络模型的翻译模型构建和训练，同时在外文素材、资料，在预处理的基础上基于训练好的翻译模型，实现外文文本的自动翻译；领域知识预标注训练是根据需要标注的文本数据，实现基于文本分词、文本聚类的主动学习标注，完成基于分析主题的待标注语料筛选，基于筛选后的待标注数据和机器预标注模型采用机器预标注的方法生成标注数据集，通过人工校验和检测工具校验的方式实现标注数据集的校验，并生成确认后的业务标注数据集；基于特征模型，领域知识提取选择最优算法，利用机器学习、自然语言处理、深度学习和领域知识预标注训练，在进行领域迁移时，针对应用场景，利用领域知识预标注训练重新训练语料，结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取；领域知识融合与消歧对不同来源知识，通过网络等价实体合并进行融合消歧，获得跨语言多来源垂直领域知识图谱。

本发明相比于现有技术具有如下有益效果：

可实现领域内不同语言的知识融合，从国内外多来源补充领域知识。本发明针对领域词典、领域术语库、领域素材和数据，通过内容和链接分析完成平行语料库构建，同时利用主动学习技术实现跨语种自动语料标注，进而基于平行语料库研究完成基于统计模型和神经网络模型的翻译模型构建和训练；针对外文素材、资料，在预处理的基础上，基于训练好的翻译模型，实现外文文本的自动翻译；基于统一语言文本，通过领域知识融合与消歧实现不同语言同一领域内的知识融合，实现跨域语言障碍的知识融合，极大地丰富了领域知识图谱信息。

可实现领域知识的预标注训练，提升领域知识提取效率和准确性，降低人工标注领域知识工作成本。领域知识抽取包括领域实体及其关系抽取，本发明基于机器预标注、“人在回路”数据标注、主动学习数据标注、标注数据检验等技术，实现领域知识的预标注工作，通过机器预提取领域知识，降低传统人工手动提取知识的工作量。

领域知识由粗粒度转向细粒度，大幅提升知识可用度。本发明针对领域知识体系相较于公开领域知识体系粒度要求严格，传统粗粒度知识对实体的刻画不够精确，无法支撑领域知识开展应用，采用细粒度实体识别和关系抽取技术，提供更加具体的语义信息，增强指示性，比如粗粒度实体关系人，通过本发明知识抽取方法可将实体类型聚焦为篮球员动员或香港歌手等。同时，实体的细粒度类别能很大程度暗示实体间候选的关系，实体类别信息越粗，实体间的候选关系就越倾于复杂，相应的关系抽取任务也变得更困难。因此，细粒度知识抽取可进一步支撑实体关系的抽取。

领域知识精度提高、歧义性降低，增强知识可信度。因为跨语言多来源信息存在大量同义不同音或同义不同别名，如果图谱中存在大量的此类信息会造成图谱信息冗余，影响其在领域中应用效果。本发明通过知识嵌入表示方法实现数据层知识融合，提升领域知识精度、降低知识歧义性，增强知识可信度。

附图说明

图1是本发明跨语言多来源垂直领域知识图谱构建方法原理示意图。

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

具体实施方式

参阅图1。根据本发明，包括如下步骤：垂直领域翻译、领域知识预标注训练、领域知识提取、领域知识融合与消歧，其中，垂直领域翻译是根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据，通过内容和链接分析完成平行语料库构建，利用主动学习技术实现跨语种自动语料标注，进而基于平行语料库完成基于统计模型和神经网络模型的翻译模型构建和训练，同时在外文素材、资料，在预处理的基础上基于训练好的翻译模型，实现外文文本的自动翻译；领域知识预标注训练是根据需要标注的文本数据，实现基于文本分词、文本聚类的主动学习标注，完成基于分析主题的待标注语料筛选，基于筛选后的待标注数据和机器预标注模型采用机器预标注的方法生成标注数据集，通过人工校验和检测工具校验的方式实现标注数据集的校验，并生成确认后的业务标注数据集；基于特征模型，领域知识提取选择最优算法，利用机器学习、自然语言处理、深度学习和领域知识预标注训练，在进行领域迁移时，针对应用场景，利用领域知识预标注训练重新训练语料，结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取；领域知识融合与消歧对不同来源知识，通过网络等价实体合并进行融合消歧，获得跨语言多来源垂直领域知识图谱。

语义特征提取包括：文本向量化，分词、元事件提取、命名实体识别、关系提取等。

可选的实施例中，垂直领域翻译技术实现多来源不同语言同一领域的统一语言文本转化，具体步骤包括：双语平行语料素材获取：翻译模型初始化、垂直领域翻译对输入的网站进行编码分析、语言分析和结构分析，在双语平行语料素材获取中，发现其中可能的双语对照网页，获取双语对照网页的文本内容，则保存到语料素材库中，等待下一步的分析和提取。

翻译模型初始化：垂直领域翻译基于公开的开放域平行语料与外部翻译接口，完成翻译初始化训练，得到初始的机器翻译模型。

初始机器翻译模型基于爬虫技术采集领域双语网站语料素材，解析素材标题、内容和报道时间，生成语料素材，并存入平行语料素材库。

篇章级平行语料对齐：初始机器翻译模型从平行语料素材库中提取至少一篇原文素材和一篇译文素材，计算其报道时间差，匹配翻译原文素材标题中的领域术语，基于翻译模型比较两篇素材标题内容的相似，判断其是否为篇章级平行语料，比较其任意两个原文和译文句子的内容相似程度，生成句子级平行语料，对句子级平行语料进行对齐，根据判断结果生成篇章级平行语料，完成原文和译文篇章分句，匹配翻译原文句中的领域术语，使用生成的句子级平行语料，更新训练翻译模型，实现翻译模型更新，对初始机器翻译模型进行再训练。

初始机器翻译模型基于双语语料的神经网络机器翻译模型，监督机器翻译模型对大量的平行语料进行统计学习，基于初始机器翻译模型构建机器翻译模型，进而将此机器翻译模型应用于其它实现翻译目的的数据，其中，神经网络机器翻译模型包括编码和解码两部分，编码器把源语言序列进行编码，并提取源语言中信息，通过解码器再把这种信息转换到另一种语言即目标语言中来，从而完成对语言的翻译。

在以下描述的优选实施例中，神经网络机器翻译模型根据给定源语言句子x，对任意的目标语言句子y直接采用神经网络以端到端方式进行p(y/(x))建模，给出其对应的翻译概率p(y/x)并进行领域知识的预标注工作。

为实现领域知识的预标注工作，通过领域知识预标注训练机器预提取领域知识，降低传统人工手动提取知识的工作量，基于领域知识预标注训练机器预标注、“人在回路”数据标注、主动学习数据标注和标注数据检验，

领域知识预标注训练机器预标注拟在人工标注过程中，使用已有标注数据训练领域算法模型，即领域知识预标注模型进行领域知识预标注训练，然后利用领域模型对尚未进行人工标注的语料进行机器预标注；“人在回路”标注拟将标注任务融入到领域业务人员的日常业务工作中；主动学习数据标注是指在标注前，使用规则、机器学习、深度学习算法对待标注数据进行聚类，将聚类后的数据作为待标注数据；标注数据检验拟使用人工、检验规则等方法，完成标注后数据的校验。

领域知识预标注训练主要由领域知识预标注训练系统完成知识标注模型训练，领域知识预标注模型自动优化训练首先通过交互式建模的方式构建知识预标注模型，生成模型描述文件，解析模型描述文件并转译为模型代码文件，通过领域知识标注训练系统分布式模型训练平台构建训练任务，加载模型代码文件和对应标注后的训练数据集训练模型。领域知识预标注模型训练好后，应用容器引擎docker，采用不需要虚拟出整个操作系统，只需要虚拟一个小规模的环境(类似“沙箱”)的容器技术通过虚拟机软件自动打包工具按照需要打包为虚拟化集装箱docker或数据存储单位pb文件等进行模型发布，容器调度平台基于已发布的模型，采用交互式方式进行模型编排，生成服务描述文件，由服务平台进行统一管理和对外服务。docker提供容器运行时所需的程序、库、资源、配置等文件外，还包含了一些为运行时准备的一些配置参数(例如环境变量)。

领域知识提取技术是基于特征模型，利用机器学习、自然语言处理、深度学习等技术方法，结合领域数据和实际场景，完成语义特征提取，具体步骤如下：

垂直领域细粒度实体识别：构建垂直领域的实体类别层次，基于迁移学习方法实现领域细粒度实体分类；

模型输入：模型的训练语料是句子，每一句话中含有一个或多个实体，其中j,k分别表示了实体的开始和结束的下标，它对应的定义变量或标号的类型的标签label是长度为k的矩阵，当实体是第t个标签则为1，否则为0；模型的训练语料是句子

每一句话中含有一个或多个实体

其中j,k分别表示了实体的开始和结束的下标，它对应的定义变量或标号的类型的标签label是长度为k的矩阵

当实体是第t个标签l_j,k＝1则为1，否则为0。

模型输出：预测句子中实体的标签序列。

基于深度学习的实体关系抽取：首先，获取有标签数据。监督方法通过人工标记获取有标签数据集，远程监督方法通过自动对齐，远程知识库获取有标签数据集，其次，构建词语向量表示，将有标签label句子分词和每个词语编码成计算机可以接受的词向量，并求出每个词语与句子中实体对的相对位置，作为这个词语的位置向量，将词向量与位置向量组合作为这个词语的最终向量表示，随后，完成特征提取；句子中每个单词的向量表示被输入深度神经网络模型中提取句子特征，进而训练一个特征提取器，最后，进行关系抽取和性能评估。根据预先定义的关系类型，将特征抽取向量输入非线性层，提取最终的实体关系对，并对关系抽取结果进行评估，将语义信息表示为稠密低维实值向量，面向知识图谱中的实体和关系进行表示学习，使用建模方法将实体和关系表示在低维稠密向量空间中，然后进行计算和推理，将三元组表示成向量。

领域知识融合与消歧技术：针对不同来源知识通过网络等价实体合并进行融合消歧，具体步骤如下：

领域知识融合与消歧技术使用基于知识嵌入表示的知识对齐方法：首先将待对齐的两个知识图谱分别转化为向量表示形式，然后基于得到的知识表示，根据先验对齐数据学习知识图谱间实体对的映射关系，使用基于实体和关系的分布式向量表示的知识图谱表示TransE模型将图谱知识表示成向量的形式，训练得到实体和关系分布式词向量，通过语义匹配来度量实体间的对齐程度。

实体属性消歧：将其作为聚类问题来求解。聚类法的基本思想是以实体指称项为中心，通过实体聚类实现指称项与实体对象的匹配。

实体链接方法：对于从文本中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作，从文本中通过实体抽取得到实体指称项；进行实体消歧和共指消解，判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义；在确认知识库中对应的正确实体对象之后，将该实体指称项链接到知识库中对应实体。

具体可在各种电子设备中应用。

综上所述，本发明公开了一种跨语言多来源垂直领域知识图谱构建方法，主要由垂直领域翻译、领域知识预标注训练、领域知识提取、领域知识融合与消歧组成。以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种跨语言多来源垂直领域知识图谱构建方法，其特征在于包括如下步骤：垂直领域翻译、领域知识预标注训练、领域知识提取、领域知识融合与消歧，其中，垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据，通过内容和链接分析完成平行语料库构建，利用主动学习技术实现跨语种自动语料标注，进而基于平行语料库完成基于统计模型和神经网络模型的翻译模型构建和训练，同时在外文素材、资料，在预处理的基础上基于训练好的翻译模型，实现外文文本的自动翻译；领域知识预标注训练根据需要标注的文本数据，实现基于文本分词、文本聚类的主动学习标注，完成基于分析主题的待标注语料筛选，基于筛选后的待标注数据和机器预标注模型，采用机器预标注的方法生成标注数据集，通过人工校验和检测工具校验的方式实现标注数据集的校验，并生成确认后的业务标注数据集；基于特征模型，领域知识提取选择最优算法，利用机器学习、自然语言处理、深度学习和领域知识预标注进行训练；在进行领域迁移时，针对应用场景，利用领域知识预标注训练重新训练语料，结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取；领域知识融合与消歧对不同来源知识，通过网络等价实体合并进行融合消歧，获得跨语言多来源垂直领域知识图谱。

2.如权利要求1所述的语言多来源垂直领域知识图谱构建方法，其特征在于：语义特征提取包括：文本向量化，分词、元事件提取、命名实体识别和关系提取。

3.如权利要求1所述的语言多来源垂直领域知识图谱构建方法，其特征在于：垂直领域翻译技术实现多来源不同语言同一领域的统一语言文本转化，具体步骤包括：双语平行语料素材获取：翻译模型初始化、垂直领域翻译对输入的网站进行编码分析、语言分析和结构分析；在双语平行语料素材获取中，发现其中可能的双语对照网页，将获取双语对照网页的文本内容，保存到语料素材库中，等待下一步的分析和提取。

4.如权利要求3所述的语言多来源垂直领域知识图谱构建方法，其特征在于：垂直领域翻译基于公开的开放域平行语料与外部翻译接口，完成翻译初始化训练，得到初始的机器翻译模型；初始机器翻译模型基于爬虫技术采集领域双语网站语料素材，解析素材标题、内容和报道时间，生成语料素材，并存入平行语料素材库。

5.如权利要求4所述的语言多来源垂直领域知识图谱构建方法，其特征在于：初始机器翻译模型从平行语料素材库中提取至少一篇原文素材和一篇译文素材，计算其报道时间差，匹配翻译原文素材标题中的领域术语，基于翻译模型比较两篇素材标题内容的相似，判断其是否为篇章级平行语料，比较其任意两个原文和译文句子的内容相似程度，生成句子级平行语料，对句子级平行语料进行对齐，根据判断结果生成篇章级平行语料，完成原文和译文篇章分句，匹配翻译原文句中的领域术语，使用生成的句子级平行语料，更新训练翻译模型，实现翻译模型更新，对初始机器翻译模型进行再训练。

6.如权利要求1所述的语言多来源垂直领域知识图谱构建方法，其特征在于：初始机器翻译模型基于双语语料的神经网络机器翻译模型，监督机器翻译模型对大量的平行语料进行统计学习，基于初始机器翻译模型构建机器翻译模型，进而将此机器翻译模型应用于其它实现翻译目的的数据，其中，神经网络机器翻译模型包括编码和解码两部分，编码器把源语言序列进行编码，并提取源语言中信息，通过解码器再把这种信息转换到另一种语言即目标语言中来，从而完成对语言的翻译。

7.如权利要求7所述的语言多来源垂直领域知识图谱构建方法，其特征在于：神经网络机器翻译模型根据给定源语言句子x，对任意的目标语言句子y直接采用神经网络以端到端方式进行p(y/(x))建模，给出其对应的翻译概率p(y/x)并进行领域知识的预标注工作。

8.如权利要求1所述的语言多来源垂直领域知识图谱构建方法，其特征在于：为实现领域知识的预标注工作，通过领域知识预标注训练机器预提取领域知识，基于领域知识预标注训练机器预标注、“人在回路”数据标注、主动学习数据标注和标注数据检验；领域知识预标注训练机器预标注拟在人工标注过程中，使用已有标注数据训练领域算法模型，即领域知识预标注模型进行领域知识预标注训练，然后利用领域模型对尚未进行人工标注的语料进行机器预标注；“人在回路”标注拟将标注任务融入到领域业务人员的日常业务工作中；主动学习数据标注是指在标注前，使用规则、机器学习、深度学习算法对待标注数据进行聚类，将聚类后的数据作为待标注数据；标注数据检验拟使用人工、检验规则，完成标注后数据的校验。

9.如权利要求1所述的语言多来源垂直领域知识图谱构建方法，其特征在于：领域知识预标注训练主要由领域知识预标注训练系统完成知识标注模型训练，领域知识预标注模型自动优化训练首先通过交互式建模的方式构建领域知识标注模型，生成模型描述文件，解析模型描述文件并转译为模型代码文件，通过领域知识标注训练系统分布式模型训练平台构建训练任务，加载模型代码文件和对应标注后的训练数据集训练模型；领域知识预标注模型训练好后，应用提供容器运行时所需的程序、库、资源、配置文件和运行时准备的一些配置参数的容器引擎docker，采用不需要虚拟出整个操作系统，只需要虚拟一个类似“沙箱”的小规模的环境的容器技术，通过虚拟机软件自动打包工具，按照需要打包为虚拟化集装箱docker或数据存储单位pb文件进行模型发布，容器调度平台基于已发布的模型，采用交互式方式进行模型编排，生成服务描述文件，由服务平台进行统一管理和对外服务。

10.如权利要求1所述的语言多来源垂直领域知识图谱构建方法，其特征在于：基于深度学习的实体关系抽取：首先，获取有标签数据，通过监督方法人工标记获取有标签数据集，远程监督方法通过自动对齐，远程知识库获取有标签数据集，其次，构建词语向量表示，将有标签label句子分词和每个词语编码成计算机可以接受的词向量，并求出每个词语与句子中实体对的相对位置，作为这个词语的位置向量，将词向量与位置向量组合作为这个词语的最终向量表示，随后，完成特征提取；句子中每个单词的向量表示被输入深度神经网络模型中提取句子特征，进而训练一个特征提取器，最后，进行关系抽取和性能评估；根据预先定义的关系类型，将特征抽取向量输入非线性层，提取最终的实体关系对，并对关系抽取结果进行评估，将语义信息表示为稠密低维实值向量，面向知识图谱中的实体和关系进行表示学习，使用建模方法将实体和关系表示在低维稠密向量空间中，然后进行计算和推理，将三元组表示成向量。