CN103886046B

CN103886046B - 一种面向Web数据交换的自动语义抽取的方法

Info

Publication number: CN103886046B
Application number: CN201410088790.3A
Authority: CN
Inventors: 姚原岗; 刘晖; 易锦; 陈海强; 赵向辉; 李维杰; 偰赓; 刘林; 张磊
Original assignee: China Information Technology Security Evaluation Center
Current assignee: China Information Technology Security Evaluation Center
Priority date: 2014-03-11
Filing date: 2014-03-11
Publication date: 2017-02-08
Anticipated expiration: 2034-03-11
Also published as: CN103886046A

Abstract

本发明公开了一种面向Web数据交换的自动语义抽取的方法，包括：获得JSON对象的数据交换格式并基于对象键值对进行解析，获得三元组及三元组中数据对象的唯一标识；根据唯一标识，将三元组映射为本体及实例，得到本体分类体系及多个本体数据集合。本发明解决了现有技术中Web内容的结构化标签需要手工创建以及Web数据交换无法自动转换成语义网结构化数据的问题。

Description

一种面向Web数据交换的自动语义抽取的方法

技术领域

本发明涉及数据交换技术领域，尤其涉及一种面向Web数据交换的自动语义抽取的方法及系统。

背景技术

当前Web数据的结构化研究主要有微格式（Microformat）、微数据（Microdata）、资源描述框架的属性（Resource Description Framework in Attributes，RDFa）。其中，Microformat通过重用现有的超文本标记语言（HTML）/可扩展超文本标识语言（XHTML）标签或Web页面的某些属性来传送元数据，标注事件、人物、地点等内容。Microdata是第五代超文本标记语言（HTML5）的子集，是Web内容语义描述的一种规范。Microdata标签格式用于机器对网页资料的语义解析和理解。RDFa是W3C推荐用来在HTML、XHTML以及其它基于XML的文档中嵌入元数据的一种框架，元数据通过属性的方式实现的。

Microformat、Microdata、RDFa都是对Web内容进行结构化标记的方式，用于人机对Web数据的理解，这三种Web语义化技术主要针对已有的页面内容的增强，其缺点在于：需要页面制作者在创建页面时添加，不利于Web数据结构化的自动化处理。

同时，除Web内容的结构化标签外，语义网技术也用于Web内容结构化知识的构建，已有的研究集中于语义数据的数据传输解析方式的研究，如基于JavaScript表示和传输互联数据的方法（JavaScript Object Notation for Linked Data，JSON-LD）提供了语义结构数据向数据交换格式的映射标准，将关联数据（Linked Data）转化为JavaScript对象表示法（JavaScript Object Notation，JSON）作数据交换，但是缺少数据交换格式向语义网结构化数据转换，因此也需要一种将Web数据交换格式抽取为语义增强数据的机制，扩充数据的语义内涵，便于数据基于语义的自动化应用。

发明内容

本发明实施例的目的在于提供一种面向Web数据交换的自动语义抽取的方法及系统，可以解决现有技术中Web内容的结构化标签需要手工创建以及Web数据交换无法自动转换成语义网结构化数据的问题。

一种面向Web数据交换的自动语义抽取的方法，其特征在于，其在Web服务对于应用的数据请求返回JSON对象上实现，所述方法包括：

获得所述JSON对象的数据交换格式，JSON对象，包括key-value值对，其中key为字符串，value为数据内容、数组或对象，数据内容包括字符串、数值或布尔值，数组包括数据内容数组或对象数组；将所述获得的JSON对象的数据交换格式基于对象键值对进行解析，使得所述对象键值对中嵌套的键值元素解析为三元组，并确定所述解析获得的三元组中数据对象的唯一标识；

采用主谓宾<s,p,o>的形式形成初始化的三元组数据集合；s表示主语，p表示谓语，o表示宾语；

主语s：s对应为JSON中的对象，在三元组中，对象通过唯一标识符表示；

谓语p：p对应为JSON中的key键；p包括数据属性和对象属性；

宾语o：o对应为JSON中key键所指向的value，o包括数据内容和对象（数组被分解为多个数据内容），数据内容包括数据的值以及数据类型；

最终生成的语义数据为OWL格式的文件，描述语法为XML/RDF、RDF/OWL、Turtle或Manchester；

其中：类class对应于JSON对象的抽象描述，类的实例为具体JSON对象，其为三元组中的s，o项；属性包括对象属性和数据属性，对应于三元组中的p项。

最终生成的OWL格式的文件中其他的描述信息通过预定义规则推理而来，其他的描述信息包括类、属性的约束、标注附加信息或值域定义域。

实施本发明具有如下有益效果：

本发明实施例提出了一种面向Web数据交换的自动语义抽取方法，能够实现Web数据的语义化标注，将JSON数据重构为标准的语义网数据，应用于语义推理计算，本发明实施例的方法具有良好的适应性和扩展性，能够对不同的数据资源进行语义处理，并实现相关领域数据的语义融合。

具体实施方式

本文提出的方法利用JSON数据交换格式中数据对象键值对嵌套的特性，逐层抽取Web数据的属性，对属性进行语义扩充形成具有语义约束的结构化语义描述，并利用语义网技术对元数据和数值进行建模，最终形成本体模型和实例，方法的整体框架如图1所示。

图1 Web数据交换格式的语义抽取方法框架

处理过程的关键技术

●JSON解析

Web服务对于应用的数据请求返回JSON对象，方法首先对传输的数据基于键值对进行解析，将嵌套的键值元素解析为三元组集合。JSON解析是语义抽取的预处理过程，解析内容包括数据对象的关键词和值内容，其中对于不同的值数据根据值类型进行解析，对于值中嵌套的数据对象和数组等数据结构进行迭代解析。三元组由主谓宾数据<s,p,o>组成，分别表示数据对象、数据属性、数据值，其中数据值也可能是关键词对应的其他数据对象。在实际解析中，为节省数据存储量，数据对象采用唯一标识表示。

JSON解析和语义映射实现了初始化的本体，本质上是将二元的Web数据转化为三元的语义数据，将数据对象显示的表现为节点描述，并实现对关联关系的语义描述。JSON解析后的原始的三元组信息是键值关系的直接映射，数据语义粒度粗，但便于进一步的语义处理，并且解析后的数据对象采用唯一标识表示，数据对象的原始文本信息通过数据词典存储。

●语义映射

JSON解析后的数据以三元组形式存储，这与RDF的Turtle语法类似，便于采用语义网技术对数据进行语义建模。语义映射将三元组集合进一步解析为本体和关联的实例，本体是对数据对象的元数据抽取，形成与JSON数据集相关的类和关联属性的集合。类是对数据对象概念的抽象描述，关联属性是分为对象属性和数据属性，分别表示类与类、类与数据值之间的关联。实例是对本体内容的实现，包括本体类的具体化实例、对象属性和数据属性的引用以及属性赋值。本体和实例的实现都源自相同的三元组集合，语义映射后形成的本体集合保留了数据的语义信息以及数据之间的关联信息。

语义映射增加了初始化的语义描述，为本体构建语义链接前缀，为三元组数据增加数据属性的确认，对本体全部的语义资源以唯一URI的形式描述。在对本体和实例的具体实现上，我们采用类似于Freebase的表达模式和存储模式。

●语义增强

目前生成的本体以及实例数据集合只是对不同的JSON数据集合浅层语义的提取，而没有关注数据集合中隐藏的语义信息。语义增强处理在语义映射的基础上对数据包含的潜在语义进行深入的推理和挖掘，以丰富数据的语义信息量。

语义增强利用本体的推理能力对本体的公理描述进行扩充，发现本体概念、属性中相关的声明、约束，并根据本体的特点和预定义的语义增强规则为本体标签说明；然后将这些语义信息应用到对应的数据实例中。此外，语义增强还采用统计机器学习和语义关联技术增强语义数据自身的表达含义，对数据信息对数据进行关联网络的补充，包元数据之间的层次关系、相关关系及潜在的关联等。语义增强为数据提供了更多的附加信息，用于提升应用对数据的理解和数据处理的自动化程度。

●本体融合

相同或相关领域多个数据对象的信息覆盖是重叠的，相互补充能够形成更加完善的知识体系，而JSON解析、语义映射以及语义增强都是针对不同的数据对象集合分别进行的，因此需要对多个相互关联的数据对象集合进行融合。本体融合利用已构建的多个本体模型进行对齐合并，将冗余的、描述不一致的抽象概念和关系进行了统一化，形成统一共享的数据语义模型，并在此基础上对数据实例进行合并，形成相互依赖的知识图谱。

本体融合在构建各本体文件的基础上，参考已有的外部本体资源，对不同层次不同来源的语义数据进行对齐集成，建立概念术语与约束之间的对应，增强对领域数据的全局理解，提供统一的语义数据规范和集合。

最后，由工程人员用户需要对生成的本体及实例集合进行确认、编辑和使用。

关键技术实现

我们主要应用本体和语义网技术实现以上的处理过程，其中的关键步骤包括提取本体、生成实例和多本体融合。

提取本体

已有的本体提取方法多是在数据资源的基础上的手工或半自动化构建，需要领域专家的介入，而且本体构建的质量依赖于专家的意见。骨架法、TOVE、METHONTOLOGY等传统的本体构建方法并不适用于我们面临的Web数据的语义知识构建任务。而自动化构建根据数据资源质量和表达方式的区别又可分为基于文本内容的本体构建方法和基于结构化内容的本体构建方法，前者主要应用自然语言处理、统计机器学习等技术，针对数据资源以文本为主；后者主要应用结构化语义的理解和映射技术，针对的数据资源有较好的结构。本文针对的是Web数据资源，且具有良好的数据结构，其定义是由数据发布者提供的，数据规范易于结构化处理，因此我们针对这些数据特点采用结构化语义的自动提取方法抽取本体。

本体的抽取主要包括层次结构的抽取和属性的抽取。层次结构指类-子类，是本体中概念的继承关系。在以分类体系构成为主的本体中，层次关系是本体抽取的关键，如taxonomy本体，以实现概念间的分类、互斥、概念覆盖的完备以及属性的继承。属性包括概念之间的相互关系以及关系的含义、概念自身的修饰参数值以及含义、概念和属性的约束条件等。大多数本体的提取需要同时考虑以上两点，但本体抽取并不都已层次结构的提取为主，在一些分类体系简单的应用场景下，属性语义的丰富程度是本体构建的主要工作，如在一些基因本体中，采用扁平化分类的方式对大量的基因数据进行本体描述，而没有复杂的层次结构分类。

本文自动化抽取的JSON数据对象是在Web中基于特定应用目的进行数据交换的具体数据，而不是相关应用场景或领域的概览，缺少完备的数据结构体系。不能有效反应整体的层次结构，但是局部数据通过数据融合能够实现丰富的属性语义的抽取，因此，在本体抽取中，我们采用扁平化的分类体系，将关注的重点集中于概念、关系、约束条件的抽取，建立基于本体的语义网络而不是基于树结构的本体分类体系。在提取中，我们采用三元组映射和重组三元组的方法首先将Web数据做初始化处理，然后利用RDF三元组的特性，将三元组转化为OWL描述的本体资源，OWL语法可根据需要选择XML/RDF、RDF/OWL、Turtle等。

生成实例

实例是本体中概念、属性的实现，指本体中概念描述的具体应用、与其他概念的关联以及数据属性的赋值。在通常的本体构建步骤中，首先需要有本体概念模型的描述，然后根据本体中的概念、属性描述匹配实例的上下文，最终生成本体概念的实例，匹配方法例如多属性的匹配，知识网络的关联推理、概念描述的相似性匹配等。本文基于Web数据的本体实例生成也遵循一般的过程，在本体概念描述的基础上完成实例和概念、属性的匹配。Web数据本身即数据的实例，因此在对数据实例进行本体匹配时可直接根据数据对象自身的描述而不需要进行关联分析和多属性的匹配计算。匹配成功的实例通过JSON解析中使用的唯一标识最为生成实例的标识，并通过此标识实现与其他实例的属性关联。

多本体融合

在对Web数据资源批量处理时，会产生多个独立的本体数据集合，每个数据集合对应着一种特定的应用任务，这些本体的覆盖范围不同，彼此之间存在多方面的不一致性，而这些本体之间又存在着数据和属性的对应关联，因此需要本体融合技术进行本体数据的集成。本体融合将不同本体间存在语义映射的概念、属性进行标记，根据各本体概念、属性间的语义相似性融合直接语义映射的概念、属性，并建立其他具有语义相似和语义关联的概念、属性间的连接，形成基于多本体数据重用和互操作的统一本体模型。本体对齐是多本体融合的关键，通过对齐能够实现多本体概念属性间的语义映射。根据Web数据的发布特点，同一数据发布者的多个数据集合应遵循相同的数据发布规范和统一的数据模型，这为多本体融合提供了便利。作为多本体融合的初步实现，我们首先对多本体中具有相同上下文的概念、属性直接语义映射，其中概念的匹配需要领域词典和同义词词典的支持，然后利用语义映射匹配的局部本体描述将多本体合并为一个本体。本质上，这是一种基于局部本体对齐的本体一致性扩展。

作为多本体融合的初步实现，我们首先对多本体中具有相同上下文的概念、属性直接语义映射，其中概念的匹配需要领域词典和同义词词典的支持，然后利用语义映射匹配的局部本体描述将多本体合并为一个本体。本质上，这是一种基于局部本体对齐的本体一致性扩展。

数据样例如下:

一.数据源：jason_wood.json文件。

二.中间处理结果（初始化的三元组数据）:jason_wood.tri文件。

三.最终生成的语义数据:jason_wood.owl文件。

一.数据源（数据处理对象）

采用JSON结构，key-value值对，key为字符串，value为数组，对象（词典），字符串，数值（整数、小数等），布尔类型等。

以下为jason_wood.json文件的片段。

二.中间处理结果（初始化的三元组数据）

采用主谓宾<s,p,o>的形式形成初始化的三元组数据集合。s表示主语，p表示谓语，o表示宾语。

主语s：

s对应为JSON中的对象，如整个jason_wood.json文件即为一个完整的对象，其中嵌套的{…}结构也是一个对象。如上例中的6，7，8行组成的{…}也是一个对象。

在三元组中，对象通过唯一标识符表示，如jason_wood.json文件第6，7，8行组成的JSON对象利用其MD5值：f114b154c71dea5f87a52c2b97b345ea表示。

6.{

7.”value":“test@domain.com"

8.}

谓语p：

p对应为JSON中的key键。如6，7，8行组成的JSON对象中的key键”value”在初始化三元组中被描述为属性：”has_value”。如jason_wood.tri文件第6行所示。p包括数据属性和对象属性。

宾语o：

o对应为JSON中key键所指向的value，包括数据内容和数据对象（JSON对象）。如jason_wood.tri文件第6行所示has_value对应的数据内容为(test@domain.com,string)，其中test@domain.com为数据的值，string是数据的类型。

以下为jason_wood.tri文件的片段。

1.<jason_wood,has_RootNode,(4fd9effbc947b38affeba0c1ede49873,RootNode)>

2.<4fd9effbc947b38affeba0c1ede49873,has_url,(https://xxx.BIGCOM.com/staff_id,string)>

3.<4fd9effbc947b38affeba0c1ede49873,has_image,(b19836139e055321f70fc314c146fdc2,dict)>

4.<b19836139e055321f70fc314c146fdc2,has_url,(https://www.flickr/92aWE1di84wj8/photo.jpg,string)>

5.<4fd9effbc947b38affeba0c1ede49873,has_emails,(f114b154c71dea5f87a52c2b97b345ea,dict)>

6.<f114b154c71dea5f87a52c2b97b345ea,has_value,(test@domain.com,string)>

7.<4fd9effbc947b38affeba0c1ede49873,has_urls,(8a166c8065ddd477b313c41cd8ac966d,dict)>

8.<8a166c8065ddd477b313c41cd8ac966d,has_value,(http://www.example.com/topic/app/at_idXXXXXXXXXX,string)>

42.<4fd9effbc947b38affeba0c1ede49873,has_verified,(False,boolean)>

55.<61bb7a1f57d94e70f2bf8db75ed7d1df,has_givenName,(Jason,string)>

56.<61bb7a1f57d94e70f2bf8db75ed7d1df,has_familyName,(Wood,string)>

57.<4fd9effbc947b38affeba0c1ede49873,has_displayName,(Jason Wood,string)>

58.<4fd9effbc947b38affeba0c1ede49873,has_isPlusUser,(True,boolean)>

三.最终生成的语义数据

最终生成的语义数据可采用OWL/XML、RDF/XML、Manchester、Turtle等语法描述。

使用protege（http://protege.stanford.edu/）本体编辑工具对生成的OWL文件的类、属性、对象的可视化展示。

以下为采用rdf/xml描述的jason_wood.owl文件片段。

其中：

类class对应于JSON对象的抽象描述，类的实例为具体JSON对象，其为三元组中的s，o项；

属性包括对象属性（object property）和数据属性（data property）对应于三元组中的p项；

其他的描述信息通过预定义规则推理而来，包括类、属性的约束、标注附加信息、值域定义域等。

具体如：

jason_wood.tri的第4行：

4.

<b19836139e055321f70fc314c146fdc2,has_url,(https://www.flickr/92aWE1di84wj8/p hoto.jpg,string)>

对应的三元组元素分别为:

s:b19836139e055321f70fc314c146fdc2

p:has_url

o:(https://www.flickr/92aWE1di84wj8/photo.jpg,string)

在jason_wood.owl文件中，这条三元组描述对应于第354-357行：

354.<rdf:Description

rdf:about="http://example.com/b19836139e055321f70fc314c146fdc2">

355.<ns1:has_url_string

rdf:datatype="http://www.w3.org/2001/XMLSchema#string">https://www.flickr/92a WE1di84wj8/photo.jpg</ns1:has_url_string>

356.<rdf:type rdf:resource="http://example.com/image"/>

357.</rdf:Description>

其中第354、356、357行描述了三元组的主语b19836139e055321f70fc314c146fdc2;

第355行<ns1:has_url_string

rdf:datatype=“http://www.w3.org/2001/XMLSchema#string”>…</ns1:has_url_stri ng>描述了三元组的谓语has_url

第355行中间标注的的字符串https://www.flickr/92aWE1di84wj8/photo.jpg描述了三元组的宾语(https://www.flickr/92aWE1di84wj8/photo.jpg,string)

解决现有技术中Web内容的结构化标签需要手工创建以及Web数据交换无法自动转换成语义网结构化数据的问题

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向Web数据交换的自动语义抽取的方法，其特征在于，其在Web服务对于应用的数据请求返回JSON对象上实现，所述方法包括：

谓语p：p对应为JSON中的key键；p包括数据属性和对象属性；

宾语o：o对应为JSON中key键所指向的value，o包括数据内容和对象，数组被分解为多个数据内容，数据内容包括数据的值以及数据类型；

2.根据权利要求1所述的一种面向Web数据交换的自动语义抽取的方法，其特征在于：