CN102999487A

CN102999487A - 一种数字出版资源语义增强描述系统及其方法

Info

Publication number: CN102999487A
Application number: CN2012105667135A
Authority: CN
Inventors: 陈琳; 谢冰; 卢朋; 高一波; 武利娟; 代文; 宋江龙; 温伟娜
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2013-03-27
Anticipated expiration: 2032-12-24
Also published as: CN102999487B

Abstract

本发明公开了一种数字出版资源的语义增强描述系统，包括：输入接口层、数据层、服务层和输出接口层。还提供了一种数字出版资源语义增强描述方法，此方法基于数字出版元数据集和数字出版领域知识库，从数字出版资源的类型出发，应用不同的划分方法将数字出版资源内容划分为通用概念语义单元和特殊语义单元，从而得到数字出版资源的语义单元表述，而后采用文本直观形式的七层文件层次模型对数字出版资源语义单元表述中的语义单元进行组合，得到数字出版资源的语义增强描述。本发明基于数字出版资源的特点，充分利用了元数据和领域知识，得到的数字出版资源语义增强描述可标识出数字出版资源的基础版权点和语义表述点，可应用于对数字出版资源的版权保护，并为数字出版资源内容的统一编目、精确检索等提供技术支撑，为海量数字出版资源管理和共享打下坚实基础。

Description

一种数字出版资源语义增强描述系统及其方法

技术领域

本发明涉及针对中文文本的自然语言处理的应用技术，尤其涉及一种基于元数据和领域知识的数字出版资源语义增强描述系统及其方法。

背景技术

随着计算机技术的发展，数字出版运用了数字化和网络化等新技术，使得数字出版的产出规模持续增长。与此同时，数字出版产业的发展造成了出版资源的爆炸式增长，这给读者带来了严重的信息过载压力，但是读者对于阅读的本质仍未改变，理解数字出版资源内容仍是提高资源利用率的核心。

语义增强技术是提高资源语义分析和应用，进而提升资源利用率的方法和技术手段，随着2001年伯纳斯·李语义网概念的提出及迅猛发展，语义增强技术也随着蓬勃兴旺，它广泛应用于解决文本、图形图像、视频、数据库等众多类型资源在行业中的语义搜索、服务和资源管理的问题。数字出版资源语义增强是对数字出版内容信息的深度整合，是使计算机理解数字出版资源内容的基础，而语义增强描述又是语义增强的基础。

2009年，David Shotton等人正式提出语义出版及出版资源的语义增强概念，开启了该技术领域应用的系统性研究，并将其定义为任何能够提高、丰富数字出版内容与知识的手段、技术和方法，它横跨数字出版从出版平台、出版物和阅读终端的各个环节，涉及环节中的各种语义信息处理技术，处理对象囊括数字出版的各种类型资源，比如数字图书、在线新闻、和学术期刊中的教学资源、政务信息等。它利用语义技术为读者提供期望的信息质量和深度，是数字出版的未来发展之路，并受到学术界和企业界越来越多的关注。

国际上：在第五届世界语义网大会期间还专门具备了首届语义出版研讨会，讨论出版内容资源之间的互操作、学术交流的新方式、如何在EPUB和其他格式电子图中嵌入和链接语义以及什么样的本体来标识文档结构和要素等多个主题。行业应用机构方面：国际晶体学联盟出版的《结晶学报，A辑：结晶学基础》支持文本语义标签；公共科学图书馆和国际计算生物学协会(ISCB)共同发布计算生物学实体能够自动来凝结至外部关联数据库；爱思维尔《欧洲生物化学会联盟通讯》与分子间相互作用数据库进行合作，对其上发表的论文采用结构化的数字摘要等等。

国内出版界和图书馆对数字出版的语义增强相关研究相对滞后，主要是在自身发展需求和技术推动下完成了特定的应用点研发，比如知网和万方数据等少数学术数据库服务商的基于资源标签的相似相近文献推介，高等教育出版社和中华书局等出版机构的资源语义标签标注，中医药出版社的军医出版物内容的语义标注，大百科出版社的词条及定义的语义分析，百度百科中的词条关联等等。

同时在以应用为导向关注于某类型的语义增强表现催生了一些语义增强工具，比如微软实验室针对编辑软件word开发了一种本体识别插件用于在文档中自动识别和添加语义信息，并将公共数据库中的相关数据整合到文档中；在现有阅读器上借助第三方插件完成特定的语义增强分析，比如利用reflect在现有浏览器上自动识别资源中的术语，并以弹出窗口的形式展示来自多个科学数据库的解释性资料，Getutopia在现有PDF文档阅读器上附带更多语义信息，Flipboard在大众阅读器上订阅多个信息源的新闻，Zite在大众阅读器上记录读者浏览历史分析读者兴趣爱好，自动选择并推介读者感兴趣的文档；抓取Scopus、Web of Science、CiteUlike、Delicious等网站上的统计信息帮助读者评估所读文章的价值和意义等等。

从以上技术应用现状可见，由于缺乏对底层语义描述的基础支撑，应用和研究缺少统一基石，目前多是针对某特定应用目标或特定资源类型而开展的研究，应用针对性太强，在数字出版资源的整体性、系统性的问题研究方面建树较少。

发明内容

针对以上问题，本发明的目的在于对数字出版资源进行底层语义增强描述，标识出资源语义点和版权保护点，以对较高层资源的应用和研究，特别是统一编目、精确检索等技术提供支撑，并可对数字出版资源的版权提供保护。

为了实现所述的目的，本发明提出了一种数字出版资源的语义增强描述系统，包括：

输入接口层模块，用于接收需要处理的数字出版资源；

数据层模块，为服务层模块提供支持数据，所述支持数据包括数字出版元数据集和数字出版领域知识库；

服务层模块，用于对输入的数字出版资源进行加工处理；

输出接口层模块，用于输出数字出版资源的语义增强描述。

所述的数据层模块包括：

数字出版元数据提取系统，用于构建数字出版元数据集；

数字出版领域知识编辑系统，用于构建数字出版领域知识库。

所述服务层模块包括：

语义单元划分系统：基于数据层模块提供的支持数据，将待处理的数字出版资源依据类型的不同划分为通用概念语义单元和特殊语义单元，构建数字出版资源的语义单元表述；

语义单元组合系统：基于数据层模块提供的支持数据，采用文本直观形式的七层文件层次模型对语义单元表述中的语义单元进行组合，得到数字出版资源的语义增强描述。

本发明还提供了一种数字出版资源的语义增强描述方法，包括如下步骤：

步骤1、以数字出版元数据集和数字出版领域知识库为基础，根据数字出版资源的类型，对输入的数字出版资源内容划分为通用概念语义单元和特殊语义单元，得到数字出版资源的语义单元表述；

步骤2、采用文本直观形式的七层文件层次模型对数字出版资源的语义单元表述中的语义单元进行组合，得到数字出版资源的语义增强描述，并将其输出。

本发明的有益效果：本发明将领域知识和元数据相结合，应用不同的划分方法将数字出版资源内容划分为通用概念语义单元和特殊语义单元，构建出数字出版资源的语义单元表述，最后通过七层文件层次模型组合语义单元得到数字出版资源的语义增强描述，为数字出版资源的进一步语义分析以及基于其上的关联分析和垂直检索提供基础技术支撑。

附图说明

图1是本发明的数字出版资源语义增强描述系统的结构示意图；

图2是本发明的数字出版语义增强描述方法的方法步骤流程图；

图3是本发明的数字出版资源语义增强描述系统的操作流程图；

图4是本发明中构建数字出版领域知识库的结构示意图；

图5是本发明中七层文件层次模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步详细说明。

本发明一种数字出版资源语义增强描述系统的结构如图1所示，包括：

1)输入接口层，用于接收需要处理的数字出版资源。输入接口层接收数字出版资源，并对数字出版资源进行审核、分类处理，将数字出版资源分为：百科辞典、通俗读物等。

2)数据层，为服务层的操作提供支持数据。其用于构建数字出版元数据集和数字出版领域知识库，以为服务层提供数据支撑。

3)服务层，用于对输入的数字出版资源进行加工。主要是对数字出版资源进行语义单元的划分和语义单元的重新组合。

4)输出接口层，用于输出数字出版资源的语义增强描述。

所述数字出版资源元数据集，是由数字出版资源元数据以及元素模型构成；其中，元素是元数据中用于定义和描述数字出版数据的内涵特征，由一组属性来描述、定义和标识，并给出允许限值，形式化表述为元素：<描述属性：描述属性1>，<定义：定义1>，<标识：标识号1>，……。2)元数据由数字出版中描述数字出版参与方、出版物产品以及出版过程和服务等共性特征的数据元素组成。核心元数据集定义了核心数据元素及其基本属性和代码表。

所述的数据层包括：

数字出版元数据提取系统，用于构建数字出版元数据集；

所述服务层包括：

本发明还提出了一种数字出版资源语义增强描述方法，算法的流程如图2所示，通过对各种各类数字出版资源的特征的分析及要素的抽象，提取出数字出版资源的元数据和元数据集；基于元数据和元数据集，构建出数字出版资源的本体概念库和领域知识树，即数字出版资源的领域知识库；以数字出版资源的元数据集和领域知识库为基础，从数字出版资源的类型出发，对输入的数字出版资源应用不同的划分方法将数字出版资源内容划分为通用概念语义单元和特殊语义单元，从而得到数字出版资源的语义单元表述，而后采用文本直观形式的七层文件层次模型对数字出版资源语义单元表述中的语义单元进行组合，得到数字出版资源的语义增强描述，并将其输出。具体来说，方法包括：

1、元数据和元数据集的构建

本发明所述的元数据和元数据集是由数字出版资源中描述数字出版参与方、出版物产品以及出版过程和服务等共性特征的数据元素组成。核心元数据集定义了核心数据元素及其基本属性和代码表，其中核心数据元素包括题名、标识符、日期、主题、类型、语言、版本等。

2、领域知识的表达和组织

本发明所述的领域知识库包括本体概念库和领域知识树两部分。如附图4所示，本体概念库是整个领域知识库的表示基础，是基于数字出版元数据集，对元数据集中元数据的概念化抽象，由概念模型构成；在概念库的基础上，以概念库内的概念为表达基础，分析抽取具有层次关系的概念，按照层次关系组织表达领域知识的知识树，知识树分为核心知识树和支撑知识分类树两部分，核心知识树表述的是元数据集中的核心数据元素及其关系，支撑知识分类树用来描述核心知识树概念的属性和属性值的层次关系。数字出版资源概念库是基于数字出版元数据集，建立出数字出版本体概念模型，由概念模型构成；其中所述数字出版本体概念模型从概念、属性关系和行为三个方面进行内涵表达，形式化为

其中属性A是数字出版领域本体的出版特征描述，用属性和属性值对二元关系来表现，形式化为：

属性名取自元数据集，为元数据要素或元数据对应的资源内容。属性值为语义单元类型，通用概念的语义单元属性为“概念”，并特设数字出版的特殊单元属性，比如“公式”、“术语”等。关系R包括父子关系和成员关系，父子关系是概念的一般和具体的关系，成员关系是整体和部分关系。领域知识树是基于数字出版资源概念库，对数字出版本体概念进行分类归纳和关联分析，由概念和概念之间的关联而构成。所述领域知识树，形式组织并表述概念和概念之间的关联关系以及分类特性。知识树的节点是概念库对应的概念，知识树的边表示节点间的关系，有父子关系和成员关系(含义类概念关系)。

3、数字出版资源语义单元表述的构建

数字出版资源语义单元表述由各种不同的语义单元组成，而语义单元的类别是由数字出版资源的内容所决定的。根据数字出版资源内容的不同，语义单元分为通用概念语义单元和特殊语义单元。特殊语义单元为基础教学教材中术语、概念、公式或百科字典中的术语条等；通用概念语义单元则为通俗读物等其他资源语义单元。

由于语义单元类型的不同，因此划分数字出版资源，需要的划分方法也不同。

1)通用概念语义单元的划分：经过停用词和去除干扰等预处理之后，在数字出版概念库基础上采用双向最大匹配方法切割分词，并根据概念库和知识树关联完成词语的上下文语境消歧，同时将语义标注到知识树上，注明语义单元类别属性，完成资源通用概念语义单元的划分。

2)数字出版特殊语义单元的划分：

a)公式的划分：根据公式、术语等的特殊语义单元的语言结构特征设定识别算法。根据公式单元会在上下文中有提示说明的特点，比如上下文跟随“见公式……”/“公式(1.1)”等结构特征，标识出数字出版资源中出现公式结构特征的文本内容，也即公式出现的上下文，并根据结构的上下提示作用在其对应位置的上或下范围内识别包含一定长度的字母数字文字，确立公式头和公式尾的位置，划分出公式，并将提示说明文字中的基本语义单元作为公式的语义描述标注其上，完成公式的语义单元的划分。

b)术语的划分：术语会收录于领域学科辞典中，在领域辞典资源基础上，采用双向最大匹配方法切割分词，同时将语义标注到知识树上，完成术语的划分。

对数字出版资源应用上述划分方法，得到数字出版资源的语义单元表述。

4、数字出版资源语义增强描述的构建

本发明所述的数字出版资源语义增强描述以七层文件层次模型(见附图2)为基础框架，该模型使用文本直观的结构形式，包括标识元素、行、段、节、章、数据集和数据集群从底层到高层的七级，其中标识元素为语义单元，低层模型语义根据资源原本文本组织方式组合表达高层语义。利用此七层文件层次模型对数字出版资源语义单元表述中的语义单元进行组合，构建出数字出版资源的语义增强描述。

本发明使用的步骤如下(如图3所示)：

第一步骤：对资源内容进行分析，提取出数字出版中描述数字出版参与方、出版物产品以及出版过程和服务等共性特征的数据元素，构建出数字出版的元数据和元数据集；

第二步骤：基于第一步所建的元数据和元数据集，对元数据进行概念化抽象，得出数字出版的概念库；将概念库中具有层次关系的概念按照层次关系组成表达领域知识的知识树；由概念库和知识树共同组成数字出版的领域知识库；

第三步骤：通过输入接口输入待处理的数字出版资源及其类型，并保存。

第四步骤：基于第一步骤所建的元数据集和第二步骤所建的领域知识库，对输入的数字出版资源划分语义单元，构建数字出版资源的语义表述；

第五步骤：以七层文件层次模型为基本框架，对所构建的数字出版资源的语义表述进行语义单元的组合，得到数字出版资源的语义增强描述，并通过输出接口将其输出。

为了更好的说明本发明，举例说明本发明的实施方式。应该注意的是，本例子仅仅是为了更加充分的说明本发明而不是对本发明的限制。

下面选取高中物理第二册(人教版)第20页对向心力的阐述：

向心力做圆周运动的物体为什么不沿直线飞去而沿着一个圆周运动？那是因为它受到了力的作用。用手抡一个被绳系着的物体，它能做圆周运动，是因为绳子的力在拉着它。月球绕地球转动，是地球对月球的引力在“拉”着它。

做匀速圆周运动的物体具有向心加速度，根据牛顿第二定律，产生向心加速度的原因一定是物体受到了指向圆心的合力。这个合力叫做向心力(centripetal force)。

把向心加速度的表达式代入牛顿第二定律，可得向心力的表达式：

F_{m} = m \frac{v^{2}}{r} - - - (1)

或者

F_n＝mω²r (2)

上述这段对向心力的阐述其核心语义点在于其中的术语概念和公式，因此以划分其中的公式语义单元为例子来说明构建语义增强描述的具体过程如下：

以中国新闻出版研究院《数字出版元数据》系列标准得到的元数据集为基础，利用概念知识树知识表达方法提供的CMC(概念管理中心平台)对元数据要素进行抽取和关联分析的管理和编辑，构建出数字出版领域知识的概念库和元数据核心知识树。其中为明确应用，概念和知识树中包括高中物理术语概念“向心力”，物理教材类资源中的公式划分算法中公式表述特征：1.文字特征：“表达式”“公式”等；2.表述特征“(公式1/1)”……“(n)”。

基于以上元数据集和领域知识库，本发明服务层的语义单元划分系统对本实施例进行如下操作：

(1)针对物理教材，判定其中关键语义单元类型包括术语概念和公式，并在构建的知识库基础上检索出“向心力”、“表达式”、“(1)”、“(2)”这些关键术语和特征；

(2)根据语义单元模型生成系统中公式的划分方法，先将：

“向心力的表达式：

F_{m} = m \frac{v^{2}}{r} - - - (1)

或者

F_n＝mω²r (2)

”部分作为公式出现的上下文；

(3)在上下文中检索连续字符数字范围，判定首次文字结束字符数字开始出现的“F_m”作为公式开头，在该段字符数字结束并且连带出现特征“(1)”的位置作为公式结尾，划分出第一个公式

同理识别出第二个公式“F_n＝mω²r”；

(4)关键术语概念为“向心力”，特征为“表达式”，因此将概念“向心力”标识为公式的语义描述，如果有多个核心概念，按语言的最简原则以最靠近公式的核心术语概念作为公式的语义描述。随后由服务层的语义单元组合系统——七层文件层次模型生成系统将本实施例语义单元表述中的语义单元进行组合，得到本实施例的语义增强描述，其表达形式为：<<向心力>，<表达式>，

<Fn＝mω²r>>。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字出版资源的语义增强描述系统，其包括：

输入接口层模块，用于接收需要处理的数字出版资源；

服务层模块，用于对输入的数字出版资源进行加工处理；

输出接口层模块，用于输出数字出版资源的语义增强描述。

2.根据权利要求1所述的数字出版资源语义增强描述系统，其特征在于：所述的数据层模块包括：

数字出版元数据提取系统，用于构建数字出版元数据集；

3.根据权利要求1所述的数字出版资源语义增强描述系统，其特征在于：所述服务层模块包括：

语义单元划分系统：基于数据层模块提供的支持数据，将待处理的数字出版资源依据类型的不同划分为通用概念语义单元和特殊语义单元，得到数字出版资源的语义单元表述；

语义单元组合系统：采用文本直观形式的七层文件层次模型对所述数字出版资源的语义单元表述中的语义单元进行组合，得到数字出版资源的语义增强描述。

4.如权利要求3所述的数字出版资源语义增强描述系统，其特征在于：所述七层文件层次模型包括标识元素、行、段、节、章、数据集和数据集群从底层到高层的七级，其中标识元素为语义单元，低层语义根据资源原本文本组织方式组合表达高层语义。

5.如权利要求3所述的数字出版资源语义增强描述系统，其特征在于：所述特殊语义单元包括基础教学教材中的术语、概念、公式或百科字典中的术语条；通用概念语义单元则包括通俗读物等其他资源中的语义单元。

6.一种数字出版资源的语义增强描述方法，包括：

7.如权利要求6所述的方法，其特征在于：所述数字出版资源元数据集，是由数字出版资源元数据以及元素模型构成；其中，元素是元数据中用于定义和描述数字出版数据的内涵特征；元数据包括数字出版资源中描述数字出版参与方、出版物产品以及出版过程和服务的数据元素。

8.如权利要求6所述的方法，其特征在于：所述数字出版的领域知识库包括数字出版资源概念库和数字出版领域知识树；其中，所述数字出版资源概念库是由对元数据集中元数据进行概念化抽象所得到的；所述数字出版领域知识树是以所述数字出版资源概念库内的概念为表达基础，从所述数字出版资源概念库中抽取具有层次关系的概念，按照层次关系组成。

9.如权利要求6所述的方法，其特征在于：所述步骤1中对所述数字出版资源内容进行划分包括：

1)、通用概念语义单元的划分：经过停用词和去除干扰处理之后，在数字出版资源概念库基础上采用双向最大匹配方法切割分词，并根据所述数字出版概念库和所述数字出版领域知识树关联完成词语的上下文语境消歧，同时将语义标注到所述数字出版领域知识树上，注明语义单元类别属性，完成通用概念语义单元的划分；

2)、数字出版特殊语义单元的划分：

a)公式的划分：根据公式的特殊语义单元的语言结构特征设定识别算法，标识出数字出版资源中出现公式结构特征的文本内容，也即公式出现的上下文，并根据语言结构特征的上下提示作用在其对应位置的上或下范围内识别包含一定长度的字母数字文字，确立公式头和公式尾的位置，划分出公式，并将提示说明文字中的基本语义单元作为公式的语义描述标注其上，完成公式的语义单元的划分；

b)术语的划分：术语收录于领域学科辞典中，在所述领域学科辞典的基础上，采用双向最大匹配方法切割分词，同时将语义标注到所述数字出版领域知识树上，完成术语的划分。

10.如权利要求6所述的方法，其特征在于：所述数字出版资源的语义增强描述采用文本直观结构形式的七层文件层次模型，包括标识元素、行、段、节、章、数据集和数据集群从底层到高层的七级，其中标识元素为语义单元，低层语义根据资源原本文本组织方式组合表达高层语义。