CN102360351A

CN102360351A - 一种对电子图书内容进行语义描述的方法及系统

Info

Publication number: CN102360351A
Application number: CN2011102891632A
Authority: CN
Inventors: 张训军
Original assignee: BEIJING HOPE SOFTWARE Co Ltd
Current assignee: BEIJING HOPE SOFTWARE Co Ltd
Priority date: 2011-09-27
Filing date: 2011-09-27
Publication date: 2012-02-22

Abstract

一种对电子图书内容进行语义描述的方法及系统，首先用XML语言，按照电子图书中对结构及语义描述的规则与赋值范围产生一个包括结构字典与语义字典的XML Schema文件；然后，按照结构字典把电子图书内容拆分成多个片断；为每个片断赋予用于标出每个片断的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件；其次按照语义字典在所述XML文件中分别对每个片断进行语义描述，形成一个新的XML文件；最后对新的XML文件添加XMLSchema声明、版权声明最终形成的电子图书文件。

Description

一种对电子图书内容进行语义描述的方法及系统

技术领域

本发明涉及电子图书数字出版技术领域，特别是涉及一种对电子图书内容进行语义描述的方法及系统。

背景技术

出版企业目前正在把纸质图书进行电子格式的加工，形成各类电子文件。电子文件比较纸质图书最大的优势在于内容可以被检索，极大地加快了传统内容检索的效率，这种技术进步促进了数字出版的诞生与发展。但是，目前这些格式的电子文件的检索方式仅仅是全文检索与关键字检索，全文检索暴露的问题是不能精确检索到读者真正想要的内容，最简单的例子如，检索“中国”的结果中，一定包括“发展中国家”这样的内容。当内容呈现海量时，通过全文检索的方式就会检索到非常多的无效结果，最终使检索变得低效。而关键字的检索大多用于文章的检索，没有人应用到图书的各个局部中。

随着人类社会的发展，人们获取知识与信息的方式正在发生着变化，很多人更希望精准地获取一本图书中的部分内容，甚至是很少一部分内容，一本图书中的大多数内容可能并不是读者所需要的。这个市场需求要求图书的每一个片断内容是可以被工具按照某种方式被识别、被检索的。

本发明就是要通过图书内容分割与内容语义描述两种手段相结合的方式来解决图书内容的检索效率的问题。所谓语义描述就是对图书中的某一段内容进行一些概括性的解释，这些解释的目的就是设法把读者的诉求与图书的内容连接在一起，比如，读者的诉求往往是“什么是万有引力？”、“如何做鸡蛋炒西红柿？”、“地球自转的原因是什么？”，如果要让工具在浩如烟海的图书中快速而又精准地检索到这些内容，那么就要对这些图书的某段内容进行“万有引力的定理”“、“做鸡蛋炒西红柿的方法”这样的概括性的语义描述。

要实现图书内容的语义描述的目标，就必须解决好两个问题：

一是要有一个很好的方法来分割图书内容，使分割的片断内容可以任意大小，同时保持一定的层次关系。目前已有的分割方法不能实现任意大小的分割，不能实现跨章、跨节的片断的分割，完全是按传统排版结构来分割的；

二是建立一种方法来对每一个片断内容进行多角度的语义描述，使之与读者多种诉求相联系。目前对图书的语义描述仅仅是关键词，没有完整的语义，更没有与某种市场需求对应起来。

发明内容

鉴于现有技术的缺陷，本发明提供一种对电子图书内容进行语义描述的方法，其特征在于包括如下步骤：(1)用XML语言，按照电子图书中对结构及语义描述的规则与赋值范围产生一个包括结构字典与语义字典的XML Schema文件；(2)导入电子图书并按照所述结构字典把电子图书内容拆分成多个片断；(3)为每个片断赋予用于标出其在电子图书中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件；(4)在所述XML文件中按照所述语义字典分别对每个片断进行语义描述赋值，形成一个新的XML文件；(5)对新的XML文件添加XML Schema声明、版权声明最终形成的电子图书文件。

本发明进一步提供一种对电子图书内容进行语义描述的系统，其特征在于包括：(1)用于使用XML语言，按照电子图书中对结构及语义描述的规则与赋值范围产生一个包括结构字典与语义字典的XMLSchema文件的装置；(2)用于导入电子图书并按照所述结构字典把电子图书内容拆分成多个片断的装置；(3)用于为每个片断赋予用于标出其在电子图书中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件的装置；(4)用于在所述XML文件中按照所述语义字典分别对每个片断进行语义描述赋值，形成一个新的XML文件的装置；(5)对新的XML文件添加XML Schema声明、版权声明最终形成的电子图书文件的装置。

本发明能够实现电子图书的片断内容的语义描述，图书不再是完整的一部，而是被有目的地分成若干个片断，每一个片断都对应着读者的一个或多个诉求，海量的图书最终形成了海量的知识库，而不是简单的数据库。读者的每一个问题都能从知识库中检索到一个或多个答案，这完全高于全文检索与关键字的检索效率，这在垃圾数据日益膨胀的未来更加重要与迫切。此外，语义描述后的图书形成的知识库，可以根据语义的组合及机器推理工具产生智能库，为人工智能的发展将起到重要作用。本发明专利属于用于外部数据处理的涉及计算机程序的发明专利。

附图说明

图1是本发明对电子图书进行语义描述的方法的数据处理流程图。

具体实施方式

为使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明对电子图书进行语义描述的方法的步骤流程图，该方法包括如下步骤：

(1)用XML语言，按照电子图书中对结构及语义描述的规则与赋值范围产生一个包括结构字典与语义字典的XML Schema文件；

举例来说，本发明中所建立的结构字典如下：

BID.属性名＝图书ID号；

BID.取值范围＝字符；

BID.说明＝图书的唯一识别码

SID.属性名＝片断ID号；

SID.取值范围＝字符；

SID.取值规则＝XXX.XXX.XXX.XXX

SID.说明＝每个片断的唯一识别码；

N.属性名＝片断的序号；

N.取值范围＝N；

N.说明＝片断在原图书中的先后位置

P.属性名＝页码范围；

P.取值范围＝二元数组；

P.说明＝原书的页码范围

此外，为了让其它工具更好识别本发明对电子图书内容所作的语义描述，我们可以对语义描述中所用到的一些词可以做一个规范，形成一个语义字典。

例如，对OP i＝(O i，A i，AK i，C i)中的每个取值做如下说明：

属性名、取值范围、详细说明

O.属性名＝主体词；

O.取值范围＝任意名词；

O.说明＝语义所描述的对象

A.属性名＝谓体词；

A.取值范围＝任意动词或系动词+名词；

A.说明＝语义所描述的对象的功能性说明；

AK.属性名＝谓体词的补充说明；

AK.取值范围＝任意词；

AK.说明＝语义所描述的对象的功能性说明的进一步补充

C.属性名＝约束条件；

C.取值范围＝多元词组；

C.说明＝从多个方面来说明对象功能的条件

本发明中的结构字典和语义字典均通过XML Schema声明发布，并且在具体标注过程中要不断更新字典与XML Schema文件。

(2)导入电子图书并按照所述结构字典把电子图书内容拆分成多个片断；

在该步骤中，可以开发一个结构拆分的计算机程序，实现把电子图书按一定的规则分解成若干个内容连续的片断，每个片断可以是传统意义的章、节、段，也可以是包含章、节、段，但本身并不是章、节、段的片断。由此，图书内容是由片断组成，但是所有片断组成的内容却可能比图书内容有许多重复冗余，也就是说，片断之间可以有交集。拆分的大小取决于使用者所企望的应用效果，可以大到章，也可小到词、字。拆成的片断以文本的形式存在。

传统意义上是通过章、节、段层层嵌套的方式来描述图书的结构，而本发明则用并列的片断，非嵌套的方式描述图书结构，这种方法更加灵活，更便于计算机识别内容。本发明中将片断记为S.，片断S组成的集合为B，称之为“片断集合B”，B包含了图书的所有内容，并存在冗余。记为：

B＝{Si|i∈N}；

存在i，j∈N，使得Si∩Sj≠ф，；

如果集合BM＝{Si|i∈N}；

并且i、对于任意i，j，i，j∈N，都有Si∩Sj＝ф；

ii、BM包含图书所有内容

成立

那么，BM称为最小片断集合。BM是没有冗余的图书内容的集合。一本图书可以存在多个BM。其中任何一个Si的内容在图书中的表现是连续的；其次，片断S之间没有先后顺序，但可以通过工具读取S的ID属性来判断其在图书中的顺序；此外，片断S之间没有相互包含关系，可以通过工具读取S的ID属性来判断其在图书中的关系。在对电子图书内容进行拆分时要保证：(1)这些片断之间是并列的，而不是传统的层次嵌套关系。(2)拆分时要读取片断在原电子图书内容中的位置信息，并保存在XML文件中。

电子图书的内容可以看成一个一维的阵列，在一个一维阵列中可以任意提取一个子列。因此，图书内容可以很容易地被人工或工具拆分成没有嵌套及先后顺序关系的任意大小的片断。

(3)为每个片断赋予用于标出其在电子图书中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件；

在此步骤中，可以开发一个文件转换的计算机程序，把这些文本文件中的片断作为XML元素，生成一个以片断为元素的XML文件。这时候，各个元素之间是完全并列、并且可能存在大量的重复内容。并可以通过一个XML编辑软件，对所产生的XML文件进行结构属性赋值。赋值的方式可以是手工输入，也可以通过计算机程序根据片断的先后顺序及位置信息计算，自动赋值。

根据每一个片断在图书的位置信息，应用XML技术给这些片段赋予结构属性(SS＝{BID，SID，N，P})，那么虽然分割的片断是无序、无嵌套关系的，但是通过这些结构属性是可以判断出每个片断的先后顺序及嵌套关系。

对于任意片断S，用集合SS来描述S的结构特征.

SS＝{BID，SID，N，P}

其中，

BID：图书唯一的ID号，可与ISBN号一一对应。

SID：片断S的ID号，形式定义为：“C1.C2.C3.C4.C5”其中C1：类，C2：章，C3：节，C4：段，C5：图；

类C1的取值：01表示片断属于文字，02表示是图片，03表示FLASH，04表示其它

章C2的取值：

X表示序

Q表示前言

01表示第1章，依次类推至999

节C3的取值：

01表示第1节，依次类推至999

段C4的取值：

001表示第1段，依次类推至999

例如，001.003.010.000表示第三章第十节的文字

N：片断的序列号，n＝1，2，3……n∈N

P：二元数组(P1，P2)，表示原书页码范围。P1，P2∈N；

(4)在所述XML文件中按照所述语义字典分别对每个片断进行语义描述赋值，形成一个新的XML文件；

在该步骤中，可以开发一个语义标注程序，实现对第(2)步所产生的XML文件进行语义属性的赋值；

这一步必须是手工填加，实现对片断内容的抽象过程。

对于片断S，用DD描述语义特征.

I、DD＝∪{OP i}，OP i＝(O i，A i，AK i，C i)

即，用多个属性组合(OP i)从其用途、意义、内容概括、相关问题等多方面来描述片断(S)的语义。

其中，DD为功能语义描述集合；它由若干功能的语义描述组成。功能语义描述OP i是一个四元组。其中O i表示语义的本体；A i为语义的谓体；AK i为A i的补充关键字；C i为约束条件，是一个多元组：{C’1 i，C’2 i，C’3 i}

C’1 i＝{NAME，VALUE}

C’2 i＝{NAME，VALUE}

C’3 i＝{NAME，VALUE}

举例，对于软件类图书的C’1，C’2，C’3，可以分别取值为：C’1.name＝“类别”，C’2.name＝“软件名称”，C’3.name＝“版本”

又例：

DD＝(“图层”，”创建”，“”，(”案例”，“PHOTOSHOP”，“CS5”))

∪(“照片”，“修改”，“去皱纹”，(“案例”，“PHOTOSHOP”，“CS5”))

对此语义描述的解释说明如下：

本片断内容讲述了图层创建的案例，所用的软件是PHOTOSHOPCS5。

同时也是一个去除照片上皱纹的案例.所用的软件是PHOTOSHOPCS5。

这样的语义描述从不同的角度及应用领域描述了这段内容，这样的描述是可以被工具识别的，同时也可以把读者的诉求与这段内容联系在一起。这是让图书发展为智能化的基础。

在该步骤中，可以开发一个语义图书的导出程序，实现对填加语义属性的XML文件语法检查、增加XML Schema、版权的声明，形成一个完整的电子图书。

采用本发明对电子图书内容进行语义描述的方法获得的电子图书文件内容的语法遵循国际标准W3C组织的XML1.0标准；图书内容的每一个片断定义为一个XML元素；根据片断的属性，生成有先后顺序与嵌套关系的XML元素；把语义描述OP i定义到每一个元素的属性中；在文件中包含此书的版权信息内容(也可以是地址指向)。当无顺序与层次关系的片断被语义描述后，会形成一个较大的、有部分重复的XML文件后，可以通过一些读取结构属性的方法来生成一个精简的、无重复内容的、有顺序的、有层次关系的XML文件，这种XML文件可以用于对外发布及数据交换。

下面以具体实施例来具体描述本发明的执行过程。

第一步，数据输入

取自任意一本电子图书，格式可以是DOC\PDF\EPUB\INDD\等可以提取内容的文件，本文以WORD格式的电子图书为例，说明本方案的实施过程。

用相应的软件打开这种格式的电子图书，如《MICROSOFT WORD》。

或者：

启动《希望结构拆分工具》，运行“文件导入”功能，把word文件导入系统。

第二步，数据的结构处理

用WORD中的“选择”工具，依次把文档内容中的片断，按照用户所需要的方式COPY出来，手动粘贴到任意一个XML编辑器中，最终把全部内容COPY出来。COPY过程中，片断之间可以有重复的内容，但不能有遗漏内容。

在XML编辑器中，严格按照本发明的方法为每一个内容定义其结构属性。

或者采取另一种自动方式，在《希望结构拆分工具》中运行“无层次关系输出”功能，把当前WORD文件自动拆成若干个片断，并自动赋予结构属性。

通过上述手动还是自动的方法，结果产生一个XML文件，其特点是每个片断(元素)之间是并列关系，但每个片断都具有反映层次关系的结构属性。

第三步，数据的语义处理

运行《希望语义标注系统》，导入上一环节输出的XML文件，在系统中运行“生成图书结构”功能，此功能读取XML文件各个元素的结构属性，并根据其属性来判断各元素的先后与层次关系。

运行“浏览XML”功能，在浏览窗口中查看XML文件，这时的XML文件是具有先后顺序及层次关系的，进一步浏览并检查是否有错误，如果有，可以用鼠标拖动方式调整位置关系。

运行“语义标注”功能，然后对每一个元素(片断内容)进行语义属性标注。标注过程中系统会自动检查标注是否合法。

第四步，数据输出

运行“输出语义图书”功能，系统即可在现有的XML文件中，加入相应的XML Schema、版权等内容的声明。

在“保存文件”的提示下，输出一个具有结构及语义的电子图书。

本发明能够实现电子图书的片断内容的语义描述，图书不再是完整的一部，而是被有目的地分成若干个片断，每一个片断都对应着读者的一个或多个诉求，海量的图书最终形成了海量的知识库，而不是简单的数据库。读者的每一个问题都能从知识库中检索到一个或多个答案，这完全高于全文检索与关键字的检索效率，这在垃圾数据日益膨胀的未来更加重要与迫切。此外，语义描述后的图书形成的知识库，可以根据语义的组合及机器推理工具产生智能库，为人工智能的发展将起到重要作用。本发明专利属于用于外部数据处理的涉及计算机程序的发明专利。本发明专利的实质是利用一个计算机程序在公知计算机上对图书数据进行处理以实现图书内部内容的语义描述目标。对图书内容的结构化，并对其中的片断内容进行语义描述处理是其要解决的技术问题，获得了具有内容语义描述的电子图书是其技术效果。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种对电子图书内容进行语义描述的方法，其特征在于包括如下步骤：

2.根据权利要求1所述的对电子图书内容进行语义描述的方法，其特征在于：

对电子图书内容进行拆分时，所述的多个片断之间是以并列的而非嵌套的，每个片断内部的内容在图书中的表现是连续的，并且片断之间可以有交集。

3.根据权利要求1所述的对电子图书内容进行语义描述的方法，其特征在于：

对电子图书内容进行拆分时要读取片断在原图书内容中的先后顺序及位置信息，并保存在XML文件中。

4.根据权利要求1所述的对电子图书内容进行语义描述的方法，其特征在于：

对每个片断进行结构属性赋值的方式可以是手工输入，也可以通过计算机程序根据片断的先后顺序及位置信息计算，自动赋值。

5.根据权利要求1所述的对电子图书内容进行语义描述的方法，其特征在于：对每个片断进行语义描述的方式是通过多个多元数组进行人工赋值，其中单个多元数组中的元素之间具有固定的逻辑关系。

6.一种对电子图书内容进行语义描述的系统，其特征在于包括：

(1)用于使用XML语言，按照电子图书中对结构及语义描述的规则与赋值范围产生一个包括结构字典与语义字典的XML Schema文件的装置；

(2)用于导入电子图书并按照所述结构字典把电子图书内容拆分成多个片断的装置；

(3)用于为每个片断赋予用于标出其在电子图书中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件的装置；

(4)用于在所述XML文件中按照所述语义字典分别对每个片断进行语义描述赋值，形成一个新的XML文件的装置；

7.根据权利要求6所述的对电子图书内容进行语义描述的系统，其特征在于：

8.根据权利要求6所述的对电子图书内容进行语义描述的系统，其特征在于：

9.根据权利要求6所述的对电子图书内容进行语义描述的系统，其特征在于：

10.根据权利要求6所述的对电子图书内容进行语义描述的系统，其特征在于：对每个片断进行语义描述的方式是通过多个多元数组进行人工赋值，其中单个多元数组中的元素之间具有固定的逻辑关系。