CN102982036B

CN102982036B - 一种语料结构化的方法及装置

Info

Publication number: CN102982036B
Application number: CN201110260373.9A
Authority: CN
Inventors: 李凯; 翟因为; 黄冶
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2011-09-05
Filing date: 2011-09-05
Publication date: 2015-08-19
Anticipated expiration: 2031-09-05
Also published as: CN102982036A

Abstract

本发明公开了一种语料结构化的方法及装置，应用于信息处理技术领域。该方法包括：获取待结构化语料对应的语料文件，根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件；根据预设的自动结构化规则中字体属性信息与特定内容的对应关系，从所述中间文件中提取与所述特定内容对应的字符信息；根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。应用本发明提供的方法和装置将语料文件进行结构化，从而能够满足精确检索的要求。

Description

一种语料结构化的方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语料结构化的方法及装置。

背景技术

在目前的信息发布领域，很多信息都是通过纸质媒介发布后，对已出版文件的存档一般最小存储单位是一篇文档。使得再版或者需要对某一文档的特定内容进行搜索时，必须逐行逐字的查询。无法满足对一篇文档内部特定内容(如正文、注文、专有名词等)的高级检索要求，无法满足对古籍中某些内容的深度加工，例如，根据考古发现修改或扩展古籍的注文；

另外，此种出版方式留下的古籍语料文件的特点是古籍的内容与样式混合在同一个语料文件中，仅考虑浏览需要使用不同的颜色、下划线等样式区分了古籍中的不同类，等同于一个带样式的字符序列；

此种出版方式古籍内容组成无结构化，导致再次出版时，若需要改动特定内容的样式(如将注文的颜色由深红改为深蓝)，则必须重新对每篇古籍做整体修改；

由于每篇古籍语料篇幅长，特定内容在古籍中出现次数很多，例如一篇3万字的古籍，专有名词可能出现几千次，因此手工从古籍语料文件中抽取特定内容效率低下，容易出错。

综上所述，在古籍采用印刷出版方式发布信息的领域中，数字资源的再利用率低，不能直接应用于古籍高级检索，不便于信息的深度加工，不便于快速再版，并且手工从数字资源中提取内容效率低下。

发明内容

本发明提供一种语料结构化的方法及装置，用于解决现有技术中预料文件的存储方式导致从数字资源中提取内容效率低下的问题。

本发明实施例提供一种语料结构化的方法，包括：

获取待结构化语料对应的语料文件，根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件；

根据预设的自动结构化规则中字体属性信息与特定内容的对应关系，从所述中间文件中提取与所述特定内容对应的字符信息；

根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储；

服务器接收信息更新请求，并根据接收的信息更新请求更新存储的结构化的语料文件。

根据该方法本发明实施例还提供一种语料结构化的装置，包括：

中间文件生成模块，用于获取待结构化语料对应的语料文件，根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件；

字符信息提取模块，用于根据预设的自动结构化规则中字体属性信息与特定内容的对应关系，从所述中间文件中提取与所述特定内容对应的字符信息；

结构化模块，用于根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储；

更新模块，用于接收信息更新请求，并根据接收的信息更新请求更新服务器存储的结构化的语料文件。

应用本发明实施例提供的方法和装置，对于以整篇文档为存储单位的语料文件，按照将语料文件各个部分的划分将语料文件分成多个独立的组成部分。在搜索文档中的某个部分或标题内容时候，能够灵活、迅速的获取到。

附图说明

图1为本发明实施例一种语料结构化的方法的流程图；

图2为本发明实施例一种语料结构化的装置的结构图。

具体实施方式

本发明实施例提供一种语料结构化的方法，该方法包括：获取待结构化语料对应的语料文件，根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件；根据预设的自动结构化规则中设定的字体属性信息与特定内容的对应关系，从所述中间文件提取与所述特定内容对应的字符信息；根据所述自动结构化规则中设定的不同特定内容的层次关系将提取的字符信息组合后上传到服务器，使服务器存储结构化的语料文件。

如图1所示，本发明实施例提供一种语料结构化的方法，具体包括步骤：

步骤101，获取待结构化语料对应的语料文件，根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件；

每一篇语料文件的不同特定内容包括：正文、注文、专有名词等；

在每一篇语料文件中可能不同部分的字体的大小、字体的样式、字体颜色等会不相同，从而起到区分不同部分的效果。

步骤102，根据预设的自动结构化规则中字体属性信息与特定内容的对应关系，从所述中间文件中提取与所述特定内容对应的字符信息；

为了提高所述自动结构化规则和所述中间文件的对各种设备的兼容性，本发明实施例中的自动结构化规则和所述中间文件可应用可扩展标记语言XML来编写。

步骤103，根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。

为了实现对存储的语料文件进行更新，本发明实施例还包括步骤：

104，服务器接收信息更新请求，并根据接收的信息更新请求更新存储的语料文件。

其中，所述更新存储的语料文件的操作包括更改、扩展、删除等。

更新服务器中存储的数据文件的具体实现方式可以是：

服务器在存储所述结构化的语料文件时，为每篇语料文件动态生成唯一的标识ID：

服务器获取信息更新请求中的语料文件名称和语料文件标识ID，确定待更新的语料文件后，更新语料文件中的相应字符信息。

另外，为了提高语料文件的安全性，服务器在根据接收的信息更新请求更新存储的信息之前，还对发送信息更新请求的设备进行身份验证，并在验证通过后，根据接收的信息更新请求更新存储的语料文件。

在具体的应用中，由于古籍语料篇幅长，特定内容在古籍中出现次数很多；古籍语料文件中，古籍的文字内容与样式混合在同一个语料文件中等特点。本发明实施例对古籍语料进行结构化时，具体的实现方式可以是：

古籍语料文件中保存古籍语料的内容和样式，一个语料文件一般只含有一篇古籍语料，每一篇古籍语料的不同特定内容(如正文、注文、专有名词等)都以不同的样式排版(如颜色、下划线、波浪线等)，除字体属性信息外不同特定内容之间没有明显的区分(如换行、换段等)。因此，本发明实施例中，基于自动结构化装置对语料语料文件进行自动信息提取以及确定层次关系，保存到服务器中。

首先，选定古籍语料文件，根据语料文件中的字体属性信息(如字体颜色、下划线样式等)，从语料文件生成带有显式字体属性信息描述的中间文件，一个具体示例如下：

以上内容中，由<p>节点包含古籍的一段内容，<font>节点中的color属性里以“#”开头的值就是特定内容对应的颜色，由<u>和<b>节点包含的分别是古籍中有下划线和加粗的内容。可见原来古籍语料文件中只能用肉眼识别的字体属性信息在中间文件中显式表示出来。

其次，对古籍语料文件进行分析，确定自动结构化的规则，该规则中包括的信息有：古籍语料文件不同特定内容对应的字体属性信息、古籍语料文件不同特定内容的层次关系。

在确定自动结构化规则时，应根据用户的应用要求确定，例如某本古籍图书确定的规则的一个示例如下所示：

书名

卷次

卷标题

篇标题

章标题

节标题

正文

注

疏

校勘记

小题

史记

*

表一

该规则示例分为表格(表一)和文字两部分。表格中第一行定义了古籍语料文件不同特定内容对应的样式，可以看见不同的特定内容在此示例中通过颜色区分。第二行指出《史记》这本古籍包含的特定内容，打“*”号的单元格表示《史记》包含对应的特定内容。

所述结构化规则的文字内容确定了古籍语料文件不同特定内容的层次关系。如以上内容中xsd:element节点中name＝“语料”，就表示了在该古籍语料文件中有语料内容需要提取；在“语料”节点中包含<xsd:element ref＝"卷次"/>内容，表示“语料”节点中可以嵌套“卷次”节点，真正的“卷次”节点由<xsd:element name＝"卷次"type＝"xsd:string"/>定义，type＝"xsd:string"表示“卷次”节点仅包含字符，不能再嵌套其他节点。

再次，根据确定的自动结构化规则，从中间文件中提取内容对应信息；并根据不同特定内容间的层级关系，将提取的内容信息组合后上传到服务器，一个具体示例如下：

以上内容按照设定的自动结构化规则存储语料语料文件不同内容，具有层次关系，方便古籍内容的查找、古籍再版。上述中间文件中的史记内容的结构化数据文件可以是以下格式：

通过上述过程将古籍内容上传至服务器，由服务器具体在存储时，可采用如表二所示格式：

字段名	类型	为空值？	描述
				SYS_DOCUMENTID	INT	N	主键ID，唯一标识
AUTHORS	VARchar(255)		古籍语料作者
				topIC	VARchar(255)		语料名称
CATALOG_ID	VARchar(255)		目录ID
				EXPLAIN	NTEXT		语料结构化内容
KEYWORD	VARchar(255)		语料关键字

SOURCE	VARchar(255)	语料来源
			PAGE	VARchar(255)	语料原书页码
STATUS	INT	语料加工状态
			LASTMODIFIED	DATATIME	上次修改时间

表二

根据上表所示的存储格式，服务器在存储古籍结构化内容时，为每篇古籍动态生成唯一的ID，保存在SYS_DOCUMENTID字段，古籍语料的名称结构化内容保存在EXPLAIN字段，如果有加工状态信息，则保存在STATUS字段。

本实施例中，信息更新装置调用服务器接口获得语料名称及语料ID，确定待更新的语料后，信息更新装置根据表一的SYS_DOCUMENTID字段更新服务器上相应的EXPLAIN字段内容。当更新完成后，信息更新装置调用服务器接口修改将STATUS字段和LASTMODIFIED字段内容。

如图2所示，本发明实施例还提供一种语料结构化的装置，包括中间文件生成模块201、字符信息提取模块202、结构化模块203：

中间文件生成模块201，用于获取待结构化语料对应的语料文件，根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件；

字符信息提取模块202，用于根据预设的自动结构化规则中字体属性信息与特定内容的对应关系，从所述中间文件中提取与所述特定内容对应的字符信息；

结构化模块203，用于根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。

为了实现对存储的数据文件进行更新，本发明实施例提供的装置还包括：

更新模块204，用于接收信息更新请求，并根据接收的信息更新请求更新服务器存储的结构化的语料文件。

所述更新模块204还用于服务器获取信息更新请求中的语料文件名称和语料文件ID，确定待更新的语料文件后，更新语料文件中的相应字符信息。

另外，为了提高语料文件的安全性，该装置还包括：

验证模块205，用于对发送信息更新请求的设备进行身份验证，并在验证通过后，根据接收的信息更新请求更新存储的语料文件。

应用本发明实施例提供的方法和装置，对存储的语料文件进行再次利用，根据古籍规则自动批量提取古籍内容。在提高了工作效率的基础上，还能够增加语料文件资源的利用程度：以结构化的形式提取并保存古籍内容，使编辑的劳动在纸质图书出版后还能得到利用。

适应古籍语料的高级检索要求：通过服务器可以根据需要检索结构化内容的任意字段，如仅检索“正文”或“注文”内容，比目前已有的简单检索和全文检索更进一步，满足了古籍学术研究中精确检索的要求。

适应当前新媒体出版要求：将古籍的内容和样式分开，可以通过快速地抽取古籍内容，套用其他样式快速再版，避免了古籍再版中重复录入内容的弊端。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其它的实施方式，同样属于本发明的技术创新范围。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语料结构化的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述自动结构化规则和所述中间文件通过可扩展标记语言XML实现。

3.如权利要求1所述的方法，其特征在于，所述更新存储的语料文件的操作包括更改、扩展、删除操作。

4.如权利要求1所述的方法，其特征在于，服务器在根据接收的信息更新请求更新存储的语料文件之前，进一步包括：

对发送信息更新请求的设备进行身份验证，并在验证通过后，根据接收的信息更新请求更新存储的信息。

5.如权利要求1所述的方法，其特征在于，服务器在存储所述结构化的语料文件时，为每篇语料文件动态生成唯一的标识，则服务器根据接收的信息更新请求更新存储的信息包括：

服务器获取信息更新请求中的语料文件名称和语料文件标识，确定待更新的语料文件后，更新语料文件中的相应字符信息。

6.一种语料结构化的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，该装置还包括：

验证模块，用于对发送信息更新请求的设备进行身份验证，并在验证通过后，根据接收的信息更新请求更新存储的语料文件。

8.如权利要求6所述的装置，其特征在于，所述更新模块还用于获取信息更新请求中的语料文件名称和语料文件标识，确定待更新的语料文件后，更新语料文件中的相应字符信息。