CN105320716A

CN105320716A - 数字出版物的自动标注方法

Info

Publication number: CN105320716A
Application number: CN201410562853.4A
Authority: CN
Inventors: 杨朝阳; 刘永坚; 白立华; 李文忠; 杨慧; 朱驰风
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2014-10-22
Filing date: 2014-10-22
Publication date: 2016-02-10

Abstract

本发明提供一种数字出版物的自动标注方法。包括如下步骤：解析文档：采用解析工具将pdf文档的页面进行解析，并将解析后数据合理的存储方便分词等后续处理调用；提取关键字：对照现有的关键字表，以段落为单位对文档的每一页的每一段进行关键字提取，并存入计算机系统；同义词归并：以段落为单位，在计算机系统内，对段落关键字进行同义词归并得到最终关键词；权值计算：利用计算机系统，为最终的关键字进行权值计算，并保存；带标注的电子文档：将得到的关键字及相关信息与页面数据关联形成标注信息，得到带标注的电子文档。本发明方法能够对数字出版物提供标注信息的查看，实现数字出版物的带标注预览和阅读方式，能够方便读者快速有效的查看文档中的主题信息。

Description

数字出版物的自动标注方法

技术领域

本发明涉及数字出版物技术领域，尤其涉及到一种通过对数字出版文档内容进行分词处理，提取内部关键字获取标注信息的数字出版物的自动标注方法。

背景技术

网络的普及和发展使得数字出版物逐渐流行，但目前的数字出版物只提供单纯的版面阅读，甚至只是对纸质出版物的一种简单备份，还没有一个对电子出版物的内容进行提炼标注的形式来快速获取或者展现内容要素。

一方面，本模块提出的数字出版物的标注提供一种新的阅读和获取信息要素的方式；另一方面，这种标注为网络电子文档添加了标签，能为电子文档之间建立概念网络、本体库的建立提供有效的数据支撑。

发明内容

本发明所要解决的技术问题是正对上述存在的技术不足，提供一种对数字出版物提供标注信息的查看，实现数字出版物的带标注预览和阅读方式，能够方便读者快速有效的查看文档中的主题信息的数字出版物的自动标注方法。

本发明解决其技术问题所采用的技术方案是：

数字出版物的自动标注方法，其特征在于，包括如下步骤：

解析文档：在计算机系统中，采用解析工具将pdf文档的页面进行解析，解析之后可以获取到pdf文档的所有页面数据，通过目录、段落特征识别出目录页以及页面段落，并将这些数据合理的存储方便分词等后续处理调用。

提取关键字：对照现有的关键字表，以段落为单位对文档的每一页的每一段进行关键字提取，并存入计算机系统。

同义词归并：以段落为单位，在计算机系统内，对段落关键字进行同义词归并得到最终关键词。

权值计算：利用计算机系统，为最终的关键字进行权值计算，并保存。

带标注的电子文档：将得到的关键字及相关信息与页面数据关联形成标注信息，得到带标注的电子文档。

在上述方案中，所述的解析文档步骤中，对解析数据的再识具体为：对解析工具获取的解析数据，主要完成对文本行内容表示和目录页、段落开始于结束位置的识别；其中：

文本行表示：根据每行的每一个文字的两个定位点信息。将获取的页面数据流以“行”为单位存储到一个自定义行对象中，并将一整页的行数据存储到一页Arraylisl<>中，通过访问可以获取每一行中每一个字的内容和定位点信息。

目录页识别：根据目录格式的特性，对同一特殊字符出现超过10个的判定为目录页。

段落识别：根据段落格式的特性，每段开始都有2个汉字的空格即两个空个字符位，段落的结束刚好是下一段落开始前一行。

在上述方案中，所述的提取关键字具体为：采用ansj分词组件对pdf内容按段落分词并抽取出段落关键字。

在上述方案中，所述的同义词归并具体为：把抽取出的段落关键字通过同义词归并组件xsimilarity，进行两两对比计算词语前的相似度归并同义信息，减少标注信息冗余。

在上述方案中，所述的权值计算具体为：通过ansj提供的权值计算接口获取关键字权值，并将关键字和权值信息按段落关联方式存储。

在上述方案中，所述的带标注的电子文档具体为：将关键字和权值信息取出，按照段落相关的方式提供给用户查看。

本发明的原理是采用工具对pdf文档进行解析，在计算机系统中，对解析后的信息使用ansj组件按段落抽取关键字，对抽取出来的关键字使用xsimilarity组件两两对比进行同义词归并，采用ansj组件接口计算关键字权值存储数据库中，最后在电子文档中可以查看段落的带权重标注信息。

本发明的有益效果是：

能够对数字出版物提供标注信息的查看，实现数字出版物的带标注预览和阅读方式，能够方便读者快速有效的查看文档中的主题信息。

同时能为电子文档之间建立概念网络、本体库的建立提供有效的数据支撑。

附图说明

图1是本发明实施例的流程图。

具体实施方式

下面结合具体实施方式，对本发明作进一步的说明：

如图1所示的数字出版物的自动标注方法，包括如下步骤：

解析文档：采用解析工具将pdf文档的页面进行解析，解析之后可以获取到pdf文档的所有页面数据，通过目录、段落特征识别出目录页以及页面段落，并将这些数据合理的存储方便分词等后续处理调用。

在本实施例中，所述的解析文档步骤中，对解析数据的再识具体为：对解析工具获取的解析数据，主要完成对文本行内容表示和目录页、段落开始于结束位置的识别；其中：

所述的提取关键字具体为：采用ansj分词组件对pdf内容按段落分词并抽取出段落关键字。

所述的同义词归并具体为：把抽取出的段落关键字通过同义词归并组件xsimilarity，进行两两对比计算词语前的相似度归并同义信息，减少标注信息冗余。

所述的权值计算具体为：通过ansj提供的权值计算接口获取关键字权值，并将关键字和权值信息按段落关联方式存储。

所述的带标注的电子文档具体为：将关键字和权值信息取出，按照段落相关的方式提供给用户查看。

本发明实施例是采用工具对pdf文档进行解析，在计算机系统中，对解析后的信息使用ansj组件按段落抽取关键字，对抽取出来的关键字使用xsimilarity组件两两对比进行同义词归并，采用ansj组件接口计算关键字权值存储数据库中，最后在电子文档中可以查看段落的带权重标注信息。

本发明的保护范围并不限于上述的实施例，显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围内，则本发明的意图也包含这些改动和变形在内。

Claims

1.数字出版物的自动标注方法，其特征在于，包括如下步骤：

解析文档：在计算机系统中，采用解析工具将pdf文档的页面进行解析，解析之后可以获取到pdf文档的所有页面数据，通过目录、段落特征识别出目录页以及页面段落，并将这些数据合理的存储方便分词等后续处理调用；

提取关键字：对照现有的关键字表，以段落为单位对文档的每一页的每一段进行关键字提取，并存入计算机系统；

同义词归并：以段落为单位，在计算机系统内，对段落关键字进行同义词归并得到最终关键词；

权值计算：利用计算机系统，为最终的关键字进行权值计算，并保存；

2.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的解析文档步骤中，对解析数据的再识具体为：对解析工具获取的解析数据，主要完成对文本行内容表示和目录页、段落开始于结束位置的识别；其中：

文本行表示：根据每行的每一个文字的两个定位点信息。

3.将获取的页面数据流以“行”为单位存储到一个自定义行对象中，并将一整页的行数据存储到一页Arraylisl<>中，通过访问可以获取每一行中每一个字的内容和定位点信息；

目录页识别：根据目录格式的特性，对同一特殊字符出现超过10个的判定为目录页；

段落识别：根据段落格式的特性，每段开始都有2个汉字的空格即两个空个字符位，段落的结束刚好是下一段落开始前一行；

如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的提取关键字具体为：采用ansj分词组件对pdf内容按段落分词并抽取出段落关键字。

4.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的同义词归并具体为：把抽取出的段落关键字通过同义词归并组件xsimilarity，进行两两对比计算词语前的相似度归并同义信息，减少标注信息冗余。

5.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的权值计算具体为：通过ansj提供的权值计算接口获取关键字权值，并将关键字和权值信息按段落关联方式存储。

6.如权利要求1所述的数字出版物的自动标注方法，其特征在于：所述的带标注的电子文档具体为：将关键字和权值信息取出，按照段落相关的方式提供给用户查看。