CN107301162A

CN107301162A - 一种识别文字文档的方法及装置

Info

Publication number: CN107301162A
Application number: CN201610235737.0A
Authority: CN
Inventors: 胡娟; 周显; 章庆元
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Jinshan Mobile Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd; Guangzhou Jinshan Mobile Technology Co Ltd
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2017-10-27

Abstract

本发明实施例公开了一种识别文字文档的方法及装置，解决了目前用户的排版方式通常为改变字号、字形、间距等来突出重点内容或文档结构，所导致的识别文字文档的结构错乱的技术问题。本发明实施例别文字文档的方法包括：根据提取的原文档内容确定复数个版面元素将版面元素一一映射到相对应的预置标签；根据预置标签将原文档内容进行展示。

Description

一种识别文字文档的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别文字文档的方法及装置。

背景技术

在日常生活、工作中，在电脑端文字文档已普遍为用户使用，用户将自己的想法、介绍项目计划、说明产品使用、发布公告通知等通过文字文档形式展示给多人查阅。而如何让文档看起来更加直观、结构更加清晰、重点更加突出就成了重难点。Microsoft Word设定了一系列的展示规则(例如:标题样式、题注样式、项目符号和编号不同层级的缩进和行间距等)来解决上述问题，而用户必须了解和学习这些规则，并在文档编辑过程中，对字、段设置相应的规则和属性。

但从日常用户制作的文档来看，80％的用户并不会使用这些规则，他们更多的是通过改变字号、字形、间距等来突出重点内容或文档结构。这些不规范的文档也就导致我们在做内容提取或进行文档结构展示优化时无法得知某些文字片段所担当的角色(例如：标题1～3、题注等)，从而无法识别或优化，导致了识别文字文档的结构错乱的技术问题。

发明内容

本发明实施例提供了一种识别文字文档的方法及装置，解决了目前用户的排版方式通常为改变字号、字形、间距等来突出重点内容或文档结构，所导致的识别文字文档的结构错乱的技术问题。

本发明实施例中提供的一种识别文字文档的方法，包括：

根据提取的原文档内容识别出版面元素；

将所述版面元素映射到相对应的预置标签；

根据所述预置标签将所述原文档内容进行自定义处理。

优选地，根据提取的原文档内容识别出版面元素之前还包括：

提取原文档的所有内容或部分内容。

优选地，根据提取的原文档内容识别出版面元素具体包括：

根据提取的原文档的所有内容或部分内容对应的属性以确定所述版面元素。

优选地，所述版面元素属于文字属性和版面排版属性。

优选地，根据所述预置标签将所述原文档内容进行自定义处理具体包括：

根据所述预置标签并结合预置展示规则将所述原文档内容进行展示；

和/或

将所述预置标签对应的预置展示规则进行存储。

优选地，根据所述预置标签并结合预置展示规则将所述原文档内容进行展示具体包括：

判断所述版面排版属性是否缺少一个或多个版面元素，若是，则确定与缺少的所述版面元素相对应第一预置展示规则；

确定其余的第二预置展示规则；

根据所述预置标签并结合所述第一预置展示规则和所述第二预置展示规则将所述原文档内容进行展示。

本发明实施例中提供的一种识别文字文档的装置，其特征在于，包括：

确定单元，用于根据提取的原文档内容识别出复数个版面元素；

映射单元，用于将所述版面元素映射到相对应的预置标签；

自定义处理单元，用于根据所述预置标签将所述原文档内容进行自定义处理。

优选地，所述识别文字文档的装置还包括：

提取单元，用于提取原文档的所有内容或部分内容。

优选地，所述确定单元，具体用于根据提取的原文档的所有内容或部分内容对应的属性以确定所述版面元素；

所述版面元素属于文字属性和版面排版属性。

优选地，自定义处理单元，包括：展示子单元，具用于根据所述预置标签并结合预置展示规则将所述原文档内容进行展示；

存储子单元，用于将所述预置标签对应的预置展示规则进行存储；

所述展示子单元具体包括：

判断模块，用于判断所述版面排版属性是否缺少一个或多个版面元素，若是，则触发第一确定模块；

所述第一确定模块，用于确定与缺少的所述版面元素相对应第一预置展示规则；

第二确定模块，用于确定其余的第二预置展示规则；

展示模块，用于根据所述预置标签并结合所述第一预置展示规则和所述第二预置展示规则将所述原文档内容进行展示。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中提供的一种识别文字文档的方法及装置，其中，识别文字文档的方法包括：根据提取的原文档内容确定复数个版面元素将版面元素映射到相对应的预置标签；根据预置标签将原文档内容进行自定义处理。本实施例中，通过对提取的文档识别出多个版面元素，再将版面元素与预置标签进行映射，最后根据映射后的预置标签便可以将原文档的内容和排版以html形式进行自定义处理，解决了目前用户的排版方式通常为改变字号、字形、间距等来突出重点内容或文档结构，所导致的识别文字文档的结构错乱的技术问题。

进一步，让所有文档都能通过这个方法，将用户的内容提取出来并保持文字片段在原文档中所担任的角色，保证识别后展示的文档结构清晰，更能方便的扩展多种展示样式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中提供的一种识别文字文档的方法的一个实施例流程示意图；

图2为本发明实施例中提供的一种识别文字文档的方法的另一个实施例流程示意图；

图3为本发明实施例中提供的一种识别文字文档的方法的另一个实施例流程示意图；

图4为本发明实施例中提供的一种识别文字文档的装置的一个实施例结构示意图；

图5为本发明实施例中提供的一种识别文字文档的装置的另一个实施例结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中提供的一种识别文字文档的方法的一个实施例包括：

101、根据提取的原文档内容识别出版面元素；

本实施例中，当对不规范文档在提取内容展示或文档结构展示优化时，需要解决文字片段缺省相应属性标识使得文档结构错乱的问题时，首先需要根据提取的原文档内容识别出版面元素。

102、将版面元素映射到相对应的预置标签；

当根据提取的原文档内容识别出版面元素之后，需要将版面元素映射到相对应的预置标签，例如版面元素可以是一一映射，还可以是多个映射到一个预置标签中，此处具体不做限定。

本实施例中，前述的版面元素可以是单个或多个，此处具体不做限定。

103、根据预置标签将原文档内容进行自定义处理。

当将版面元素映射到相对应的预置标签之后，需要根据预置标签将原文档内容进行自定义处理。

本实施例中，通过对提取的文档识别出多个版面元素，再将版面元素与预置标签进行映射，最后根据映射后的预置标签便可以将原文档的内容和排版以html形式进行自定义处理，解决了目前用户的排版方式通常为改变字号、字形、间距等来突出重点内容或文档结构，所导致的识别文字文档的结构错乱的技术问题。

上面是对识别文字文档的方法的过程进行详细的描述，下面将对附加步骤和展示方式进行详细的描述，请参阅图2，本发明实施例中提供的一种识别文字文档的方法的另一个实施例包括：

201、提取原文档的所有内容或部分内容；

本实施例中，当对不规范文档在提取内容展示或文档结构展示优化时，需要解决文字片段缺省相应属性标识使得文档结构错乱的问题时，首先需要提取原文档的所有内容或部分内容。

202、根据提取的原文档的所有内容或部分内容对应的属性以确定版面元素；

当提取原文档的所有内容或部分内容之后，需要根据提取的原文档的所有内容或部分内容对应的属性以确定版面元素，版面元素属于文字属性和版面排版属性，需要说明的是，前述的文档内容有空格和/或回车或表格和/或图片和/或超链接和/或艺术字，版面元素字号和/或字形和/或段落和/或文档标题和/或大纲级别和/或项目符号和/或编号和/或题注等，此处具体不做限定。

需要说明的是，可以是根据实际的目的和关注的重点提取整篇文档或部分文档的所需内容。

例如提取：空格、回车、字号、字形、段落、文档标题、大纲级别、项目符号和编号、表格、图片、超链接、题注、艺术字。

203、将版面元素映射到相对应的预置标签；

当根据提取的原文档内容识别出复数个版面元素之后，需要将版面元素映射到相对应的预置标签，可以是根据一些规则将提取到的元素映射到对应的标签，对应的标签可自定义，还可以是多个映射到一个预置标签中，此处具体不做限定。

元素映射到对应的标签可以如下表所示：

204、根据预置标签并结合预置展示规则将原文档内容进行展示和/或将预置标签对应的预置展示规则进行存储。

当将版面元素映射到相对应的预置标签之后，根据预置标签并结合预置展示规则将原文档内容进行展示和/或将预置标签对应的预置展示规则进行存储。

需要说明的是，得到内容和对应的标签后，我们可以将这些标签的做出相应的展示规则，以便更好的展现文档。例如：我们可以取出所有映射到正文标签的文字，将他们的行间距、左右缩进进行特殊设定，展示规则可以多样，此处具体不做限定。

上面是对附加步骤和展示方式进行详细的描述，下面将对根据预置标签并结合预置展示样式将原文档内容进行展示的过程进行详细的描述，请参阅图3，本发明实施例中提供的一种识别文字文档的方法的另一个实施例包括：

301、提取原文档的所有内容或部分内容；

302、根据提取的原文档的所有内容或部分内容对应的属性以确定版面元素；

303、将版面元素映射到相对应的预置标签；

元素映射到对应的标签可以如表1所示：

表1

304、判断版面排版属性是否缺少一个或多个版面元素，若是，则执行步骤305；

当将版面元素映射到相对应的预置标签之后，判断版面排版属性是否缺少一个或多个版面元素，若是，则执行步骤305。

需要说明的是，得到内容和对应的标签后，我们可以将这些标签的展示做出相应规则，以便更好的展现文档。例如：我们可以取出所有映射到正文标签的文字，将他们的行间距、左右缩进进行特殊设定，展示的规则可以多样，此处具体不做限定。

需要说明的是，同时由于文档制作的不规范性，多数文档我们都无法准确的识别出大纲级别、题注等样式。为了更加准确的识别用户的文档，我们还可以设计更完善的规则让文档内容映射到对应的标签上。

305、确定与缺少的版面元素相对应第一预置展示规则；

当判断版面排版属性是缺少一个或多个版面元素，则确定与缺少的版面元素相对应第一预置展示规则。

例如：在全文无标题样式和大纲级别的对应属性时，如表2所示规则判断标题和大纲级别(注：规则不仅仅包括所列出项，此规则可以多样，这里仅是一个样例，本实施例为一个优选例)。

表2

306、确定其余的第二预置展示规则；

无论判断版面排版属性是否缺少一个或多个版面元素的结果如何，需要确定之前已经预置的第二预置展示规则，例如可以取出所有映射到正文标签的文字，将他们的行间距、左右缩进进行特殊设定，展示的规则可以多样，此处具体不做限定。

307、根据预置标签并结合第一预置展示规则和第二预置展示规则将原文档内容进行展示。

当步骤305或306之后，需要根据预置标签并结合第一预置展示规则和第二预置展示规则将原文档内容进行展示。

本实施例中，通过对提取的文档识别出多个版面元素，再将版面元素与预置标签进行映射，最后根据映射后的预置标签便可以将原文档的内容和排版以html形式进行展示，解决了目前用户的排版方式通常为改变字号、字形、间距等来突出重点内容或文档结构，所导致的识别文字文档的结构错乱的技术问题。

以及，通过对文字文档的智能识别，解决由于文字片段缺省相应属性标识使得文档结构错乱的问题，从而在识别后不仅能保证与用户的表达意思一致，更能清晰的展示文档结构，或对文档的某些文字片段进行重点的显示效果优化。

请参阅图4，本发明实施例中提供的一种识别文字文档的装置的一个实施例包括：

确定单元401，用于根据提取的原文档内容识别出复数个版面元素；

映射单元402，用于将版面元素映射到相对应的预置标签；

自定义处理单元403，用于根据预置标签将原文档内容进行自定义处理。

本实施例中，通过确定单元401对提取的文档识别出多个版面元素，映射单元402再将版面元素与预置标签进行映射，最后自定义处理单元403根据映射后的预置标签便可以将原文档的内容和排版以html形式进行自定义处理，解决了目前用户的排版方式通常为改变字号、字形、间距等来突出重点内容或文档结构，所导致的识别文字文档的结构错乱的技术问题。

上面是对识别文字文档的装置的各单元进行详细的描述，下面将对附加单元进行详细的描述，请参阅图5，本发明实施例中提供的一种识别文字文档的装置的另一个实施例包括：

提取单元501，用于提取原文档的所有内容或部分内容。

确定单元502，用于根据提取的原文档内容识别出复数个版面元素，确定单元502，具体用于根据提取的原文档的所有内容或部分内容对应的属性以确定版面元素，版面元素属于文字属性和版面排版属性；

映射单元503，用于将版面元素一一映射到相对应的预置标签；

自定义处理单元504，用于根据预置标签将原文档内容进行自定义处理。

自定义处理单元504包括：展示子单元5041，具用于根据预置标签并结合预置展示规则将原文档内容进行展示；

存储子单元5042，用于将预置标签对应的预置展示规则进行存储

展示子单元5041具体包括：

判断模块5041a，用于判断版面排版属性是否缺少一个或多个版面元素，若是，则触发第一确定模块5041b；

第一确定模块5041b，用于确定与缺少的版面元素相对应第一预置展示规则；

第二确定模块5041c，用于确定其余的第二预置展示规则；

展示模块5041d，用于根据预置标签并结合第一预置展示规则和第二预置展示规则将原文档内容进行展示。

本实施例中，通过确定单元502对提取的文档识别出多个版面元素，映射单元503再将版面元素与预置标签进行映射，最后自定义处理单元504根据映射后的预置标签便可以将原文档的内容和排版以html形式进行自定义处理，解决了目前用户的排版方式通常为改变字号、字形、间距等来突出重点内容或文档结构，所导致的识别文字文档的结构错乱的技术问题。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种识别文字文档的方法，其特征在于，包括：

根据提取的原文档内容识别出版面元素；

将所述版面元素映射到相对应的预置标签；

根据所述预置标签将所述原文档内容进行自定义处理。

2.根据权利要求1所述的识别文字文档的方法，其特征在于，根据提取的原文档内容识别出版面元素之前还包括：

提取原文档的所有内容或部分内容。

3.根据权利要求2所述的识别文字文档的方法，其特征在于，根据提取的原文档内容识别出版面元素具体包括：

4.根据权利要求3所述的识别文字文档的方法，其特征在于，所述版面元素属于文字属性和版面排版属性。

5.根据权利要求4所述的识别文字文档的方法，其特征在于，根据所述预置标签将所述原文档内容进行自定义处理具体包括：

和/或

将所述预置标签对应的预置展示规则进行存储。

6.根据权利要求5所述的识别文字文档的方法，其特征在于，根据所述预置标签并结合预置展示规则将所述原文档内容进行展示具体包括：

确定其余的第二预置展示规则；

7.一种识别文字文档的装置，其特征在于，包括：

映射单元，用于将所述版面元素映射到相对应的预置标签；

8.根据权利要求7所述的识别文字文档的装置，其特征在于，所述识别文字文档的装置还包括：

提取单元，用于提取原文档的所有内容或部分内容。

9.根据权利要求6所述的识别文字文档的装置，其特征在于，所述确定单元，具体用于根据提取的原文档的所有内容或部分内容对应的属性以确定所述版面元素；

所述版面元素属于文字属性和版面排版属性。

10.根据权利要求9所述的识别文字文档的装置，其特征在于，自定义处理单元，包括：展示子单元，具用于根据所述预置标签并结合预置展示规则将所述原文档内容进行展示；

所述展示子单元具体包括：

第二确定模块，用于确定其余的第二预置展示规则；