CN112434568A

CN112434568A - 一种画作识别方法、装置、存储介质及计算设备

Info

Publication number: CN112434568A
Application number: CN202011232239.3A
Authority: CN
Inventors: 李翀; 薛晓舟; 陈邦忠
Original assignee: Beijing Perfect Knowledge Technology Co Ltd
Current assignee: Beijing Perfect Knowledge Technology Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-03-02

Abstract

本发明提供了一种画作识别方法、装置、存储介质及计算设备，该方法包括获取包含画作的不可编辑文本，采用预置版面识别模型识别不可编辑文本的版面结构，版面结构包含画作单元和其他类别版面单元；依据其他类别版面单元的内容分析画作单元对应的画作属性信息，从预置版面模板库中查找与画作属性信息相关的版面模板；对画作单元和其他类别版面单元所在位置进行标注，基于标注位置信息将画作单元和其他类别版面单元组合于版面模板并展示。本发明实施例可以根据画作的属性信息为包含画作的不可编辑文本匹配合适该画作特点的版面模板，使得识别后的版面结构既可以很好的还原原始不可编辑文本的布局结构，也能够符合不可编辑文本中画作的特点。

Description

一种画作识别方法、装置、存储介质及计算设备

技术领域

本发明涉及文本识别技术领域，特别是一种画作识别方法、装置、存储介质及计算设备。

背景技术

目前，结构化数据通常是以不可编辑文本为载体，特别是包含有图片内容的不可编辑文本，文本自身的复杂性、出版印刷需求的多样性以及格式编辑不规范，导致目前不可编辑文本无法再次编辑，通过常规方法无法提取其中的图片和文本信息，从而无法对不可编辑文本中数据进行有效管理。

传统的不可编辑文本识别需要人工参与，不仅实现过程复杂，而且很难适应复杂的版面结构，也不具有很好的泛化能力。此外，目前通过OCR(optical characterrecognition，光学字符识别)技术并结合人工操作来识别不可编辑文本，丢失了不可编辑文本中原有的物理结构信息。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的画作识别方法、装置、存储介质及计算设备，能够使得识别后的版面结构既可以很好的还原原始不可编辑文本的布局结构，也能够符合不可编辑文本中画作的特点。

根据本发明实施例的一方面，提供了一种画作识别方法，包括：

获取包含画作的不可编辑文本，采用预置版面识别模型识别所述不可编辑文本的版面结构，所述版面结构包含画作单元和其他类别版面单元；

依据其他类别版面单元的内容分析所述画作单元对应的画作属性信息，从预置版面模板库中查找与所述画作属性信息相关的版面模板；

对所述画作单元和其他类别版面单元所在位置进行标注，基于标注位置信息将所述画作单元和其他类别版面单元组合于所述版面模板并展示。

可选地，所述其他类别版面单元包括：文本段落单元、标题单元、表格单元中至少一项；和/或

所述画作属性信息包括：画作的流派信息、题材信息、材质信息、时间信息中至少一项。

可选地，所述预置版面模板库中保存与不同画作属性信息对应的单元边框模板，从预置版面模板库中查找与所述画作属性信息相关的版面模板，包括：

从所述预置版面模板库中查找与所述画作属性信息对应的单元边框模板；

从查找到的单元边框模板中获取画作边框模板和所述其他类别版面单元对应的单元边框模板；

其中，所述单元边框模板类别包括画作边框模板、文本段落边框模板、标题边框模板、表格边框模板中至少一项。

可选地，基于标注位置信息将所述画作单元和其他类别版面单元组合于所述版面模板并展示，包括：

基于所述标注位置信息分别调整所述画作边框模板和其他类别版面单元对应的单元边框模板的大小；

将调整大小后的各单元边框模板分别对应设置于所述画作单元和其他类别版面单元所在位置并展示。

可选地，所述预置版面模板库中保存与不同画作属性信息对应的具有不同版面结构的版面边框模板，从预置版面模板库中查找与所述画作属性信息相关的版面模板，包括：

从所述预置版面模板库中查找与所述画作属性信息对应的版面边框模板；

从查找到的所述版面边框模板中获取具有与所述不可编辑文本的版面结构相同版面结构的版面边框模板。

基于画作单元和其他类别版面单元的标注位置信息调整所述版面边框模板的大小；

将调整大小后的所述版面边框模板对应设置于所述画作单元和其他类别版面单元所在位置。

可选地，采用预置版面识别模型识别所述不可编辑文本的版面结构，包括：

基于语义分割网络对包含画作的不可编辑文本进行语义分割，得到画作单元和其他类别版面单元；

基于大津算法识别各类版面单元的边框，依据各类版面单元的边框分析出所述不可编辑文本的版面结构。

可选地，基于语义分割网络对包含画作的不可编辑文本进行语义分割之前，还包括：

将所述语义分割网络的激活函数替换为非饱和激活函数；

为所述语义分割网络设置预设大小的卷积模版、预设步长数值和预设卷积模版数量；

获取包含版面单元和文本行的位置标注信息的样本数据，基于所述语义分割网络对所述样本数据进行语义分割；

将所述样本数据的语义分割结果和所述样本数据输入至判别器网络，利用所述判别器网络基于生成式对抗网络结构判别所述样本数据的语义分割结果与所述样本数据的差异；

依据判别差异结果对所述语义分割网络进行训练。

可选地，依据其他类别版面单元的内容分析所述画作单元对应的画作属性信息，包括：

采用预置版面识别模型识别所述其他类别版面单元包含的文本行位置，对文本行所在位置进行标注；

通过文本识别模型识别出被标注的各文本行中的文本内容，依据所述文本内容分析所述画作单元对应的画作属性信息。

可选地，采用预置版面识别模型识别所述其他类别版面单元包含的文本行位置，包括：

根据所述版面结构采用图像裁剪方式裁剪出其他类别版面单元；

基于大津算法识别其他类别版面单元中每个版面单元包含的各字符的字符边框；

将属于同一文本行的字符的边框合并，得到各文本行的文本框；

依据所述文本框分析出所述其他类别版面单元包含的文本行位置。

可选地，对所述画作单元和其他类别版面单元所在位置进行标注，包括：

采用预设标注工具标注所述画作单元和其他类别版面单元所在位置进行标注；

其中，不同版面单元采用不同标注方式进行区别标注。

可选地，所述文本识别模型基于卷积神经网络和循环神经网络构建，通过文本识别模型识别出被标注的各文本行中的文本内容之前，还包括：

获取标注有文本信息的图像数据作为训练数据；

将所述训练数据统一预处理为指定大小的灰度图，为卷积神经网络的最后一个卷积层设置预设输出卷积数量，为所述循环神经网络设置预设隐藏层大小；

利用移除全连接层的卷积神经网络提取所述训练数据的图像特征；

基于所述图像特征采用循环神经网络识别所述训练数据的文本信息；

基于损失函数对循环神经网络识别结果进行损失计算，依据损失计算结果训练文本识别模型。

根据本发明实施例的另一方面，还提供了一种画作识别装置，包括：

识别模块，适于获取包含画作的不可编辑文本，采用预置版面识别模型识别所述不可编辑文本的版面结构，所述版面结构包含画作单元和其他类别版面单元；

分析模块，适于依据其他类别版面单元的内容分析所述画作单元对应的画作属性信息，从预置版面模板库中查找与所述画作属性信息相关的版面模板；

展示模块，适于对所述画作单元和其他类别版面单元所在位置进行标注，基于标注位置信息将所述画作单元和其他类别版面单元组合于所述版面模板并展示。

根据本发明实施例的再一方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行上文任意实施例的画作识别方法。

根据本发明实施例的又一方面，还提供了一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行上文任意实施例的画作识别方法。

本发明实施例采用预置版面识别模型识别包含画作的不可编辑文本的版面结构后，依据版面结构中其他类别版面单元分析画作单元对应的画作属性信息，并从预置版面模板库中查找与画作属性信息相关的版面模板。进而在对画作单元和其他类别版面单元所在位置进行标注后，基于标注位置信息将画作单元和其他类别版面单元组合于版面模板并展示。由此，本发明实施例对于具有复杂版面结构的不可编辑文本，无需人工参与便可以识别包含画作的不可编辑文本的版面结构，不仅具有很好的泛化能力，提高了版面结构的识别效率，而且通过版面结构中其他类别版面单元的内容信息分析文本中画作的属性信息，可以根据属性信息为包含画作的不可编辑文本匹配合适该画作特点的版面模板，使得识别后的版面结构既可以很好的还原原始不可编辑文本的布局结构，也能够符合不可编辑文本中画作的特点。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明一实施例的画作识别方法的流程示意图；

图2示出了根据本发明一实施例的包含画作的不可编辑文本的示意图；

图3示出了根据本发明一实施例的识别图2所示文本的版面结构的示意图；

图4示出了根据本发明一实施例的识别图3所示版面结构中画作单元和文本段落单元组合于版面模板的示意图；

图5示出了根据本发明一实施例的版面识别模型的整体网络结构示意图；

图6示出了根据本发明一实施例的画作识别装置的结构示意图；

图7示出了根据本发明另一实施例的画作识别装置的结构示意图；

图8示出了根据本发明另一实施例的画作识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种画作识别方法，图1示出了根据本发明一实施例的画作识别方法的流程示意图。参见图1，画作识别方法包括步骤S102至步骤S106。

步骤S102，获取包含画作的不可编辑文本，采用预置版面识别模型识别不可编辑文本的版面结构，版面结构包含画作单元和其他类别版面单元。

本发明实施例的版面结构指的是包含画作的不可编辑文本的布局结构，即版面识别模型可以识别包含画作的不可编辑文本的布局结构。其中，版面结构的版面单元包含画作单元和其他类别版面单元，其他类别版面单元可以包括文本段落单元、标题单元、表格单元中至少一项，当然，版面单元还可以是其他类别，本发明实施例对此不作具体限定。例如，包含画作的不可编辑文本中可以包含一个画作单元，一个标题单元、三个文本段落单元。

步骤S104，依据其他类别版面单元的内容分析画作单元对应的画作属性信息，从预置版面模板库中查找与画作属性信息相关的版面模板。

本发明实施例的画作属性信息可以包括画作的流派信息、题材信息、材质信息、时间信息(如画作的年代等)中至少一项。根据其他类别版面单元中的内容可以分析出画作单元对应的画作属性信息。例如，其他类别版面单元包含标题单元和文本段落单元，则可以根据标题单元和文本段落单元分析出不可编辑文本中画作的属性信息。进而，根据画作属性信息从预置版面模板库中查找相关的版面模板，预置版面模板库中不同的版面模板基于不同画作属性信息进行预先创建。

步骤S106，对画作单元和其他类别版面单元所在位置进行标注，基于标注位置信息将画作单元和其他类别版面单元组合于版面模板并展示。

本发明实施例对于具有复杂版面结构的不可编辑文本，无需人工参与便可以识别包含画作的不可编辑文本的版面结构，不仅具有很好的泛化能力，提高了版面结构的识别效率，而且通过版面结构中其他类别版面单元的内容信息分析文本中画作的属性信息，可以根据属性信息为包含画作的不可编辑文本匹配合适该画作特点的版面模板，使得识别后的版面结构既可以很好的还原原始不可编辑文本的布局结构，也能够符合不可编辑文本中画作的特点。

本发明实施例所应用到的识别模型均是通过深度学习后的模型，深度学习模型时可采用Tensorflow(基于数据流编程的符号数学系统)框架，后文会对识别模型的训练过程进行具体介绍。

在本发明一实施例中，预置版面模板库中预先保存有与不同画作属性信息对应的单元边框模板，单元边框模板的类别可以包括画作边框模板、文本段落边框模板、标题边框模板、表格边框模板等等。对于不同类别的单元边框模板可以具有不同风格特点，例如，为了突显画作内容，设置画作边框模板风格较为简约。又例如，为了综合文本段落可能存在阅读枯燥的问题，设置文本段落边框模板风格相对复杂鲜明等等。

在执行上文步骤S104，从预置版面模板库中查找与画作属性信息相关的版面模板时，可以先从预置版面模板库中查找与画作属性信息对应的单元边框模板，然后从查找到的单元边框模板中获取画作边框模板和其他类别版面单元对应的单元边框模板。

例如，图2所示的包含画作的不可编辑文本通过版面识别模型识别得到的版面结构如图3所示，版面结构中包含画作单元12和文本段落单元13。通过分析文本段落单元的内容得到画作单元对应的画作属性信息为“60年代”，因此从预置版面模板库中查找“60年代”相关的单元边框模板。“60年代”相关的单元边框模板中包含有60年代特色的元素，如五星红旗、五角星、红色彩带等元素。然后从查找到的“60年代”相关的单元边框模板中选取画作边框模板和文本段落边框模板。进而，如图4所示，可以将画作边框模板与画作单元组合，文本段落边框模板与文本段落边单元组合。

本发明通过对画作内容和画作文本的识别，定位画作内容的年代信息，本发明所述画作边框模板对应具有年代的时间轴，并在年代时间轴上还具有不同年代下的画作风格分支。本发明通过对画作内容的年代识别，以及画作边框模板库的时间轴匹配，得到与画作年代最符合的画作边框模板。

该实施例中，选取的画作边框模板和文本段落边框模板可以分别为一个也可以是多个，若选取的任一类单元边框模板包含多个，还可供用户进行最终的自主选择。

本发明实施例在执行步骤S106时，还可以基于标注位置信息先分别调整画作边框模板和其他类别版面单元对应的单元边框模板的大小，然后再将调整大小后的各单元边框模板分别对应设置于画作单元和其他类别版面单元所在位置并展示。通过调整单元边框模板的大小(如比例大小、尺寸大小等)，可以使得单元边框模板更加适合相应版面单元的大小。

在本发明一实施例中，预置版面模板库中预先保存有与不同画作属性信息对应的具有不同版面结构的版面边框模板，在执行上文步骤S104，从预置版面模板库中查找与画作属性信息相关的版面模板时，可以先从预置版面模板库中查找与画作属性信息对应的版面边框模板，然后从查找到的版面边框模板中获取具有与不可编辑文本的版面结构相同版面结构的版面边框模板。

例如，分析得到画作单元对应的画作属性信息为“漫画题材”，则可以从预置版面模板库中查找“漫画题材”相关的版面边框模板，“漫画题材”相关的版面边框模板中可以包含漫画简约人物、漫画简约动物等元素。并且，查找到的“漫画题材”相关的版面边框模板可以包含左右排布的模板、上下排布的模板等不同布局的模板。若识别得到不可编辑文本的版面结构中画作单元和文本段落单元为上下排布结构，则可以从查找到的“漫画题材”相关的版面边框模板中选取上下排布结构的版面边框模板。

进而，本发明实施例在执行步骤S106时，可以基于画作单元和其他类别版面单元的标注位置信息调整版面边框模板的大小，并将调整大小后的版面边框模板对应设置于画作单元和其他类别版面单元所在位置。通过调整版面边框模板的大小(如比例大小、尺寸大小等)，可以使得单元边框模板更加适合相应版面单元的大小。

当然，分析出的画作单元对应的画作属性信息可能同时包含多种属性信息，无论是为版面结构匹配单元边框模板，还是匹配版面边框模板，都可以将多种属性信息的边框模板中的元素适应性组合。

以匹配单元边框模板为例，假设分析出的画作属性信息同时包含“田园题材”和“水彩材质”两种属性信息。在选取与“田园题材”属性信息和“水彩材质”属性信息分别相关的标题边框模板后，还可以将“田园题材”和“水彩材质”两种属性信息的单元边框模板中的元素适应性组合。如选取的“田园题材”相关的标题边框模板包含“花朵”元素，选取的“水彩材质”相关的标题边框模板包含“水彩材质的绿草”元素，则可以将“花朵”元素和“水彩材质的绿草”元素进行组合得到组合后的标题边框模板，并将组合后的标题边框模板应用于标题单元。

在本发明一实施例中，版面识别模型基于语义分割网络Unet实现，并采用损失函数SoftMax作为模型的输出。在执行上文步骤S102的过程中，首先基于语义分割网络Unet对包含画作的不可编辑文本进行语义分割，得到画作单元和其他类别版面单元。然后基于大津算法(即大津二值化法)识别各类版面单元的边框，依据各类版面单元的边框分析出不可编辑文本的版面结构。在本发明实施例中，基于大津算法识别各类版面单元的版面边框之后，还还可以对版面边框进行微调，以使得微调后的版面边框更加标准。

本发明实施例的版面识别模型基于语义分割网络实现，因此在对版面识别模型进行训练的过程中可以对语义分割网络Unet进行训练。对语义分割网络Unet进行训练时，先获取预先收集的包含版面单元和文本行的位置标注信息的样本数据。然后，基于语义分割网络Unet对获取到的样本数据进行语义分割。进而，将样本数据的语义分割结果和样本数据输入至判别器网络，以利用判别器网络基于生成式对抗网络GAN(GenerativeAdversarial Networks)结构判别样本数据的语义分割结果与样本数据的差异。最后，依据判别差异结果对语义分割网络Unet进行训练。

本发明实施例借鉴生成式对抗网络GAN的思想设计判别器网络D-net，并且将判别器网络D-net与语义分割网络Unet网络连接。该实施例中的生成式对抗网络GAN具体可以采用DC GAN(Deep Convolutional Generative Adversarial Networks，深度卷积对抗生成网络)，本发明实施例对生成式对抗网络的具体类型不进行限定。

以图5为例，对语义分割网络Unet的训练过程进行介绍。

首先，收集包含版面单元和文本行的位置标注信息的真实数据(即样本数据)。然后，将真实数据输入至语义分割网络Unet，利用语义分割网络Unet对真实数据进行语义分割处理后输出分类结果数据(即语义分割结果)至判别器网络D-net，并且将真实数据一同输入至判别器网络D-net中，以利用判别器网络D-net基于生成式对抗网络结构判别分类结果数据与样本数据之间的差异。最后，利用判别器网络D-net根据判别差异结果反向回馈指导语义分割网络Unet训练。

本发明实施例通过采用携带版面单元和文本行的位置标注信息的样本数据训练版面识别模型，可以同时训练版面识别模型的版面结构识别任务和文本行定位任务，实现了多个识别任务共享训练特征，从而提升了模型的训练效率。而且，本发明实施例根据判别器网络D-net的判别结果在真实数据的分类结果上对语义分割网络Une进行微调，还能够减少因数据缺失对模型带来的负面影响。此外，本发明实施例的生成式对抗网络可替代传统的分类损失函数，并训练得到结构化的损失函数loss，使得训练后的版面识别模型识别结果更平滑，缓解版面识别模型过拟合现象，减少异常数据对模型的影响。

在本发明一实施例中，在训练语义分割网络Unet之前，还可以先对语义分割网络Unet进行激活函数和参数的设置。

本发明实施例可以将语义分割网络Unet的激活函数替换为非饱和激活函数LeakyReLU。替换后的非饱和激活函数LeakyReLU能够加快版面识别模型的收敛速度。而且，本发明实施例为语义分割网络Unet设置预设大小的卷积模版、预设步长数值和预设卷积模版数量。例如。设置语义分割网络Unet的卷积模版的大小为4*4，步长数值为2，并将原始语义分割网络Unet中的1024卷积层替换为512卷积层，即设置卷积模版数量为512个卷积模版。

本发明实施例在对语义分割网络Unet进行训练时可以采用Adam优化器训练语义分割网络Unet，而且，对于判别器网络D-net也可以先进行训练，例如采用SGD优化器对判别器网络D-net进行训练。此外，对于需要进行训练的语义分割网络Unet和判别器网络D-net，本发明实施例还可以将语义分割网络Unet和判别器网络D-net的学习率都设置为0.0001。

在对版面识别模型训练过程中，为及时了解训练后的版面识别模型是否合格且是否能够准确的进行版面识别，本发明实施例还可以对版面识别模型进行不同指标的评估。例如，对版面识别模型可以采用准确率评估、召回率评估和评估模型(如F1评估模型)等评估方式，通过评估版面识别模型的准确率、召回率等指标来评估版面识别模型的识别效果，进而可以选择性的根据评估结果来对版面识别模型进行适应性调整，当然若评估结果中各项指标均正常，则可以无需对版面识别模型进行调整。

在本发明一实施例中，在依据其他类别版面单元的内容分析画作单元对应的画作属性信息时，可以采用预置版面识别模型识别其他类别版面单元包含的文本行位置，并对文本行所在位置进行标注。进而通过文本识别模型识别出被标注的各文本行中的文本内容，依据文本内容分析画作单元对应的画作属性信息。本发明实施例的其他类别版面单元包含的文本内容可以是中文内容，也可以是其他语言文本，如英文等语言，本发明实施例对此不作限定。

可选地，采用预置版面识别模型识别其他类别版面单元包含的文本行位置时，先根据版面结构采用图像裁剪方式裁剪出其他类别版面单元，然后基于大津算法识别其他类别版面单元中每个版面单元包含的各字符的字符边框，进而将属于同一文本行的字符的边框合并，得到各文本行的文本框，最后依据文本框分析出其他类别版面单元包含的文本行位置。该实施例在基于大津算法识别各字符的字符边框时，可以先根据识别出的文本的版面结构采用图像裁剪方式裁剪出版面单元。然后基于大津算法识别每个版面单元中各字符的字符边框。

由此，本发明实施例的版面识别模型可以完成两个识别任务，一个识别任务是识别不可编辑文本的版面结构，另一个识别任务是识别版面结构中的文本行位置。对于具有复杂版面结构的文本，无需人工参与便可以识别文本版面结构和文本内容，提高了文本识别效率，而且识别后的文本版面结构还能很好的还原原始不可编辑文本的布局结构。进一步的，采用本发明实施例识别出的文本可以方便后续的二次编辑，如后续利用识别后的文本制作电子书，挖掘图书内容知识等。

在本发明一实施例中，在对版面结构包含的至少一类版面单元和版面单元中的文本行所在位置进行标注的过程中，可以采用采用预设标注工具标注至少一类版面单元和版面单元中的文本行所在位置。例如，可以采用标注工具Performance Evaluation(可运行PE工具)对版面单元和文本行所在位置进行标注，以得到文本行和版面单元的位置数据。当然，还可以采用其他标注工具完成版面单元和文本行位置的标注工作，本发明实施例对此不作具体限定。

本发明实施例对版面单元和版面单元中的文本行所在位置进行标注，可以是采用不同颜色覆盖标注不同类别版面单元、覆盖标注文本行的方式进行标注，根据不同的颜色可以了解到哪个位置属于哪类版面单元，哪些位置包含有文本行，从而可以方便对不同版面单元和文本行进行区别。另外，本发明实施例还可以采用文字标注方式对不同版面单元的内容进行区别标注，从而根据不同的文字内容可以清楚地了解到各版面单元和文本行的位置。

在本发明一实施例中，通过文本识别模型识别出被标注的各文本行中的文本内容时，先依据被标注的不同文本行将不可编辑文本采用图像裁剪方式裁剪为多个字符图片，每个字符图片中均包含了多个字符。然后将多个字符图片依次输入文本识别模型，并利用文本识别模型识别各文本行中的文本内容。本发明实施例的文本识别模型可以基于卷积神经网络VGG(Visual Geometry Group)和循环神经网络LSTM构建，并在利用文本识别模型识别被标注的各文本行中的文本内容之前，移除文本识别模型的卷积神经网络VGG的全连接层。

本发明实施例对文本识别模型训练的过程中，首先获取标注有文本信息的图像数据作为训练数据，并利用移除全连接层的卷积神经网络VGG提取训练数据的图像特征。然后基于图像特征采用循环神经网络识别训练数据的文本信息。进而基于损失函数CTC(Connectionist Temporal Classification)对循环神经网络识别结果进行损失计算，并依据损失计算结果训练文本识别模型。

本发明实施例的循环神经网络可以采用双向LSTM(Long Short Term Memory，长短期记忆网络)网络，并通过函数SoftMax输出文本信息。本发明实施例采用损失函数CTC并结合双向LSTM来识别文本内容，训练数据无需对齐，可以有效解决传统LSTM识别文本内容时需样本数据对齐的问题，并且有利于文本识别模型学习文本上下文特征(即文本序列特征)。

为了方便地提取训练数据的图像特征，本发明实施例在利用移除全连接层的卷积神经网络提取训练数据的图像特征之前，还可以先对训练数据进行统一的预处理。这里的预处理包含对作为训练数据的图像进行灰度化处理和大小设置，如将训练数据统一预处理为32*32大小的灰度图，当然也可以处理为其他尺寸的灰度图，此处不作具体限定。并且，本发明实施例还会构建文本字典，如汉字、英文等字典，字典大小可以根据双向LSTM网络通过函数SoftMax输出文本类别数量确定。在对训练数据进行预处理后，将预处理后的训练数据对应的文本根据字典转码成二值向量序列作为标签，从而利用训练数据和对应标签数据对文本识别模型训练。

此外，本发明实施例还会为卷积神经网络的最后一个卷积层设置预设输出卷积数量，并为循环神经网络设置预设隐藏层大小。如将最后一个卷积层输出卷积数量设置为1024，将LSTM网络隐藏层大小设置为256，且设置最后一个卷积层与循环神经网络相连接。

在对文本识别模型训练过程中，为及时了解训练的文本识别模型是否合格且是否能够准确的进行文本识别，本发明实施例还可以对文本识别模型进行不同指标的评估。例如，可以采用准确率评估、召回率评估和评估模型(如F1评估模型)等评估方式，通过评估文本识别模型的准确率、召回率等指标来评估文本识别模型的识别效果。进而可以选择性的根据评估结果来对文本识别模型进行适应性调整，当然若评估结果中各项指标均正常，则可以无需对文本识别模型调整。

本发明实施例在识别得到各文本行中的文本内容之后，可以根据版面单元和文本行的标注位置在不可编辑文本的相应位置展示识别后的文本内容，从而使得识别后的文本同样保留了原有的文本结构信息，有效地还原了原始文本的布局结构。

基于同一发明构思，本发明实施例还提供了一种画作识别装置，图6示出了根据本发明一实施例的画作识别装置的结构示意图。参见图6，画作识别装置包括识别模块610、分析模块620和展示模块630。

识别模块610，适于获取包含画作的不可编辑文本，采用预置版面识别模型识别不可编辑文本的版面结构，版面结构包含画作单元和其他类别版面单元。

分析模块620，适于依据其他类别版面单元的内容分析画作单元对应的画作属性信息，从预置版面模板库中查找与画作属性信息相关的版面模板。

展示模块630，适于对画作单元和其他类别版面单元所在位置进行标注，基于标注位置信息将画作单元和其他类别版面单元组合于版面模板并展示。

在本发明一实施例中，其他类别版面单元包括：文本段落单元、标题单元、表格单元中至少一项；和/或画作属性信息包括：画作的流派信息、题材信息、材质信息、时间信息中至少一项。

在本发明一实施例中，预置版面模板库中保存与不同画作属性信息对应的单元边框模板，分析模块620还适于，从预置版面模板库中查找与画作属性信息对应的单元边框模板；从查找到的单元边框模板中获取画作边框模板和其他类别版面单元对应的单元边框模板；其中，单元边框模板类别包括画作边框模板、文本段落边框模板、标题边框模板、表格边框模板中至少一项。

在本发明一实施例中，展示模块630还适于，基于标注位置信息分别调整画作边框模板和其他类别版面单元对应的单元边框模板的大小；将调整大小后的各单元边框模板分别对应设置于画作单元和其他类别版面单元所在位置并展示。

在本发明一实施例中，预置版面模板库中保存与不同画作属性信息对应的具有不同版面结构的版面边框模板，分析模块620还适于，从预置版面模板库中查找与画作属性信息对应的版面边框模板；从查找到的版面边框模板中获取具有与不可编辑文本的版面结构相同版面结构的版面边框模板。

在本发明一实施例中，展示模块630还适于，基于画作单元和其他类别版面单元的标注位置信息调整版面边框模板的大小；将调整大小后的版面边框模板对应设置于画作单元和其他类别版面单元所在位置。

在本发明一实施例中，识别模块610还适于，基于语义分割网络对包含画作的不可编辑文本进行语义分割，得到画作单元和其他类别版面单元；基于大津算法识别各类版面单元的边框，依据各类版面单元的边框分析出不可编辑文本的版面结构。

参见图7，本发明实施例的画作识别装置除了包含图6中所示各模块，还包括第一训练模块640。

第一训练模块640，适于将语义分割网络的激活函数替换为非饱和激活函数；为语义分割网络设置预设大小的卷积模版、预设步长数值和预设卷积模版数量；获取包含版面单元和文本行的位置标注信息的样本数据，基于语义分割网络对样本数据进行语义分割；将样本数据的语义分割结果和样本数据输入至判别器网络，利用判别器网络基于生成式对抗网络结构判别样本数据的语义分割结果与样本数据的差异；依据判别差异结果对语义分割网络进行训练。

在本发明一实施例中，分析模块620还适于，采用预置版面识别模型识别其他类别版面单元包含的文本行位置，对文本行所在位置进行标注；通过文本识别模型识别出被标注的各文本行中的文本内容，依据文本内容分析画作单元对应的画作属性信息。

在本发明一实施例中，分析模块620还适于，根据版面结构采用图像裁剪方式裁剪出其他类别版面单元；基于大津算法识别其他类别版面单元中每个版面单元包含的各字符的字符边框；将属于同一文本行的字符的边框合并，得到各文本行的文本框；依据文本框分析出其他类别版面单元包含的文本行位置。

在本发明一实施例中，分析模块620还适于，采用预设标注工具标注画作单元和其他类别版面单元所在位置进行标注；其中，不同版面单元采用不同标注方式进行区别标注。

参见图8，本发明实施例的画作识别装置除了包含图6中所示各模块，还包括第二训练模块650，该实施例中文本识别模型基于卷积神经网络和循环神经网络构建。

第二训练模块650，适于获取标注有文本信息的图像数据作为训练数据；将训练数据统一预处理为指定大小的灰度图，为卷积神经网络的最后一个卷积层设置预设输出卷积数量，为循环神经网络设置预设隐藏层大小；利用移除全连接层的卷积神经网络提取训练数据的图像特征；基于图像特征采用循环神经网络识别训练数据的文本信息；基于损失函数对循环神经网络识别结果进行损失计算，依据损失计算结果训练文本识别模型。

基于同一发明构思，本发明实施例还提供了一种计算机存储介质，计算机存储介质存储有计算机程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上文任意实施例的画作识别方法。

基于同一发明构思，本发明实施例还提供了一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当计算机程序代码被处理器运行时，导致计算设备执行上文任意实施例的画作识别方法。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种画作识别方法，包括：

2.根据权利要求1所述的方法，其特征在于，

所述其他类别版面单元包括：文本段落单元、标题单元、表格单元中至少一项；和/或

3.根据权利要求1或2所述的方法，其特征在于，所述预置版面模板库中保存与不同画作属性信息对应的单元边框模板，从预置版面模板库中查找与所述画作属性信息相关的版面模板，包括：

4.根据权利要求3所述的方法，其特征在于，基于标注位置信息将所述画作单元和其他类别版面单元组合于所述版面模板并展示，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述预置版面模板库中保存与不同画作属性信息对应的具有不同版面结构的版面边框模板，从预置版面模板库中查找与所述画作属性信息相关的版面模板，包括：

6.根据权利要求5所述的方法，其特征在于，基于标注位置信息将所述画作单元和其他类别版面单元组合于所述版面模板并展示，包括：

7.根据权利要求1或2所述的方法，其特征在于，采用预置版面识别模型识别所述不可编辑文本的版面结构，包括：

8.根据权利要求7所述的方法，其特征在于，基于语义分割网络对包含画作的不可编辑文本进行语义分割之前，还包括：

将所述语义分割网络的激活函数替换为非饱和激活函数；

依据判别差异结果对所述语义分割网络进行训练。

9.根据权利要求1或2所述的方法，其特征在于，依据其他类别版面单元的内容分析所述画作单元对应的画作属性信息，包括：

10.根据权利要求9所述的方法，其特征在于，采用预置版面识别模型识别所述其他类别版面单元包含的文本行位置，包括：

11.根据权利要求1或2所述的方法，其特征在于，对所述画作单元和其他类别版面单元所在位置进行标注，包括：

其中，不同版面单元采用不同标注方式进行区别标注。

12.根据权利要求9所述的方法，其特征在于，所述文本识别模型基于卷积神经网络和循环神经网络构建，通过文本识别模型识别出被标注的各文本行中的文本内容之前，还包括：

获取标注有文本信息的图像数据作为训练数据；

13.一种画作识别装置，包括：

14.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行权利要求1-12中任一项所述的画作识别方法。

15.一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行权利要求1-12中任一项所述的画作识别方法。