CN112232320B

CN112232320B - 印刷品文字的校对方法及相关设备

Info

Publication number: CN112232320B
Application number: CN202011464953.5A
Authority: CN
Inventors: 陈越; 郑志凯; 柳少华; 朱海亮; 李默; 王林芳; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-05-25
Anticipated expiration: 2040-12-14
Also published as: CN112232320A

Abstract

本公开的实施方式提供了印刷品文字的校对方法及装置、计算机可读存储介质和电子设备，属于计算机和通信技术领域。所述方法包括：获取印刷品的标准文本，其中，所述标准文本按照说明内容划分为不同部分；对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容；获取所述印刷品的设计稿，其中，所述印刷品的设计稿为图片；对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域；从所述设计稿的各个文本区域提取识别文字；将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。本公开实施方式的技术方案提供了一种印刷品文字的校对方法，能够对印刷品文字进行校对。

Description

印刷品文字的校对方法及相关设备

技术领域

本公开涉及计算机和通信技术领域，具体而言，涉及印刷品文字的校对方法及装置、计算机可读存储介质和电子设备。

背景技术

印刷品的文本比对指的是校对印刷品上的文字信息和事先提供的标准文本是否一致，该场景广泛存在于印刷品的设计稿的校对验收场景中。例如：生产商A需要设计方B帮助其设计一款饮料的外包装，并提供给B了外包装上需要印刷的文本，包括产品名、厂名厂址、生产日期等；设计方B完成设计之后，将设计稿提供给生产商A，生产商A除了评判图形设计是否满足需要，还需要校对设计稿上的文本是否和最初提供的文本一致，生产商A为了防止最终的印刷成品上出现错误，往往需要对同一个印刷品的设计稿进行反复的校对。此外，如果校对出问题还需要将设计稿返回由设计人员重新调整，增加了整体的生产周期。

设计稿文本排版具有不确定性，不呈现标准的行分布。另外设计稿中的文本大多以图片的形式存在，并不能直接被计算机提取。实际场景下，印刷品的文本校对往往由人工完成。在整个生产流程上，需要人工校对的阶段大多包括：设计方完成设计之后交给生产企业之前的自查；生产企业的设计部门收到设计方返回的设计稿后的检查；生产企业的生产部门收到决定印刷的设计稿后在生产前的复查。此外，对于一些国家监管严格的生产企业，文本的校对任务往往会被分配到不同的部门，分别校对不同的文本内容。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供印刷品文字的校对方法及装置、计算机可读存储介质和电子设备，能够印刷品文字进行校对。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种印刷品文字的校对方法，包括：

获取印刷品的标准文本，其中，所述标准文本按照说明内容划分为不同部分；

对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容；

获取所述印刷品的设计稿，其中，所述印刷品的设计稿为图片；

对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域；

从所述设计稿的各个文本区域提取识别文字；

将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。

在一个实施例中，对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容包括：

使所述标准文本的不同部分在所述标准文本的文本内容中以行或段进行显示。

在一个实施例中，对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域包括：

通过基于深度残差网络50的快速区域卷积网络模型及引入特征金字塔网络框架构建的检测模型来对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域。

在用户对所述设计稿的文本区域进行调整时，获取所述用户调整后的所述设计稿的各个文本区域。

在一个实施例中，从所述设计稿的各个文本区域提取识别文字包括：

通过对深度残差网络18模型使用图网进行预训练获得的识别网络模型识别所述设计稿的各个文本区域中文字的方向；

根据所述设计稿的各个文本区域中文字的方向将所述设计稿的各个文本区域中文字调整为自左向右的正常阅读的方向。

将所述设计稿的各个文本区域中文字调整为自左向右的正常阅读的方向后，通过基于深度残差网络101的快速区域卷积网络模型及引入特征金字塔网络框架构建的检测模型获取所述设计稿的各个文本区域中文字的字符区域。

在获取所述设计稿的各个文本区域中文字的字符区域后，根据字符在纵向的重合程度确定所述设计稿的文本区域中的文字行。

在根据字符在纵向的重合程度确定所述设计稿的各个文本区域中的文字行过程中，若存在与多个参照字符的重叠程度大于特定值的字符，则提醒用户重新框选与该字符相关的文本区域。

在一个实施例中，将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对包括：

以文字行为单位将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。

响应于用户输入的印刷品的标准文本，对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容，并显示所述标准文本的不同部分的文本内容，其中，所述标准文本按照说明内容划分为不同部分；

响应于所述用户输入的所述印刷品的设计稿，对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域，并显示所述设计稿的各个文本区域，其中，所述印刷品的设计稿为图片；

从所述设计稿的各个文本区域提取识别文字；

将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对，并显示校对的结果。

根据本公开的一个方面，提供一种印刷品文字的校对装置，包括：

获取模块，配置为获取印刷品的标准文本，获取所述印刷品的设计稿，其中，所述标准文本按照说明内容划分为不同部分，所述印刷品的设计稿为图片；

标准文本解析模块，配置为对所述标准文本进行解析以获得所述标准文本的文本内容；

检测模块，配置为对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域；

设计稿识别模块，配置为从所述设计稿的各个文本区域提取识别文字；以及

校对模块，配置为将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。

根据本公开的一个方面，提供一种电子设备，包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上实施例中任一项所述的方法。

根据本公开的一个方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权上实施例中中任一项所述的方法。

在本公开的一些实施方式所提供的技术方案中，通过流程设计，优化了传统生产企业中文本校对的繁琐程序，大大降低了文本校对的时间成本和人力开销。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

以下附图描述了本发明的某些说明性实施方式，其中相同的附图标记表示相同的元件。这些描述的实施方式将是本公开的示例性实施方式，而不是以任何方式进行限制。

图1示出了可以应用本公开实施方式的印刷品文字的校对方法或印刷品文字的校对装置的示例性系统架构的示意图。

图2示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图；

图3示意性示出了本公开的一个实施方式的印刷品文字的校对系统（装置）框架图；

图4示意性示出了本公开的一个实施方式的印刷品设计稿校对流程图；

图5示意性示出了本公开的一个实施方式的印刷品设计稿校对结果查看流程图；

图6示意性示出了本公开的一个实施方式的印刷品设计稿校对业务流程图；

图7示意性示出了本公开的一个实施方式的印刷品设计稿校对系统任务管理界面；

图8示意性示出了本公开的一个实施方式的印刷品设计稿校对系统标准文本导入界面；

图9示意性示出了本公开的一个实施方式的印刷品设计稿校对系统设计稿导入及框选（标注）页面；

图10示意性示出了本公开的一个实施方式的印刷品设计稿校对系统校对结果展示页面；

图11示意性示出了根据本公开的一实施方式的印刷品文字的校对方法的流程图；

图12示意性示出了本公开的一个实施方式的印刷品设计稿校对系统的行混淆的示例；

图13示意性示出了根据本公开的一实施方式的印刷品文字的校对装置的框图；

图14示意性示出了根据本发明的另一个实施方式的印刷品文字的校对装置的方框图；

图15示意性示出了根据本发明的另一个实施方式的印刷品文字的校对装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施方式的印刷品文字的校对方法或印刷品文字的校对装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104是用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

工作人员或客户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。

服务器105可以是提供各种服务的服务器。例如工作人员利用终端设备103（也可以是终端设备101或102）向服务器105发送印刷品文字的校对请求。服务器105可以获取印刷品的标准文本，其中，所述标准文本按照说明内容划分为不同部分；对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容；获取所述印刷品的设计稿，其中，所述印刷品的设计稿为图片；对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域；从所述设计稿的各个文本区域提取识别文字；将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。服务器105可以将所述标准文本的不同部分的文本内容、所述设计稿的各个文本区域、所述设计稿的各个文本区域的识别文字和校对结果发送至终端设备103，以将所述标准文本的不同部分的文本内容、所述设计稿的各个文本区域、所述设计稿的各个文本区域的识别文字和校对结果显示于终端设备103，进而工作人员可以基于终端设备103上显示的内容查看相应的内容。

又如终端设备103（也可以是终端设备101或102）可以是智能电视、VR（VirtualReality，虚拟现实）/AR（Augmented Reality，增强现实）头盔显示器、或者其上安装有导航、网约车、即时通讯、视频应用程序（application，APP）等的移动终端例如智能手机、平板电脑等，工作人员可以通过该智能电视、VR/AR头盔显示器或者该导航、网约车、即时通讯、视频APP向服务器105发送印刷品文字的校对请求。服务器105可以基于该印刷品文字的校对请求，获得所述标准文本的不同部分的文本内容、所述设计稿的各个文本区域、所述设计稿的各个文本区域的识别文字和校对结果，并将所述标准文本的不同部分的文本内容、所述设计稿的各个文本区域、所述设计稿的各个文本区域的识别文字和校对结果返回给该智能电视、VR/AR头盔显示器或者该导航、网约车、即时通讯、视频APP，进而通过该智能电视、VR/AR头盔显示器或者该导航、网约车、即时通讯、视频APP将返回的所述标准文本的不同部分的文本内容、所述设计稿的各个文本区域、所述设计稿的各个文本区域的识别文字和校对结果进行显示。

图2示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施方式的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元（CPU，Central Processing Unit）201，其可以根据存储在只读存储器（ROM，Read-Only Memory）202中的程序或者从储存部分208加载到随机访问存储器（RAM，Random Access Memory）203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出（I/O）接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管（CRT，Cathode Ray Tube）、液晶显示器（LCD，Liquid Crystal Display）等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本公开的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元（CPU）201执行时，执行本申请的方法和/或装置中限定的各种功能。

需要说明的是，本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM（Erasable Programmable Read Only Memory，可擦除可编程只读存储器）或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF（RadioFrequency，射频）等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施方式的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所框选的功能也可以以不同于附图中所框选的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中，这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施方式中所述的方法。例如，所述的电子设备可以实现如图11的各个步骤。

相关技术中，例如可以采用机器学习方法、深度学习方法等进行印刷品文字的校对，不同方法适用的范围不同。

图3示意性示出了本公开的一个实施方式的印刷品文字的校对系统（装置）框架图。

参考图3，校对系统分为三层，第一层为用户层，提供用户的登录，任务管理，标准文本上传和查看，设计稿上传和查看，校对结果可视化，校对报告下载等功能。第二层为服务层，提供设计稿校对任务所需的各种服务，用户层直接触达的是文本解析服务（文件解析服务）、文字区域检测服务和文本校对服务。文本解析服务用于解析用户上传的文本文件（标准文本），文本校对服务将校对设计稿上的文本与从标准文本中解析出来的文本的差异，校对结果显示在用户界面上，并生成校对报告。文字区域检测服务帮助用户在设计稿上事先框选出所有可能的文字区域，方便用户对文字区域的框选。文字校对服务又依赖于文字方向识别服务、行检测服务和文字识别服务对设计稿中文字内容的解析。第三层为数据层，用户使用过程中调用的各项服务的输出结果将被存储在数据库中，以便重复的查询和检查。

图4示意性示出了本公开的一个实施方式的印刷品设计稿校对流程图。

参考图4，对于一个新建的设计稿校对任务，系统将按图4的方式进行运作。首先用户创建一个校对任务，系统将在数据库中建立一个新的索引用于保存该任务相关的信息。用户点击上传含有标准文本的文件，文件通过文本解析服务进行解析，获取文件中的文字内容显示在用户界面，同时文字内容被保存在数据中该任务所对应的索引下。之后用户上传设计稿文件，设计稿会以图片形式显示在用户界面，并保存在数据库中。于此同时，系统调用文字区域检测服务，检测设计稿中可能的文字区域并且显示在用户界面上。用户可以对文字区域检测的结果进行调整，保证需要校对的文字区域被框选出来。用户确认文字区域之后点击开始校对，此时用户确认后的文字区域信息将被保存入数据库。校对流程首先识别各个框选区域包含文字的文字方向，之后检测区域中每一个字符的位置，并对检测出来的字符聚合生成文字行区域；获得设计稿上每一行文字的位置之后，系统会按照文字行区域对输入的设计稿图片进行抠取，获取多个仅包含文字行的图片。这些图片被送入文字识别服务识别文字内容。识别出的文字内容和从文件解析出的标准文字内容经过校对服务进行校对，校对结果会显示在用户界面并存入数据库，用户除了能够在用户界面检查对比的结果，也可以选择下载系统生成的对比报告。

图5示意性示出了本公开的一个实施方式的印刷品设计稿校对结果查看流程图。

参考图5，对于一个已经创建的任务，用户可以直接在任务界面下载生成的校对报告。也可以按照图5的流程查看任务详情。查询过程中，系统将从数据库中读取历史信息并显示在用户界面上。允许用户修改已有任务中的标准文本，设计稿以及文字区域。当用户修改这些数据之后，后续流程将按新任务创建的流程进行。

图6示意性示出了本公开的一个实施方式的印刷品设计稿校对业务流程图。

参考图6，示出了系统在企业生产中的一种可行的实际业务流程，首先由生产企业的相关部门上传需要校对的文本（标准文本）至校对（比对）系统。设计公司完成设计稿之后上传设计稿文件并完成文字区域框选。校对系统将校对生产企业上传的标准文本和设计稿中文字之间的差异。设计公司能够按照校对结果进行自查和修改。待设计公司确认校对无误之后，交由生产企业的各部门进行核验。生产企业的各部门仅需要核验对比报告即可，不需要重复校对文字内容。图6的流程构建了一个中心化的印刷品文本校对流程。相比于现有的流水线试的校对流程，大大精简了校对的流程，并提高了校对的效率。

图7示意性示出了本公开的一个实施方式的印刷品设计稿校对系统任务管理界面。

参考图7，任务管理界面包含两个主要部分：新建任务按钮、任务列表。新建任务按钮用于创建新的校对任务，点击新建任务按钮会弹出一个对话框，可以输入任务名称和任务相关的描述，之后跳入标准文本导入界面。任务列表展示了所有历史的校对任务，支持按创建时间或者任务名称进行排序，并且可以点击查看任务详情、下载校对报告或者删除任务，查看任务详情则跳入标准文本导入界面。

图8示意性示出了本公开的一个实施方式的印刷品设计稿校对系统标准文本导入界面。

参考图8，标准文本导入界面包含两个主要部分：导入文档按钮，文档解析结果展示区。点击导入文档按钮，用户可以上传需要进行校对的标准文档文件，文件类型支持docx、txt、pdf的文件格式和rar、zip的压缩包格式。文档解析结果展示区将在网页上展示系统后台解析得到的文本内容，用户可以对解析结果进行修改。点击继续按钮，将保存导入的标准文本信息，并跳转到设计稿导入及框选界面。

图9示意性示出了本公开的一个实施方式的印刷品设计稿校对系统设计稿导入及框选（标注）页面。

参考图9，设计稿导入及框选界面包含三个主要部分：导入设计稿按钮、设计稿展示及框选（标注）区、文本区域展示区。点击导入设计稿按钮，用户可以上传需要的设计稿文件。对于上传的设计稿，系统会对其进行预框选，框选其上所有可能的文本区域。上传的设计稿及其预框选的文本区域位置会展示在设计稿展示及框选区。用户可以在设计稿展示及框选区对文本区域进行删除或者调整，也可以人工框选新的文本区域。所有框选出来的文本区域的图片将会列举在文本区域展示区，用户可以在该区域删除误框选或无关的文本区域。点击继续将触发文本校对流程。并将校对结果展示在校对结果展示页面。

图10示意性示出了本公开的一个实施方式的印刷品设计稿校对系统校对结果展示页面。

参考图10，校对结果展示页面包含三个主要部分：错误文字标识区、校对（比对）结果展示区以及下载对比报告按钮。所有的文本校对出现错误的内容将被列举在对比结果展示区，并且在左侧的错误文字标识区，会将其在设计稿上的位置标识出来，方便用户校对和判断。确认校对无误之后，可以点击下载对比报告，即可获得系统导出的详细的校对报告。若发现问题，可以点击返回进行调整输入的标准文本内容，或重新上传校正错误之后的设计稿。

图11示意性示出了根据本公开的一实施方式的印刷品文字的校对方法的流程图。本公开实施方式的方法步骤可以由终端设备执行，也可以由服务器执行，或者由终端设备和服务器交互执行，例如，可以由上述图1中的服务器105执行，但本公开并不限定于此。

在步骤S1110中，获取印刷品的标准文本，其中，所述标准文本按照说明内容划分为不同部分。

在该步骤中，终端设备或服务器获取印刷品的标准文本，其中，所述标准文本按照说明内容划分为不同部分。实际应用中，可以通过用户（生产企业）上传印刷品的标准文本来实现获取印刷品的标准文本。在一个实施中，标准文本按照说明内容划分为不同部分是指标准文本按照设计稿的例如生产日期、保质期、产品配料、使用注意等不同说明部分进行划分。

本公开实施方式中，终端设备可以以各种形式来实施。例如，本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理（personal digitalassistant，PDA）、便捷式媒体播放器（portable media player，PMP）、印刷品文字的校对装置、可穿戴设备、智能手环、计步器、机器人、无人驾驶车等移动终端，以及诸如数字TV（television，电视机）、台式计算机等固定终端。

在步骤S1120中，对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容。

在该步骤中，终端设备或服务器可以对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容。在一个实施中，本步骤可以使所述标准文本的不同部分在所述标准文本的文本内容中以行或段进行显示，即使不同部分内容作为一个整体。

标准文本解析（文本解析服务）的功能是解析用户上传的标准文本文件，并将文件（文本）内容返回给显示界面。文本解析服务首先会判断用户上传的文件类型，若文件类型为docx、txt、pdf，则调用相应的文件解析模块提取文件中的文本信息及表格。若文件类型为rar或zip的压缩文件，则调用文件解压模块获取压缩包内的所有文件，并依据其文件类型分别调用相应的解析模块提取文件中的文本信息及表格，最后所有文件中的文本内容被整合在一起显示在用户界面上。

在步骤S1130中获取所述印刷品的设计稿，其中，所述印刷品的设计稿为图片。

在该步骤中，终端设备或服务器获取所述印刷品的设计稿，其中，所述印刷品的设计稿为图片。实际应用中，可以通过用户（设计公司）上传印刷品的设计稿来实现获取所述印刷品的设计稿。

在步骤S1140中，对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域。

在该步骤中，终端设备或服务器对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域。在一个实施例中，通过基于Resnet-50的Faster-RCNN模型及引入FPN框架构建的检测模型来对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域。在一个实施例中，在用户对所述设计稿的文本区域进行调整时，获取所述用户调整后的所述设计稿的各个文本区域。

当用户上传设计稿之后，系统（终端设备或服务器）将调用文字区域检测服务，服务将使用一个文字区域检测模型对设计稿上的文字区域进行检测。该检测模型采用基于Resnet（深度残差网络）-50的Faster-RCNN（Faster regions with Convolutional NeuralNetworks features，快速区域卷积网络）模型实现，虑到文字区域大小差异较大，网络结构中引入了FPN（Feature Pyramid Networks，特征金字塔网络）框架。

为了训练该文字检测模型，本申请在网络上随机收集了一批约20万张包含文字内容的设计稿图片。使用一个事先训练好的字符检测模型对这些设计稿图片进行清洗，剔除包含文字较少的图片，剩余文字较为密集的图片1万张。之后人工筛选了4000张图片标注其中的文本区域。模型训练时，先在COCO检测数据集上进行预训练，之后在标注的4000张文字区域图片上进行模型参数的微调。训练的批大小设为2，迭代次数设为80000，学习率为0.001。

在步骤S1150中，从所述设计稿的各个文本区域提取识别文字。

在该步骤中，终端设备或服务器从所述设计稿的各个文本区域提取识别文字。在一个实施例中，通过对Resnet-18模型使用ImageNet（图网）进行预训练获得的识别网络模型识别所述设计稿的各个文本区域中文字的方向，根据所述设计稿的各个文本区域中文字的方向将所述设计稿的各个文本区域中文字调整为自左向右的正常阅读的方向。在一个实施例中，将所述设计稿的各个文本区域中文字调整为自左向右的正常阅读的方向后，通过基于Resnet-101的Faster-RCNN模型及引入FPN框架构建的检测模型获取所述设计稿的各个文本区域中文字的字符区域。在一个实施例中，在获取所述设计稿的各个文本区域中文字的字符区域后，根据字符在纵向的重合程度确定所述设计稿的文本区域中的文字行。在一个实施例中，在根据字符在纵向的重合程度确定所述设计稿的各个文本区域中的文字行过程中，若存在与多个参照字符的重叠程度大于特定值（例如为0.7）的字符，则提醒用户重新框选与该字符相关的文本区域。

对于用户确认的文字区域，系统将调用文字方向识别服务判断该区域的文字书写方向。为了方便产品的使用者阅读相关产品信息，产品的详细信息往往不采用斜向的排版，所以绝大多数情况下只需要辨别0度、90度、180度、270度这四个方向即可。所以文字方向识别服务使用一个文字方向分类模型来完成这个工作。其中，一个实施例中，0度为文字自左向右水平显示、90度为文字自下向上垂直显示、180度为文字自右向左水平显示、270度为文字自上向下垂直显示，但本公开不以此为限。

实验发现使用参数较少的深度网络构建识别模型即可达到较高的识别准确率，为了平衡模型效果和计算开销，本申请选用Resnet-18深度网络结构作为本申请的识别网络模型。网络的训练方法为：首先对原始的Resnet-18模型使用ImageNet进行预训练，之后在事先准备好的文字方向数据集上进行微调。文字方向识别数据来源于网络，本申请从互联网上收集了约10万张包含文字的图片，采用文字区域检测模型获取其中的文字区域，并进行抠取，共获得文字图片约为20万张。经抽样检查，这20万张图片中的文字方向几乎均为0度，故不再对这些图片进行人工标注。训练时对这些图片进行旋转，即可获得90度、180度、270度的图片数据。考虑到可能存在的方向错误的数据，训练时在计算损失之前，使用了标签平滑正则化（Label Smoothing Regularization，LSR）方法对标签进行了预处理。最终本方案的模型在测试数据上达到了96.3%的识别准确率。

在获得文字方向之后，将文字按照预测的方向通过旋转恢复至0度。恢复到0度的图片被送入一个文字行检测服务获按行划分的文字区域。文字行检测模型的实现有两种方案，第一种是直接检测文字行的位置，第二种是检测文字字符的位置，之后将临近字符区域连接为行区域。考虑到设计稿上文字排布为了满足艺术性，行的分布往往是混乱的，如果直接检测文字行区域，很难收集有效的标注数据使得模型能够按照正确的语义对行进行划分。因此本方案采用第二种方案，在检测到文字区域之后，再简单的将相邻的文字区域进行连接以获得行区域。对于复杂的文字分布方式，本方案要求在用户框选文字区域尽量避免行之间语义的混乱。

与文字区域检测的模型类似，文字字符检测的模型本申请选用基于Resnet-101的Faster-RCNN模型实现，并且考虑到文字字符大小的差异，在网络结构中引入了FPN框架，另外由于在一个区域内的文字往往是极为密集的，本方案中Faster-RCNN模型中的区域推荐网络的生成区域数量上限被调高至10000（默认值是512）。模型在人工标注字符区域的设计稿图片上进行训练，训练图片数量为147，共包标注的文字字符区域13107个。模型训练时，先在COCO检测数据集上进行预训练，后在文字字符区域训练数据上进行微调。微调时的学习率设为0.001，共迭代40000次。

获得文字字符区域之后，本方案按照如下的步骤生成文字行区域：

Step1.对于一批检测出来的字符区域，本申请首先随机挑选一个参照字符A加入参照字符集合，之后计算所有字符和该参照字符在纵向的重合程度

。假设参照字符A的纵向的起止坐标为

，字符B的起止坐标为

，

。那么纵向重合程度的计算公式为：

（1）

上述公式（1）中，三点竖线┇后面表示条件，三点竖线┇前面表示满足后面条件时采用前面的公式进行计算或者数值。

Step2.如果一个字符和参照字符的重合程度

大于0.7，就认为该字符可能跟该参照字符是同一行。将该字符添加至该参照字符对应的行，并更新参照字符的行起止坐标为：

。若字符和参照字符的重合程度

小于0.7，那么将其作为一个新的参照字符加入参照字符集合。

Step4.重复Step2。每一个新的字符都需要和已有的参照字符计算重叠程度，并按照重叠程度加入某一个参照字符对应的行，或者作为一个新的参照字符和之后的字符进行比较。若存在一个字符和多个参照字符的重叠程度

大于0.7，说明存在行上的语义混淆。由于行语义混淆时，现有文字识别模型很难区分文字的语义含义，所以服务会将该错误直接返回，提醒用户重新框选文本区域，避免该情况。图12示意性示出了本公开的一个实施方式的印刷品设计稿校对系统的行混淆的示例。参考图12，在该例子中“安全”和后面的介绍文字应该被框选在两个不同的文字区域，避免行语义混淆。

在步骤S1160中，将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。

在该步骤中，终端设备或服务器将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。在一个实施例中，以文字行为单位将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。

获得文字行区域之后，设计稿将按照文字行区域抠图，并将得到的每一行的文字图片送入文字识别服务。文字识别服务输出每一行的文字识别结果。文字识别服务的文字识别模块采用了通用文字识别接口，该接口能够高效且准确的识别图案中的文本内容，满足本方案的需求。获取的文字识别结果将和由文本解析服务获取的用户上传的标准文本按行为单位进行校对，找到识别结果和标准文本中不同的文字片段在用户界面显示。同时所有的校对结果将由程序自动生成一个对比报告文件。用户在界面核对校对结果无误后可以下载对比报告。

本公开的印刷品文字的校对方法或系统，通过文字区域检测，文字方向识别，文字字符检测等技术，支持用户上传设计稿文件，获取设计稿上的文本内容，并和标准文本进行校对，找到设计稿中的错误内容。系统通过流程设计，优化了传统生产企业中文本校对的繁琐程序，大大降低了文本校对的时间成本和人力开销。

在一个实施中，本申请还提供了一种印刷品文字的校对方法，包括：

从所述设计稿的各个文本区域提取识别文字；

图13示意性示出了根据本公开的一实施方式的印刷品文字的校对装置的框图。本公开实施方式提供的印刷品文字的校对装置1300可以设置在终端设备上，也可以设置在服务器端上，或者部分设置在终端设备上，部分设置在服务器端上，例如，可以设置在图1中的服务器105，但本公开并不限定于此。

本公开实施方式提供的印刷品文字的校对装置1300可以包括获取模块1310、标准文本解析模块1320、检测模块1330、设计稿识别模块1340以及校对模块1350。

其中，获取模块配置为获取印刷品的标准文本，获取所述印刷品的设计稿，其中，所述标准文本按照说明内容划分为不同部分，所述印刷品的设计稿为图片；标准文本解析模块配置为对所述标准文本进行解析以获得所述标准文本的文本内容；检测模块配置为对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域；设计稿识别模块配置为从所述设计稿的各个文本区域提取识别文字；以及校对模块配置为将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对。

根据本公开的实施方式，上述印刷品文字的校对装置1300可以用于实现图11实施方式描述的印刷品文字的校对方法。

图14示意性示出了根据本发明的另一个实施方式的印刷品文字的校对装置1400的方框图。

如图14所示，除了图13实施方式描述的获取模块1310、标准文本解析模块1320、检测模块1330、设计稿识别模块1340以及校对模块1350，该印刷品文字的校对装置1400还包括显示模块1410。

具体地，显示模块1410用于显示所述标准文本的不同部分的文本内容、所述设计稿的各个文本区域、所述设计稿的各个文本区域的识别文字和校对结果。

在该印刷品文字的校对装置1400中，通过显示模块1410可以完成所述标准文本的不同部分的文本内容、所述设计稿的各个文本区域、所述设计稿的各个文本区域的识别文字和校对结果的直观显示。

图15示意性示出了根据本发明的另一个实施方式的印刷品文字的校对装置1500的方框图。

如图15所示，除了图13实施方式描述的获取模块1310、标准文本解析模块1320、检测模块1330、设计稿识别模块1340以及校对模块1350之外，印刷品文字的校对装置1500还包括存储模块1510。

具体地，存储模块1510用于将用户使用过程中调用的各项服务的输出结果将被存储在数据库中，以便重复的查询和检查。

可以理解的是，获取模块1310、标准文本解析模置1320、检测模块1330、设计稿识别模块1340、校对模块1350、显示模块1410以及存储模块1510可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施方式，获取模块1310、标准文本解析模块1320、检测模块1330、设计稿识别模块1340、校对模块1350、显示模块1410以及存储模块1510的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，获取模块1310、标准文本解析模块1320、检测模块1330、设计稿识别模块1340、校对模块1350、显示模块1410以及存储模块1510的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

由于本发明的示例实施方式的印刷品文字的校对装置的各个模块可以用于实现上述图11描述的印刷品文字的校对方法的示例实施方式的步骤，因此对于本发明装置实施方式中未披露的细节，请参照本发明上述的印刷品文字的校对方法的实施方式。

本公开实施方式提供的印刷品文字的校对装置中的各个模块、单元和子单元的具体实现可以参照上述印刷品文字的校对方法中的内容，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之，上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种印刷品文字的校对方法，其特征在于，包括：

从所述设计稿的各个文本区域提取识别文字；

将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对；

其中，对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域包括：

通过基于深度残差网络50的快速区域卷积网络模型及引入特征金字塔网络框架构建的检测模型来对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域；

其中，从所述设计稿的各个文本区域提取识别文字包括：

根据所述设计稿的各个文本区域中文字的方向将所述设计稿的各个文本区域中文字调整为自左向右的正常阅读的方向；

将所述设计稿的各个文本区域中文字调整为自左向右的正常阅读的方向后，通过基于深度残差网络101的快速区域卷积网络模型及引入特征金字塔网络框架构建的检测模型获取所述设计稿的各个文本区域中文字的字符区域；

2.根据权利要求1所述的方法，其特征在于，对所述标准文本进行解析以获得所述标准文本的不同部分的文本内容包括：

3.根据权利要求1所述的方法，其特征在于，对所述设计稿进行区域检测从而得到所述设计稿的各个文本区域包括：

4.根据权利要求1所述的方法，其特征在于，从所述设计稿的各个文本区域提取识别文字包括：

5.根据权利要求1所述的方法，其特征在于，将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对包括：

6.一种印刷品文字的校对方法，其特征在于，包括：

从所述设计稿的各个文本区域提取识别文字；

将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对，并显示校对的结果；

其中，从所述设计稿的各个文本区域提取识别文字包括：

7.一种印刷品文字的校对装置，其特征在于，包括：

校对模块，配置为将所述各个文本区域的识别文字与所述标准文本的各个部分的文本内容进行对比以对所述设计稿的文字进行校对；

其中，从所述设计稿的各个文本区域提取识别文字包括：

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。