CN107615269A

CN107615269A - 数字图形小说的自动翻译

Info

Publication number: CN107615269A
Application number: CN201680028503.7A
Authority: CN
Inventors: 格雷格·唐·哈特雷尔; 德巴基特·高什; 马修·沃恩-韦尔; 约翰·迈克尔·里夫林; 加思·康博伊; 辜新星; 亚历山大·托舍夫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-09-23
Filing date: 2016-08-09
Publication date: 2018-01-19
Also published as: JP2018529133A; US20180107658A1; US20170083511A1; US9881003B2; WO2017052820A1; EP3353675A1; JP6596511B2

Abstract

接收数字图形小说内容并且识别所述图形小说内容的特征。所述识别的特征中的至少一个特征包括文本。基于所识别的特征来生成与包括文本的所述一个或者多个特征对应的场境信息。所述场境信息用于辅助翻译在包括文本的所述一个或者多个特征中包括的所述文本。

Description

数字图形小说的自动翻译

技术领域

本文所描述的主题通常涉及数字图形小说，并且具体地涉及提供数字图形小说内容的自动翻译。

背景技术

电子书(“ebook”)以各种形式呈现，诸如国际数字出版论坛的电子出版物(EPUB)标准和可移植文档格式(PDF)。可以通过使用各种装置诸如专用阅读装置、通用移动装置、平板计算机、膝上型计算机、以及桌面型计算机来阅读电子书。每个装置包括向用户显示电子书的阅读软件(“电子阅读器”)。

图形小说是传统上通过印刷媒体递送的视觉叙事形式。然而，出版商日益增加地通过使用电子阅读器、特别是在电话和平板上提供这种内容以进行数字消费。这种数字图形小说内容可用于广泛的管辖范围，并且对多种语言的图形小说存在需求。通常，提供图形小说的翻译版本需要改变基础图像。因此，在出版商和作者可以将正式翻译版本推向市场之前，非法出书商通常会提供未经授权的翻译。

发明内容

通过一种方法、电子装置、和非暂时性计算机可读存储介质来解决上述和其它问题。在一个实施例中，该方法包括：接收数字图形小说内容并且识别图形小说内容的特征。所述特征包括包含文本的至少一个特征。该方法还包括：基于识别的特征来生成与包括文本的所述至少一个特征对应的场境信息(contextual information)。该方法进一步包括：翻译在所述至少一个特征中包括的文本以产生翻译文本，该翻译由场境信息辅助。

在一个实施例中，该电子装置包括存储可执行计算机程序代码的非暂时性计算机可读存储介质和用于执行该代码的一个或者多个处理器。该可执行计算机程序代码包括用于接收数字图形小说内容并且识别图形小说内容的特征的指令。所述特征包括包含文本的至少一个特征。该可执行计算机程序代码还包括用于基于识别的特征来生成与包括文本的所述至少一个特征对应的场境信息的指令。该可执行计算机程序代码进一步包括用于翻译在所述至少一个特征中包括的文本以产生翻译文本的指令，该翻译由场境信息辅助。

在一个实施例中，非暂时性计算机可读存储介质存储可执行计算机程序代码。该可执行计算机程序代码包括用于接收数字图形小说内容并且识别图形小说内容的特征的指令。所述特征包括包含文本的至少一个特征。该可执行计算机程序代码还包括用于基于识别的特征来生成与包括文本的所述至少一个特征对应的场境信息的指令。该可执行计算机程序代码进一步包括用于翻译在所述至少一个特征中包括的文本以产生翻译文本的指令，该翻译由场境信息辅助。

附图说明

图1是图示了根据一个实施例的适合于为计算机辅助导航提供图形小说的联网计算环境的高级框图。

图2是图示了根据一个实施例的在图1的联网计算环境中使用的计算机的示例的高级框图。

图3是图示了图1中示出的图形小说语料库的一个实施例的高级框图。

图4是图示了图1中示出的图形小说分析系统的一个实施例的高级框图。

图5是图示了图1中示出的图形小说分配系统的一个实施例的高级框图。

图6是图示了图1中示出的阅读器装置的一个实施例的高级框图。

图7是图示了根据一个实施例的提供数字图形小说的自动翻译的方法的流程图。

图8是图示了根据一个实施例的构建在图7的方法中使用的预测模型的方法的流程图。

图9是图示了根据一个实施例的基于反馈来验证预测的方法的流程图。

图10是图示了根据一个实施例的使用从识别的特征生成的场境信息来辅助翻译的方法的流程图。

具体实施方式

出版商正在使大量的图形小说内容数字可用。还存在可追溯到19世纪的图形小说、漫画书、和连环画的大量印刷语料库。一些历史学家甚至认为，古代文明所产生的艺术品诸如罗马的图拉真凯旋柱(Trajan’s Column in Rome)和贝叶挂毯(Bayeux Tapestry)在本质上是同一种艺术形式。为了方便起见，本文所使用的术语“图形小说”是指包括具有叙述流的一系列有序图像的任何这种内容。

阅读图形小说与阅读基于文本的书籍不同。并非主要通过以区域特定的阅读顺序(例如，在英语国家中，从左至右和从上到下的阅读顺序)来讲述故事，而是通过有序图像(也称为面板(panel))和对话气泡的组合来传达图形小说的叙述。在一些情况下，对话气泡与多个面板重叠。此外，在某些情况中(例如，许多日本图形小说)，按照从右到左和从上到下的阅读顺序来阅读文本。这些因素在提供图形小说的自动(或者半自动)翻译时呈现出特定的挑战。单词或者短语的场境在提供准确翻译方面通常很重要。因此，知道面板和对话气泡的预期顺序可以辅助产生高质量的翻译，因为这能够按照正确顺序分析对话。此外，图形小说中的图像的其它特征可以提供附加场境信息以辅助翻译。在单词或者短语具有两种(或者更多种)可能的翻译的情况下，对应图像中的特定人物或者对象的存在可以增加一种翻译相对于另一种翻译的可能性。例如，英语单词“bow”可能是一种结、武器、身体动作、或者船的一部分。如果将该单词包括在其中的图像描绘了那些事物中的一个事物，则该事物有可能是正确的翻译。

系统概述

附图和以下说明仅仅通过说明的方式描述了某些实施例。本领域的技术人员将从以下描述容易地认识到，在不脱离本文描述的原理的情况下，可以采用本文说明的结构和方法的替代实施例。现在将参考几个实施例，在附图中图示了这些实施例的示例。注意，在可行的情况下，可以在附图中使用相似或者相同的附图标记，并且相似或者相同的附图标记可以指示相似或者相同的功能。

图1图示了适合于提供数字图形小说的自动(或者半自动)翻译的联网计算环境100的一个实施例。如图所示，环境100包括图形小说语料库110、图形小说分析系统120、图形小说分配系统130、以及阅读器装置，它们全都经由网络170连接。联网计算环境100的其它实施例包括不同的或者附加的部件。另外，这些功能可以按照与本文描述的不同的方式分布在部件之间。

图形小说语料库110存储图形小说的数字表示。数字表示可以使用任何适合的格式，诸如，EPUB或者PDF。在各种实施例中，提供了由出版商和作者预先制作的、通过扫描现有印刷图形小说创建的、或者通过使用这些技术的组合编译的数字表示。下文参照图3更详细地描述了图形小说语料库110。

图形小说分析系统120应用机器学习技术来构建和应用用于识别数字图形小说内的特征的模型。图形小说分析系统120还提供包括文本的识别的特征的翻译。在一个实施例中，特征包括面板和对话气泡的位置和预期阅读顺序。该预期顺序用于通过提供识别的文本的更多的场境来辅助翻译识别的文本。在其它实施例中，另外或者替选地，特征包括：描绘的人物，描绘的对象(例如，门、武器等)、事件(例如，情节、人物间的关系等)、情绪、在一个面板与下一个面板之间的期望的视觉过渡(例如，平移、缩小和放大)、描绘的天气、体裁、从右到左(RTL)阅读、广告等。这些特征中的大多数与图形小说不同。例如，基于文本的书籍具有作者，但是没有艺术家，并且识别图形小说内容的图像中描绘的人物或者对象与识别文本中的相同事物极为不同。类似地，按照从左到右和从上到下的方式阅读基于文本的书籍中的页面，而图形小说通常每页包含ASX阅读的几个面板，每个面板几个对话气泡，并且预期阅读顺序要求读者注意以跳转页面。

在某些情况下，图形小说分析系统120使用数字图形小说的某些特征的识别来辅助翻译文本。例如，在一个实施例中，如果图形小说分析系统120识别面板中的特定人物，则其应用针对该人物设计的机器翻译算法。该人物特定算法可以包括与该人物相关联的常用短语列表以及这些短语的预制翻译。机器翻译算法也可以是机器学习算法，并且可以从与该人物相关联的刚刚发生的对话的训练集中开发该机器翻译算法。下文参照图4更详细地描述了图形小说分析系统120。

图形小说分配系统130创建封装的数字图形小说，该封装的数字图形小说包括图形小说内容和呈现元数据，该呈现元数据指示应该如何呈现图形小说内容。在一个实施例的集合中，图形小说分配系统130将图形小说内容翻译为封装过程的一部分。在一个这种实施例中，呈现元数据包括如由图形小说分析系统120输出的面板/对话气泡的识别的特征、识别的特征位置、以及预期阅读顺序。在另一个这种实施例中，图形小说分配系统130对来自图形小说分析系统120的输出进行处理以确定推荐的呈现方式。在该实施例中，呈现元数据包括呈现指令的有序列表(例如，全屏显示面板1，然后平移至面板2并且在对话气泡1上放大，然后缩小以全屏显示面板2，然后在对话气泡2上放大等)。

在另一个实施例的集合中，呈现元数据包括要通过另一装置(例如，阅读器装置180)辅助翻译的元数据。在一个这种实施例中，呈现元数据包括如由图形小说分析系统120输出的面板/对话气泡的识别的特征、识别的特征位置、以及预期阅读顺序，以及每个对话气泡的内容的纯文本表示。在另一个这种实施例中，呈现元数据还包括在图形小说内容中包括的不在对话气泡内的文本(例如，指示牌上的文本、声音效果的视觉表情等)的位置和纯文本表示。下文参照图5更详细地描述了图形小说分配系统130。

阅读器装置180可以是能够向用户呈现数字图形小说的任何计算装置，诸如，桌面型PC、膝上型计算机、智能电话、平板、专用阅读装置等。虽然仅示出了三个阅读器装置180，但是实际上，存在可以通过使用网络170来与环境100的其它部件通信的许多个(例如，成千上万个)阅读器装置180。在一个实施例中，客户端装置180从图形小说分配系统130接收封装的数字图形小说，并且根据所包括的呈现元数据将其呈现给用户。下文参照图6更详细地描述了示例性阅读器装置180。

网络170使得联网计算环境100的部件能够彼此通信。在一个实施例中，网络170使用标准通信技术和/或协议并且可以包括互联网。因此，网络170可以包括使用诸如以太网、802.11、全球微波接入互操作性(WiMAX)、2G/3G/4G移动通信协议、数字订户线(DSL)、异步传输模式(ATM)、InfiniBand、PCI Express高级交换等的技术的链路。相似地，在网络170上使用的联网协议可以包括：多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。可以通过使用包括以二进制形式的图像数据(例如，便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)、便携式文档格式(PDF)、电子出版物(EPUB)等的技术和/或格式来表示通过网络110交换的数据。另外，可以通过使用诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、互联网协议安全(IPsec)等的常规加密技术对所有或者一些链路进行加密。在另一实施例中，代替上文描述的技术或者除了上文描述的技术之外，在网络170上的实体还可以使用自定义和/或专用数据通信技术。

图2是图示了适合于在联网计算环境100中使用的计算机200的一个实施例的高级框图。图示了耦合至芯片集204的至少一个处理器202。该芯片集204包括存储器控制中枢250和输入/输出(I/O)控制中枢255。存储器206和图形适配器213耦合至存储器控制中枢250，并且显示装置218耦合至图形适配器213。存储装置208、键盘210、指向装置214、以及网络适配器216耦合至I/O控制中枢255。计算机200的其它实施例具有不同的架构。例如，在一些实施例中，存储器206直接耦合至处理器202。

存储装置208包括一个或者多个非暂时性计算机可读存储介质，诸如，硬盘驱动器、光盘只读存储器(CD-ROM)、DVD、或者固态存储器装置。存储器206托管由处理器202使用的指令和数据。指向装置214结合键盘210一起用来将数据输入到计算机系统200中。图形适配器213将图像和其它信息显示在显示装置218上。在一些实施例中，显示装置218包括触摸屏能力用于接收用户输入和选择。网络适配器216将计算机系统200耦合至网络110。计算机200的一些实施例具有与图2中示出的那些实施例不同的或者附加的部件。例如，图形小说分析系统120可以由共同操作以提供本文所描述的功能的多个计算机200形成。作为另一示例，客户端装置180可以是智能电话并且包括提供屏幕上键盘210和指向装置214功能的触摸屏。

计算机200适应于执行用于提供本文所描述的功能的计算机程序模块。如本文所使用的，术语“模块”是指用于提供指定功能的计算机程序指令或者其它逻辑。因此，可以用硬件、固件、或者软件、或者它们的组合来实施模块。在一个实施例中，将由可执行计算机程序指令形成的程序模块存储在存储装置208上，加载到存储器206中，并且由处理器202执行。

示例性系统

图3图示了图形小说语料库110的一个实施例。如图所示，图形小说语料库110包括图形小说内容310和出版商元数据320。图形小说语料库110的其它实施例包括不同的或者附加的部件。例如，虽然将图形小说内容310和出版商元数据320示出为不同的实体，但是可以为内容和元数据两者使用单个数据存储。

图形小说内容310包括语料库110中的图形小说的页面的图像，并且将图像小说内容310存储在一种或者多种非暂时性计算机可读存储介质上。如之前描述的，图形小说内容310可以直接由出版商和作者提供，或者通过扫描现有印刷图形小说来获取图形小说内容310。在一个实施例中，图形小说内容310包括完整的图形小说的PDF文档，其中，PDF的每一页包括图形小说的页面的图像。替选地，PDF单个面板或者双页范围。在另一实施例中，图形小说内容310作为固定布局EPUB文件存储。本领域的技术人员将了解可以存储图形小说内容310的其它格式。

出版商元数据320是由图形小说出版商或者作者提供的包括关于图形小说的诸如标题、出版日期、作者、艺术家、出版商、丛书、主要人物等的信息的元数据。在通过扫描现有印刷的图形小说来生成图形小说内容320的实施例中，可能不存在出版商元数据。替选地，扫描印刷图形小说的个人或者实体可以提供出版商元数据320(例如，通过作为扫描过程的一部分将其键入成电子形式)。

图4图示了图形小说分析系统120的一个实施例。如图所示，图形小说分析系统120包括训练模块410、预测模块420、验证模块430、以及预测模型存储440。图形小说分析系统120的其它实施例包括不同的或者附加的部件。另外，这些功能可以按照与本文描述的不同的方式分布在部件之间。例如，图形小说分析系统120可能不包括预测模型存储440，而是将预测模型存储在图形小说语料库110。作为另一示例，在使用众包反馈的实施例中，归属到验证模块430的一些或者所有功能可以由用户装置180的反馈模块620提供。

训练模块410从图形小说的训练集中构建机器学习模型。当应用于数字图形小说内容时，模型预测包括在该数字图形小说内容中的特征。在一个实施例中，训练模块410随机地从语料库110中选择数字图形小说的子集以用作训练集。在其它实施例中，子集基于出版商元数据320。例如，训练模块410可以选择子集以包括一个或者多个特征(例如，艺术家、出版商、人物等)的值的范围以增加初始模型将准确地识别未知的图形小说中的那些特征的可能性。在一个这种实施例中，使用出版商元数据来识别作为图形小说的数字出版物，识别流行的那些图形小说的集合(例如，基于下载次数)，基于这两个分组包括从右到左的方式阅读(例如，基于出版商元数据)将该集合分成两个分组，以及通过从每个分组中随机地选择一些图形小说来填写子集。在另一实施例中，手动地选择训练集，并且将该训练集提供给训练模块410。在再一实施例中，训练数据是来自参与用户的众包训练数据，因此，训练集是来自语料库110的参与用户选择要阅读的那些数字图形小说。

训练模块410准备训练集以供在监督训练阶段中使用。在一个实施例中，训练模块410从训练集中的数字图形小说提取(例如，与单独的页面对应的)原始图像。在其它实施例中，训练模块410执行图像处理。在一个这种实施例中，训练模块410确定每个原始图像的维度并且应用调整大小的操作，使得训练集中的每个图像为统一大小。训练模块410还确定图像是否倾斜(例如，由于扫描期间产生的错误)并且根据需要应用倾斜校正。在其它实施例中，将附加的或者不同的图像处理应用于原始图像，诸如，应用自动对比度函数、归一化为统一的平均亮度、执行自动颜色平衡等。

然而，准备训练集，训练模块410使用该训练集来构建初始特征识别模块。在一个实施例的集合中，训练模块410在监督训练阶段中构建初始模型。在一个这种实施例中，向人类操作者示出图形小说页面的图像，并且提示人类操作者指示面板和对话气泡的位置和顺序。例如，操作者可以利用指向装置ASX追踪每个面板的周界，选择按钮以移动到对话气泡上，并且ASX追踪每个对话气泡的周界。在另一实施例中，还要求操作者从封闭集合(例如，非对话气泡文本的实例、可能描绘的人物列表等)中选择包括在图像中的其它特征。在另一实施例中，操作者可以通过使用自由形式的文本来提供标签。在再一实施例中(例如，在使用众包的情况下)，操作者仅仅如同他们会使用常规阅读器那样阅读数字图形小说。操作者通过使用诸如滚动、缩放、和翻页的导航命令来阅读图形小说，并且训练模块410记录由操作者发出的导航命令。通过聚合由多个操作者在阅读同一图形小说的同时做出的导航选择，训练模块410可以为未来读者会如何偏好要呈现的内容构建预测模型。不论所使用的确切方法如何，结果是与指示人类识别的特征的元数据配对的一系列图像。

在另一个实施例的集合中，从出版商元数据构建一些或者所有初始模型。在一个这种实施例中，训练集包括已经包括识别诸如所描绘的人物、作者、艺术家、面板和对话气泡的预期读取顺序等的某些特征的出版商元数据的数字图形小说。因此，训练模块410可以从出版商元数据构建模型，该模型可以应用于不包括识别诸如通过扫描印刷图形小说产生的那些特征的感兴趣的特征的出版商元数据的数字图形小说。

训练模块410从一系列图形和配对元数据构建初始模型。在一些实施例中，模型是由一个或多个层中的节点集组成的人工神经网络。每个节点配置为预测给定特征是否存在于输入图像中，每层中的节点与比前一层中的节点更低的抽象级别对应。例如，第一层中的节点可以确定输入图像是否与一个或者两个页面对应，第二层中的节点可以识别每一页中的面板，并且第三层中的节点可以识别每个面板中的对话气泡。相似地，第一层节点可以确定人物的存在，第二层节点可以确定人物的身份，并且第三层节点可以确定该人物的特定年代(例如，在人物剧情中特别重要的事件之前或者之后)。在一个实施例中，出版商元数据还用于构建模型。例如，特定英雄的存在使得更有可能存在英雄的死对头，而不是通常在不同出版商的图形小说中看到的不同的反面人物。在其它实施例中，使用其它类型的模型，诸如，图形模型。本领域的技术人员可以认识到可以从一系列图像和配对元数据构建以预测其它图像的特征的其它类型的模型。

在一个实施例中，训练模块410使用两阶段过程来构建初始模型。在第一阶段中，通过识别图像中的作为用于包括感兴趣的特征的候选的固定数量的(例如，一百个)区域的神经网络来传递输入图像。在第二阶段中，通过生成感兴趣的特征的身份的预测以及该预测正确的对应概率的第二神经网络来传递所识别的区域。训练模块410然后计算将预测的特征集转换成输入图像的人类识别的特征集的成本。

为了更新模型，训练模块410基于所计算的转换成本，来应用反向传播算法。该算法通过神经网络来传播成本信息并且调整节点权重以降低与对识别输入图像的特征的未来尝试相关联的成本。例如，如果人类提供的特征包括特定人物存在于图像中，并且神经网络以80％的确信预测存在该人物，则差异(或者错误)是20％。在一个实施例中，训练模块410应用梯度下降方法来迭代地调整施加至每个节点的权重，使得成本最小化。少量调整节点的权重，并且使用导致的转换成本的降低(或者增长)用于计算成本函数的梯度(即，成本相对于节点的权重而变化的比率)。训练模块410然后进一步在梯度指示的方向上调整节点的加权，直到找到局部最小值(由梯度改变方向的成本函数中的拐点指示)为止。换言之，调整节点权重，使得神经网络随着时间的变化学习生成更准确的预测。

预测模块420将机器学习模型应用于来自图形小说语料库110的不是训练集的一部分的未经训练的图像。机器学习模型生成未经训练的图像中包括的特征的预测。在一个实施例中，将未经训练的图像转换成数值映射。该数值映射包括一系列整数值，该一系列整数值中的每一个表示图像的特性。例如，映射中的整数可能表示不同颜色的优势、颜色在垂直或者水平方向上发生变化的平均频率、平均亮度等。在另一实施例中，映射包括表示连续量的实际值，诸如，图像中的对象的坐标、概率等。本领域的技术人员要认识到可以将图像转换成数值映射的各种方式。

在一个实施例中，预测模块420将数值映射作为输入提供给神经网络。从第一层开始，节点基于输入图像(例如，数值映射或者数值映射的一部分)来接收输入数据。每个节点分析其接收到的输入数据并且确定其检测到的特征是否有可能存在于输入图像中。在确定特征存在时，节点启动。启动的节点基于启动的节点权重来修改输入数据，并且将修改的输入数据发送至神经网络的下一层中的一个或者多个节点。如果启动神经网络中的端节点，则神经网络输出与该端节点对应的特征存在于输入图像中的预测。在一个实施例中，基于沿着通过神经网络采取的路径分配给每个节点的权重，向预测分配该预测正确的可能性百分比。

预测模块420还从预测为包括文本的识别的特征中提取文本。在一个实施例中，预测模块420将光学字符识别(OCR)算法应用于每个对话气泡以将对话气泡中所图示的文本转换成机器可读形式。考虑到面板和对话气泡的预测顺序，预测模块420(或者另一实体，诸如，图形小说分配系统130)可以按照预测的预期阅读顺序布置机器可读文本。在另一实施例中，预测模块420还将OCR算法应用于面板中包括的非对话气泡。非对话气泡文本通常是高度样式化的(例如，涂鸦、动作表情等)和/或由透视效果扭曲(例如，在相对于“相机”侧呈锐角的对象侧的文本)。预测模块420可以在应用OCR算法之前应用附加的图像处理，诸如，估计和解释由于透视效果造成的偏斜。此外，OCR算法可以使用面板的场境(例如，所描绘的对象和人物)来提高准确性。例如，与所描绘的人物的口头禅的轻微变化相比，更有可能呈现所描绘的人物的口头禅。作为另一示例，可以使用面板中描绘的动作来改进OCR。例如，如果面板描绘了被用拳重击的人物，则面板中的动作表情有可能包括短单词列表(例如，啪、嗖、砰等)中的一个。在一些实施例中，将预测模块420识别的包括文本但OCR失败的图像的区域标记为由人类操作员核查，该人类操作员可以指示不存在文本、提供所描绘的文本、或者提供文本的翻译。

验证模块430将由预测模块420生成的图像的预测特征呈现给提供指示预测特征的准确性的验证信息的用户。在一个实施例中，验证模块430向用户呈现特别感兴趣的特征，诸如，具有相对较低的正确的概率的那些特征或者被视作特别重要的那些特征(例如，主要人物的身份)。验证模块430然后提示用户确认所呈现的预测特征的准确性。例如，验证模块430可以在屏幕上利用围绕预测特征(例如，人物、面板、或者对话气泡)的概述显示输入图像并且提供两个控制，一个控制用于确认预测正确，并且另一个控制用于指示预测不正确。因此，验证信息是预测正确还是不正确的二进制指示。在其它实施例中，验证模块430还提供了其它控制以使用户能够提供指示预测如何不正确或者为什么不正确的附加验证信息或者提供正确的特征信息。例如，在预测面板的位置的情况下，验证模块430可能使用户能够“拖放”预测面板轮廓的部分，以更准确地反映面板在图像中的位置。

验证模块430基于由用户提供的验证信息来更新用于生成预测的模型。在一个实施例中，验证模块430使用与上文参照训练模块410描述的相似的反向传播算法和梯度下降方法来更新模型。在另一实施例中，验证模块430向训练模型410提供反面示例(即，确认为不包括先前预测的特征的图像)，该训练模型410使用这些反面示例进行进一步训练。换言之，训练模块410还可以基于已知不包含某些特征的图像来构建模型。

预测模型存储440包括一个或者多个计算机可读存储介质，该一个或者多个计算机可读存储介质存储由训练模块生成并且由验证模块430更新的预测模型。在一个实施例中，预测模型存储440是图形小说分析系统120内的硬盘驱动器。在其它实施例中，预测模型存储440位于其它位置，诸如，在云存储设施处或者作为图形小说语料库110的一部分。

图5图示了图形小说分配系统130的一个实施例。如图所示，图形小说分配系统130包括封装模块510、翻译模块520、编辑模块530、以及分配数据存储540。图形小说分配系统130的其它实施例包括不同的或者附加的部件。另外，这些功能可以按照与本文描述的不同的方式分布在部件之间。例如，在由阅读装置180执行翻译的实施例中，可以省略翻译模块520。

封装模块510基于由分析系统120执行的分析来创建包括图形小说内容和呈现元数据的封装的数字图形小说。从由机器学习模型输出的特征预测生成呈现元数据。如先前描述的，在各种实施例中，呈现元数据包括特征和对应位置以及阅读顺序(在适当的情况下)的列表、关于应该如何呈现图形小说内容的特定指令诸如平移和缩放指令、或者这两者的组合。呈现元数据还包括从图形小说内容中提取的文本。

在一个实施例中，封装模块510创建封装的数字图形小说(例如，PDF或者固定布局EPUB文件，诸如符合EPUB基于区域的导航1.0标准的固定布局EPUB文件)，该封装的数字图形小说包括一系列有序图像(例如，图形小说中每一页一个图像)和与每个图像对应的呈现元数据。给定图像的元数据识别由数字图形模型分析系统120识别的该图像的特征，并且包括面板和对话气泡的位置和阅读顺序。元数据还包括按照针对对话气泡预测的顺序包括在对话气泡中的文本的纯文本表示。在另一实施例中，元数据进一步包括从面板的未被预测为对话气泡的部分中提取到的文本(例如，来自图像中的指示牌的文本)以及该图像中的文本的位置的指示。在其它实施例中，替选地或者另外，特征包括人物、情绪、天气、对象、艺术家、作者、出版物的年份或者年代等。

在另一实施例中，并不是明确地识别一些或者所有特征，而是呈现元数据描述阅读器装置180应该如何呈现图像。例如，代替识别对话气泡的位置和顺序，呈现元数据可以描述对观看窗口的缩放级别和中心的变化集合，使得用户按照期望顺序将注意力放在对话气泡上。下文参照图6更详细地描述了各种呈现方法。

翻译模块520将在图形小说内容中识别的文本翻译成其它语言。翻译模块520利用由预测模块420识别的特征来改进翻译。在一个实施例中，翻译模块520更新或者补充呈现元数据以包括文本的翻译。注意，在一些实施例中，翻译功能由阅读器装置180执行。在这种实施例中，阅读器装置180可以本地存储翻译文本(例如，在RAM中)，而不是更新呈现元数据。

在一个实施例中，翻译模块520将机器翻译算法应用于从对话气泡中提取到的机器可读文本。预测的预期阅读顺序提供辅助翻译的场境信息。例如，如果对话气泡对包括问题和答案，则问题的内容可以通知答案的翻译，反之亦然。作为其特定示例，如果答案参考点火箭头，则问题中的单词“bow”有可能是指点火箭头的对象，而不是打结的条带。在其它实施例中，替选地或者另外使用其它预测的特征用于辅助翻译。例如，如果在面板中识别到特定人物，则可以鉴于该人物的口头禅和对话风格来翻译面板中的文本。在一个这种实施例中，针对包括特定人物的内容、特定作者的内容、来自特定出版商的内容等中的一个或者多个的翻译定制所使用的机器翻译算法。在另一实施例中，在面板中描绘的动作用于辅助翻译视觉表情。例如，如果面板描绘了被用拳重击的人物，则可以将附近的视觉表情翻译成针对拳击声音的适合的单词。

在翻译模块250翻译非对话气泡文本的实施例中，如上文参照对话气泡文本描述的，翻译模块520对场境信息进行相似的利用。例如，如果要翻译关于面板中描绘的指示牌的文本，则翻译模块520可以考虑在面板中包括的所有对话气泡中的文本以及所描绘的其它人物和对象。作为更具体的示例，如果面板描绘特定人物，并且对话气泡中的文本参考特定城市，则与不相关位置相比，在面板中的指示牌上的文本更有可能与该城市内的位置对应。

在包括编辑模块530的实施例中，为用户(例如，作者或者出版商)提供了用于查看和修订包括在封装的数字图形小说中的呈现元数据的工具。在一个这种实施例中，编辑模块530提供使得用户能够选择和查看数字图形小说中的图像以及对应的翻译文本的浏览器。在用户选择图像时，浏览器显示图像以及检测到的文本对象的指示(例如，对话气泡)。在用户选择文本对象时，编辑模块530显示对应文本的翻译并且使得用户能够编辑翻译(例如，通过使用键盘键入校正)。然后相应地编辑呈现元数据。

分配数据存储540是存储封装的数字图形小说的一种或者多种计算机可读介质。在一些实施例中，分配数据存储540位于为数字图形小说分配系统提供功能的服务器场处。在一个这种实施例中，分配系统基于用户的兴趣(例如，如提供为用户简档的一部分)与由呈现元数据识别的图形小说的特征之间的相关性向用户推荐数字图形小说。例如，如果用户对数字图形小说中的一行特别感兴趣，则分配系统540可以从包括一些相同人物的不同的行中推荐数字图形小说。

除了上文的描述之外，可以为用户提供允许用户就本文所描述的系统、程序、或者特征是否以及何时可以使得能够收集用户信息(例如，关于用户的兴趣、社交网络、社交动作或者活动、职业、偏好、当前位置等的信息)做出选择的控制。还可以为用户提供允许用户控制是否将内容或者通信从服务器(例如，图形小说分配系统130)发送至用户的阅读装置180的控制。另外，在存储或者使用特定数据之前，可以按照一种或者多种方式来处理该特定数据，从而使得可以去除个人身份信息。例如，可以处理用户的身份，从而使得无法确定用户的个人身份信息，或者在可以获得位置信息时，可以将用户的地理位置一般化(诸如到城市、邮政编码、或者州县等级)，从而使得无法确定用户的特定位置。因此，用户可以对收集关于用户的什么信息、如何使用该信息、以及向用户提供什么信息进行控制。

在一个实施例中，图形小说分配系统130还提供用于识别侵犯版权的数字图形小说的工具。如果机器学习模型错误地预测数字图形小说包含特定人物，则可能指示实际描绘的人物侵犯了特定人物的版权。例如，如果竞争对手出版商故意创建与特定人物几乎相同的人物，则机器学习模块可能最初将其预测为特定人物(直到经由反馈更新模型位置，并且如果抄袭特别明显，甚至在这时也可能很难区分这两个人物)。在一个实施例中，在中等确定性范围(例如，50％到70％)内的预测被标记为潜在侵权，因为该范围指示存在识别的足够的相似性，但是在预测中存在很大程度的不确定性的足够的差异。然后将标记的人物发送至人类(例如，可能侵犯的版权的所有者的雇员)以供进行检查。在其它实施例中，分配系统130提供用于检测未经授权的翻译的其它工具。例如，未经授权的翻译可以由在未经授权的翻译的文本与正式自动翻译版本的文本之间的相似性识别。

图6图示了阅读器装置180的一个实施例。如图所示，阅读器装置180包括图形小说显示模块610、反馈模块620、以及本地数据存储630。阅读器装置180的其它实施例包括不同的或者附加的部件。另外，这些功能可以按照与本文描述的不同的方式分布在部件之间。例如，在一些实施例中，省略反馈模块620。

显示模块610基于呈现元数据向用户呈现数字图形小说内容，该数字图形小说内容与该呈现元数据由封装模块510一起封装。在各种实施例中，呈现元数据指示面板和对话气泡在页面上的位置和顺序以及这些对话气泡中的文本的翻译。显示模块610按照指示的顺序呈现面板并且用翻译文本替换对话气泡中的文本。在一个这种实施例中，显示模块610初始地显示阅读器装置180的屏幕上的第一面板(如在呈现元数据中指示的)。响应于用户输入(例如，轻击屏幕或者选择“下一个面板”图标)，显示模块610通过呈现元数据确定接着应该显示哪个面板并且将屏幕上的显示过渡到该第二面板。每当用户请求向前移动(例如，通过轻击屏幕或者选择“下一个面板”图标)时，显示模块610检查呈现元数据以确定接着应该显示哪个面板并且相应更新屏幕上的显示。这种用于ASX呈现面板的方法允许每个面板能够全屏呈现，这对于具有小屏幕的阅读器装置180尤其有用。

当显示每个面板时，显示模块610用翻译文本(不同语言的翻译文本，例如，由用户请求的那种语言的翻译文本)替换对话气泡中的原始文本(采用源语言的)。在各种实施例中，显示模块通过识别背景颜色(通常是白色)并且用该背景颜色填充整个对话气泡来“清空”对话气泡。显示模块610然后将在呈现元数据中包括的对话气泡的翻译文本添加至对话气泡。在一个实施例中，显示模块610针对所添加的文本使用默认字体和大小。在另一实施例中，显示模块610使用用户选择的字体(例如，如在偏好屏幕上选择的)并且选择字体大小，使得翻译文本大体上填充对话气泡。在再一实施例中，显示模块610将翻译文本的大小和字体与原始文本匹配。

在一些实施例中，如呈现元数据指示的，显示模块610根据对话气泡的位置和顺序来呈现数字图形小说。在一个这种实施例中，显示模块610按照呈现元数据中指示的顺序来显示每个对话气泡，并且选择平衡文本的可读性与提供足够数量的周围图像以提供场境的缩放级别。显示模块610可以选择所使用的缩放级别或者其可以包括在呈现元数据中。显示模块610响应于用户输入(例如，轻击屏幕或者选择“下一个对话气泡”控制)而从一个对话气泡继续至下一个对话气泡(如由呈现元数据指示的)。在另一实施例中，呈现元数据指示显示模块610在屏幕上初始呈现整个面板(或者页面)，然后ASX放大每个对话气泡。

在再一实施例中，在屏幕上显示完整的面板或者页面，并且仅放大图像的与所选择的对话气泡(基于相继的顺序或者用户选择)对应的区域。最初，显示模块610在屏幕上显示没有进行缩放的整个面板。当读者选择“下一个对话气泡”控制时，放大图像的包括第一个对话气泡(如由呈现元数据指示的)的区域，并且读者可以浏览该气泡中的文本(例如，使用滚动条)。然而，图像的不包括对话气泡的剩余部分仍然未放大。因此，读者可以阅读文本并且获取由面板中的图像的剩余部分提供的场境信息，但不必在一个视图与另一视图之间切换。

在一些实施例中，显示模块610显示非对话气泡文本(例如，包括在指示牌上的文本、声音效果的视觉表情等)的翻译。在一个这种实施例中，呈现元数据指示面板的包括非对话气泡文本的一部分。当用户选择该部分(例如，通过轻击屏幕的这部分)时，结合原始图像显示非对话气泡文本的翻译。例如，翻译文本可能显示在屏幕底部的文本栏中或者显示在覆盖原始图像的弹出式气泡中。

在其它这种实施例中，显示模块610对图像执行图像处理以用翻译文本替换原始的非对话气泡文本。在一个实施例中，显示模块610识别原始的非对话气泡文本的特性，诸如，背景颜色、文本颜色、文本样式、文本大小、文本取向、文本视角(即，相对于页面的平面的取向)等。显示模块610然后按照如上文参照对话气泡描述的相似方式“清空”指示牌，并且添加具有相似属性的翻译文本(例如，使用相同颜色、与原始样式相似的字体、以及按照相同取向)。本领域的技术人员可以认识到可以更改图像以用其翻译替换非对话气泡文本的其它方式。

反馈模块620提供接口，用户利用该接口提供关于数字图形小说的呈现的反馈。在各种实施例中，反馈模块620在显示装置的屏幕上提供用户可以选择来报告呈现的问题的虚拟按钮。例如，如果翻译文本是无意义的、不准确的、不得当的、或者其它方式不合适的，则用户可以按下按钮并且完成描述问题的简短反馈表格(例如，建议更好的翻译)。在一个这种实施例中，本地更新呈现元数据，使得如果用户再次阅读数字图形小说，则呈现用户的改进翻译(假设用户提供了改进翻译)。在另一个这种实施例中，反馈模块620将反馈发送至图形小说分配系统130的管理员进行检查，以确定是否应该在系统范围内更新呈现元数据以包括更好的翻译。在再一实施例中，将反馈提供给图形小说分析系统120，该图形小说分析系统129使用该反馈来更新最初提供了翻译的机器翻译算法。在一些实施例中，反馈模块620对文本的OCR或者自动翻译失败的部分的翻译执行众包。例如，如果图像的区域被预测为包含文本，但是OCR未能识别可识别的字符，则反馈模块620可以高亮所讨论的图像的部分并且提示用户指示是否存在文本，并且如果存在文本，则提供翻译。

本地数据存储630是一种或者多种计算机可读介质，该一种或者多种计算机可读介质存储用于显示数字图形小说、数字图形小说内容、以及呈现元数据的软件。在一个实施例中，用户从在线市场将包括呈现元数据的封装的数字图形小说下载至本地数据存储630。呈现模块610然后从本地数据存储630访问封装的数字图形小说。在另一实施例中，远程地存储封装的数字图形小说(例如，在云服务器处)，并且显示模块610经由网络170访问该封装的数字图形小说。

示例方法

图7图示了提供用于提供数字图形小说的自动翻译的方法的方法700的一个实施例。图7将方法700的步骤归属到联网计算环境100的各种部件。然而，一些或者所有步骤可以由其它实体执行。另外，一些实施例可以并行地执行步骤、按照不同的顺序执行步骤、或者执行不同的步骤。

在图7中示出的实施例中，方法700从训练模块410构建(710)用于预测性地识别数字图形小说的特征的模型开始。如之前描述的，最初在监督学习阶段中构建(710)模型，在监督学习阶段期间，人类操作员识别从语料库110选择的数字图形小说的子集中的特征。下文参照图8更详细地描述了用于构建(710)模型的方法800的一个实施例。

预测模块420将模型应用(720)于数字图形小说内容以预测包含在其中的特征。在一个实施例中，特征包括数字图形小说内的面板和对话气泡的位置和顺序。在其它实施例中，预测模块420识别不同的或者附加的特征，诸如，非对话气泡文本、优选过渡、所描绘的对象、艺术家、作者、所描绘的人物、天气、情绪、情节线、主题、广告等。

验证模块430基于人类核查来验证(730)由模型做出的预测。在一个实施例中，验证(730)作为模型的初始训练的一部分而执行。在另一实施例中，验证反馈是来自读者的众包，并且基于接收到的反馈持续或者周期性地更新模型。例如，验证模块430可以在一个月的周期内聚集众包反馈，然后在该周期结束时产生更新的模型。下文参照图9更详细地描述了用于验证(730)和更新模型的方法900的一个实施例。

封装模块510创建(740)封装的数字图形小说，该封装的数字图形小说包括图形小说内容和呈现元数据。呈现元数据是由封装模块510基于从验证模块430接收到的验证的预测(或者直接从预测模块420接收到的预测)生成的，并且包括与各种特征(例如，对话气泡)相关联的未翻译文本。在一个实施例中，呈现元数据指示如由模板预测的每个面板中的对话气泡的位置和顺序以及如由OCR算法确定的在每个对话气泡中包括的文本。如先前描述的，在其它实施例中，呈现元数据基于预测来提供特定呈现指令，或者在显示封装的数字图形小说时使用由阅读器装置180进一步进行处理的特征的位置和本质的呈现和指示符的组合。

翻译模块520翻译(750)对应的呈现元数据为其包括文本的特征或者特征集的文本。如先前描述的，包括文本的特征(例如，对话气泡)的位置和顺序以及这些特征与其它预测特征(例如，包括在与特定人物相同的面板中)的接近度提供了场境信息，翻译模块520使用该场境信息来辅助翻译。在一个实施例中，翻译模块520识别封装的数字图形小说的一部分(例如，面板、页面等)中的所有对话气泡并且按照由对话气泡的呈现元数据指示的顺序将包括在每个对话气泡的元数据中的机器可读文本编译成单条文本。翻译模块520然后作为整体翻译该单条文本。翻译模块520然后将文本分解成与每个对话气泡对应的片段并且更新与对话气泡对应的呈现元数据，以利用翻译文本替代或者补充文本。例如，翻译文本可以随附在原始文本之后、由指示其是翻译以及文本所翻译的语言的标记围绕。

根据由呈现元数据指示的方式将封装的数字图形小说提供给阅读器装置180进行呈现(760)。在一个实施例中，呈现元数据指示面板和对话气泡的位置和顺序以及对话气泡的翻译文本(如由翻译模块520生成的)。呈现数字图形小说的确切方式由阅读器装置180本地确定(例如，基于用户观看偏好)。因此，不同的阅读器装置180可以按照不同方式呈现相同的数字图形小说。在另一实施例中，呈现元数据包括描述应该呈现数字图形小说的方式的指令。因此，阅读器装置180呈现如由呈现元数据指示的数字图形小说。

图8图示了用于构建预测模型的方法800的一个实施例。图8将方法800的步骤归属到训练模块410。然而，一些或者所有步骤可以由其它实体执行。另外，一些实施例可以并行地执行步骤、按照不同的顺序执行步骤、或者执行不同的步骤。

在图8中示出的实施例中，方法800从训练模块410识别(810)来自语料库110的数字图形小说的子集以用作训练集开始。如上所述，参照图4，可以随机地选择子集或者可以选择具有期望的特性混合的子集(例如，不同出版商和作者的范围、人物的范围等)。

再次参照图8，训练模块410从训练集中的数字图形小说提取(820)(例如，与单独的页面对应的)原始图像。在一个实施例中，为准备进行训练对原始图像进行处理。例如，可以重新调整原始图像的大小以具有统一尺寸，以及更改亮度和对比度设置以在训练集中提供一致性。

不论所执行的任何预处理如何，训练模块410发起(830)监督训练阶段以识别原始图像的特征。如上所述，参照图4，在监督训练阶段，人类操作员识别已处理的图像(或者如果未执行任何处理，原始图像)的特征。因此，在监督训练阶段结束时，训练模块410具有图像集，该图像集中的每一个图像与指示图像包括的特征的对应元数据配对。

基于在监督训练阶段期间生成的训练集和对应元数据，训练模块410创建用于预测性地识别数字图形小说的特征的模型(840)。在一个实施例中，模型是预测性地识别面板的位置和顺序的神经网络和所描绘的人物的身份。因为从训练集构建模型，所以当提供训练集中的任何(或者至少大多数)数字图形小说时，该模型准确地识别面板位置、面板顺序、和所描绘的人物。因此，当将相同的神经网络应用于先前尚未应用神经网络的数字图形小说时，成功地识别面板和所描绘的人物的可能性相当地高。成功地创建(840)模型后，训练模块410将该模型存储(850)在预测模型存储440中。

图9图示了基于反馈来验证预测的方法900的一个实施例。图9将方法900的步骤归属到预测模块420和验证模块430。然而，一些或者所有步骤可以由其它实体执行。另外，一些实施例可以并行地执行步骤、按照不同的顺序执行步骤、或者执行不同的步骤。

在图9中示出的实施例中，方法900从预测模块420接收(910)到要分析的图像开始。预测模块420向图像(例如，使用图8的方法生成的图像)应用(920)预测模型以产生图像特征的一个或多个预测。为了清楚起见，将参照模型为面板在图像中的位置、面板顺序、以及每个面板中描绘的人物生成预测的实施例描述图9的剩余部分。鉴于说明书的其余部分，本领域的技术人员要认识到，模型可以生成关于许多其它特征和特征组合的预测。

验证模块430获取(930)指示由预测模块做出的预测是否正确的反馈。如之前所描述的，反馈可以来自负责在开发期间训练模型的操作者或者来自在投入使用之后的用户众包。在一个实施例中，反馈是二进制的，指示预测正确或者不正确。在其它实施例中，反馈还包括对预测不正确的情况的校正。例如，如果帧的预测位置不正确，则反馈可以指示帧的正确位置。相似地，反馈可以提供帧的正确顺序。进一步地，如果模型错误地识别人物，则反馈可以提供正确的人物识别。

无论获取(930)的反馈的特定性质如何，验证模块430使用该特定性质来更新(940)模型。如上文参照图4描述的，在一个实施例中，使用采用梯度下降方法的反向传播算法来更新模型。因此，随着将更多数量的反馈纳入考虑，通过模型生成的预测的准确性随着时间的变化而提高。

图10图示了使用从识别的特征生成的场境信息来辅助翻译的方法1000的一个实施例。图10将方法1000的步骤归属到翻译模块520。然后，一些或者所有步骤可以由其它实体执行。例如，在一些实施例中，翻译由阅读器装置180执行。另外，一些实施例可以并行地执行步骤、按照不同的顺序执行步骤、或者执行不同的步骤。

在图10中示出的实施例中，方法1000从翻译模块520接收(1010)到数字图形小说内容开始。翻译模块520然后识别(1020)数字图形小说内容的特征。识别的特征中的至少一个特征包括文本。在一个实施例中，翻译模块520基于封装有数字图形小说内容的呈现元数据来识别(1020)若干个对话气泡和那些对话气泡的预期阅读顺序。替选地，机器学习模型的应用(如之前描述的)以翻译过程的一部分的形式出现。在再一实施例中，如之前描述的，翻译模块410识别(1020)诸如指示牌的包括文本的非对话气泡特征。

翻译模块520基于识别的特征为包括文本的一个或者多个特征生成(1030)场境信息。在一个实施例中，如在呈现元数据中指示的，包括文本的特征是对话气泡，并且那些对话气泡的场境信息是其预期阅读顺序。在其它实施例中，场境信息包括如在对话气泡附近的数字图形小说的面板中所描绘的在呈现元数据中识别的人物和对象。在一个这种实施例中，仅将作为对话气泡包括在相同面板中的特征视作提供该对话气泡的场境信息。在其它这种实施例中，在包括该对话气泡的面板的阈值距离内的其它面板的特征有助于场境信息(例如，如由所确定的面板阅读顺序指示的，在包括对话气泡的面板之前或者之后的三个面板内)。在一个实施例中，给定特征作为对话气泡的场境信息的影响由该特征与对话气泡的接近度进行加权，其中，与对话气泡距离更近的特征被赋予比与对话气泡距离更远的特征更大的权重。

在图10中示出的实施例中，方法1000以翻译模块520翻译(1040)在一个或者多个特征中包括的文本结束。在一个实施例中，翻译模块520从包括文本的那些特征提取文本并且应用机器翻译算法，这需要通过场境信息辅助。例如，翻译模块520可以利用对话气泡的预期阅读顺序来改进翻译。如之前描述的，在一个对话气泡中使用的单词和短语可以提供关于在该对话气泡之前或者之后的对话气泡的正确翻译的线索。作为另一示例，如果对话气泡作为特定人物包括在同一面板内，则可以应用专门定制为翻译涉及该人物的对话的机器翻译算法。本领域的一个技术人员可以认识到可用于辅助文本翻译的其它形式的场境信息。

附加注意事项

以上描述的一些部分根据算法过程或者操作描述了实施例。在数据处理领域中的这些技术人员通常使用这些算法描述和表示以最有效地将他们工作的实质传送给本领域的其它技术人员。当功能性地、计算地、或者逻辑性地描述这些操作时，这些操作可以理解为由包括指令的计算机程序实施，该指令用于由处理器或者等效电子电路、微代码等执行。此外，也已经证明了有时在不损失共性的情况下，把功能操作的这些布置称为模块是方便的。所描述的操作及其相关联的模块可以体现为软件、固件、硬件、或者它们的任何组合。

如本文所使用的，对“一个实施例”或者“实施例”的任何提及是指结合该实施例描述的特定元件、特征、结构或者特性包括在至少一个实施例中。因此，在本说明的各处中出现的短语“在一个实施例中”不一定全部指的是同一实施例。

可以通过使用表达“耦合”和“连接”以及它们的派生词来描述一些实施例。应该理解，这些术语不旨在作为彼此的同义词。例如，可以通过使用术语“连接”来描述一些实施例，以指示两个或者更多个元件彼此直接物理接触或者电气接触。在另一示例中，可以通过使用术语“耦合”来描述一些实施例，以指示两个或者更多个元件直接物理接触或者电气接触。然而，术语“耦合”也可以是指两个或者更多个元件彼此不直接接触，但仍然彼此协作或者交互。实施例不限制于该场境中。

如本文所使用的，术语“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(including)”、“具有(has)”、“具有(having)”或者它们的任何其它变型旨在涵盖非排它性包括。例如，包括元件列表的过程、方法、制品、或者设备不一定仅限于这些元件，而是可以包括这种过程、方法、制品、或者设备未明确列出的或者固有的其它元件。进一步地，除非明确规定，否则“或者”是指包括包容性的“或者”而不是排斥性的“或者”。例如，条件A或者B被以下中的任何一个满足：A为真(或者存在)且B为假(或者不存在)、A为假(或者不存在)且B为真(或者存在)、以及A和B均为真(或者存在)。

另外，使用“一(a/an)”来描述本文的实施例的元件和部件。这仅仅是为了方便起见，并且给出了本公开的一般意义。本描述应该被理解为包括一个或者至少一个，并且单数还包括复数，除非从上下文明确得知其指的是单数形式。

在阅读本公开之后，本领域的技术人员要了解用于提供索引电子书注释的系统和过程的又一附加可替代结构和功能设计。因此，虽然已经说明并且描述了特定实施例和应用，但是应该理解，所描述的主题不限于本文所公开的精确构造和部件，并且应该理解，在本文所公开的方法和设备的布置、操作、和细节中可以做出对本领域的技术人员显而易见的各种修改、改变和变型。本发明的范围仅受以下权利要求书的限制。

Claims

1.一种提供数字图形小说的翻译的计算机实现的方法，所述方法包括：

接收数字图形小说内容；

识别所述图形小说内容的特征，所述特征包括包含文本的至少一个特征；

基于所识别的特征，生成与包括文本的所述至少一个特征对应的场境信息；以及

翻译在所述至少一个特征中包括的所述文本以产生翻译文本，所述翻译由所述场境信息辅助。

2.根据权利要求1所述的计算机实现的方法，其中，包括文本的所述至少一个特征包括多个对话气泡，并且所述场境信息包括所述多个对话气泡的预期阅读顺序。

3.根据权利要求2所述的计算机实现的方法，其中，所述翻译包括：

从所述多个对话气泡提取文本；

基于所述预期阅读顺序将所提取的文本编译成单条文本；

翻译所述单条文本。

4.根据权利要求1所述的计算机实现的方法，其中，所述场境信息包括所述图形小说内容中描绘的人物或者对象，并且所述翻译包括应用针对所述人物或者对象定制的翻译算法。

5.根据权利要求1所述的计算机实现的方法，其中，识别所述图形小说内容的特征包括将机器学习模型应用于所述图形小说内容，应用所述机器学习模型包括：

从所述数字图形小说内容提取图像；

产生表示所述图像的数值映射；

将所述数值映射作为输入提供给所述机器学习模型的第一人工神经网络，所述第一人工神经网络输出在所述图像内有可能与感兴趣的特征对应的多个候选区域；以及

将所述候选区域作为输入提供给所述机器学习模型的第二人工神经网络，所述第二人工神经网络输出一个或者多个识别的特征。

6.根据权利要求1所述的计算机实现的方法，所述方法进一步包括：

创建封装的数字图形小说，所述封装的数字图形小说包括所述数字图形小说内容和呈现元数据，所述呈现元数据包括所述翻译文本和所述翻译文本所对应的所述至少一个特征的指示；以及

将所述封装的数字图形小说提供给阅读器装置，以采用根据所述呈现元数据的方式进行呈现。

7.根据权利要求6所述的计算机实现的方法，其中，呈现所述图形小说内容的所述方式包括：在所述至少一个特征内显示所述翻译文本代替最初包括的所述文本。

8.一种用于提供数字图形小说的翻译的电子装置，所述电子装置包括：

存储可执行计算机程序代码的非暂时性计算机可读存储介质，所述可执行程序代码包括指令，所述指令用于：

接收数字图形小说内容；

翻译在所述至少一个特征中包括的所述文本以产生翻译文本，所述翻译由所述场境信息辅助；以及

用于执行所述计算机程序代码的一个或者多个处理器。

9.根据权利要求8所述的电子装置，其中，包括文本的所述至少一个特征包括多个对话气泡，并且所述场境信息包括所述多个对话气泡的预期阅读顺序。

10.根据权利要求9所述的电子装置，其中，所述翻译包括：

从所述多个对话气泡提取文本；

基于所述预期阅读顺序将所提取的文本编译成单条文本；

翻译所述单条文本。

11.根据权利要求8所述的电子装置，其中，所述场境信息包括所述图形小说内容中描绘的人物或者对象，并且所述翻译包括应用针对所述人物或者对象定制的翻译算法。

12.根据权利要求8所述的电子装置，其中，识别所述图形小说内容的特征包括将机器学习模型应用于所述图形小说内容，应用所述机器学习模型包括：

从所述数字图形小说内容提取图像；

产生表示所述图像的数值映射；

13.根据权利要求8所述的电子装置，其中，所述可执行计算机程序代码进一步包括指令，所述指令用于：

14.一种用于提供数字图形小说的翻译的存储可执行计算机程序代码的非暂时性计算机可读存储介质，所述计算机程序代码包括指令，所述指令用于：

接收数字图形小说内容；

基于所识别的特征来生成与包括文本的所述至少一个特征对应的场境信息；以及

15.根据权利要求14所述的非暂时性计算机可读存储介质，其中，包括文本的所述至少一个特征包括多个对话气泡，并且所述场境信息包括所述多个对话气泡的预期阅读顺序。

16.根据权利要求15所述的非暂时性计算机可读存储介质，其中，所述翻译包括：

从所述多个对话气泡提取文本；

基于所述预期阅读顺序将所提取的文本编译成单条文本；

翻译所述单条文本。

17.根据权利要求16所述的非暂时性计算机可读存储介质，其中，所述场境信息包括所述图形小说内容中描绘的人物或者对象，并且所述翻译包括应用针对所述人物或者对象定制的翻译算法。

18.根据权利要求14所述的非暂时性计算机可读存储介质，其中，识别所述图形小说内容的特征包括将机器学习模型应用于所述图形小说内容，应用所述机器学习模型包括：

从所述数字图形小说内容提取图像；

产生表示所述图像的数值映射；

19.根据权利要求14所述的非暂时性计算机可读存储介质，其中，所述可执行计算机程序代码进一步包括指令，所述指令用于：

20.根据权利要求19所述的非暂时性计算机可读存储介质，其中，呈现所述图形小说内容的所述方式包括：在所述至少一个特征内显示所述翻译文本代替最初包括的所述文本。