CN109155076B - 自动识别和显示图形小说中的感兴趣对象 - Google Patents
自动识别和显示图形小说中的感兴趣对象 Download PDFInfo
- Publication number
- CN109155076B CN109155076B CN201680085828.9A CN201680085828A CN109155076B CN 109155076 B CN109155076 B CN 109155076B CN 201680085828 A CN201680085828 A CN 201680085828A CN 109155076 B CN109155076 B CN 109155076B
- Authority
- CN
- China
- Prior art keywords
- interest
- graphic novel
- novel content
- digital graphic
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19167—Active pattern learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
识别数字图形小说内容中的感兴趣对象(例如,对话泡泡)的位置和呈现顺序,使得能够将感兴趣对象的扩展版本呈现给读者。具体地,接收数字图形小说内容,并且通过将机器学习模型应用于内容来识别内容中的感兴趣区域(例如,对话泡泡的矩形文本区域)的位置。基于所识别的感兴趣区域的位置来识别数字图形小说内容中的感兴趣对象的位置和呈现顺序。将包括感兴趣对象的位置和呈现顺序的数字图形小说内容和呈现元数据被提供给阅读设备,使得根据呈现元数据向用户呈现感兴趣对象的扩展版本。
Description
技术领域
这里描述的主题一般涉及数字图形小说,并且尤其涉及在数字图形小说内容中提供感兴趣对象的导航。
背景技术
电子书(“电子书”)以各种格式,诸如国际数字出版论坛的电子出版物(EPUB)标准和便携式文档格式(PDF)出现。能够使用各种设备,诸如专用阅读设备、通用移动设备、平板计算机、膝上型计算机和台式计算机,来阅读电子书。每个设备包括向用户显示电子书的阅读软件(“电子阅读器”)。图形小说是传统上通过印刷媒体传递的视觉叙事形式。但是,出版商越来越多地使用电子阅读器为数字消费提供此内容,尤其是在手机和平板计算机上。主要考虑到基于文本的电子书来开发通过典型的电子阅读器提供的导航工具。因此,当被用于阅读数字图形小说时,这些电子阅读器可能无法提供令人满意的用户体验。
由于对便携式电子阅读器的屏幕尺寸和分辨率的限制,如果以传统方式为用户呈现小说,则用户经常具有导航图形小说的不令人满意的体验。例如,可能需要电子书阅读器的用户翻阅在电子书阅读器的相对小的屏幕上显示的图形小说的各个页面。在这种情况下,对于用户来说在不必重复地放大和缩小感兴趣的对象的情况下阅读对话泡泡中的文本或更详细地检查其他感兴趣的对象是困难和耗时的。
发明内容
通过方法、电子设备和非暂时性计算机可读存储介质解决上述和其他问题。在一个实施例中,该方法包括接收数字图形小说内容并且通过将机器学习模型应用于数字图形小说内容识别数字图形小说内容的多个感兴趣区域的位置。该方法还包括基于所述多个感兴趣区域的所识别的位置识别数字图形小说内容中的多个感兴趣对象的位置和呈现顺序,以及创建包括数字图形小说内容和呈现元数据的打包的数字图形小说。呈现元数据指示所述多个感兴趣对象的所识别的位置和呈现顺序。该方法还包括将打包的数字图形小说提供给阅读设备,用于根据呈现元数据呈现所述多个感兴趣对象的扩展版本。
在一个实施例中,电子设备包括存储可执行的计算机程序代码的非暂时性计算机可读存储介质和用于执行代码的一个或多个处理器。可执行计算机程序代码包括用于接收数字图形小说内容并且通过将机器学习模型应用于数字图形小说内容来识别数字图形小说内容的多个感兴趣区域的位置的指令。该指令还包括基于所述多个感兴趣区域的所识别的位置识别数字图形小说内容中的多个感兴趣对象的位置和呈现顺序,并且创建包括数字图形小说内容和呈现元数据的打包的数字图形小说。呈现元数据指示所述多个感兴趣对象的所识别的位置和呈现顺序。该指令还包括将打包的数字图形小说提供给阅读设备,用于根据呈现元数据呈现所述多个感兴趣对象的扩展版本。
在一个实施例中,非暂时性计算机可读存储介质存储可执行计算机程序代码,该可执行计算机程序代码包括用于接收数字图形小说内容并且通过将机器学习模型应用于数字图形小说内容来识别数字图形小说内容的多个感兴趣区域的位置的指令。该指令还包括基于多个感兴趣区域的所识别的位置识别数字图形小说内容中的多个感兴趣对象的位置和呈现顺序,并且创建包括数字图形小说内容和呈现元数据的打包的数字图形小说。呈现元数据指示多个感兴趣对象的所识别的位置和呈现顺序。该指令还包括将打包的数字图形小说提供给阅读设备,用于根据呈现元数据呈现多个感兴趣对象的扩展版本。
附图说明
图1图示适用于在数字图形小说内容中提供感兴趣对象的导航的联网计算环境的一个实施例。
图2是图示根据一个实施例的用于在图1的联网计算环境中使用的计算机的示例的高级框图。
图3是图示图1中所示的图形小说语料库的一个实施例的高级框图。
图4是图示图1中所示的图形小说分析系统的一个实施例的高级框图。
图5是图示图1中所示的图形小说分配系统的一个实施例的高级框图。
图6是图示图1中所示的阅读设备的一个实施例的高级框图。
图7示出根据一个实施例的具有识别的对话泡泡位置的图形小说的示例图像。
图8示出根据一个实施例的基于具有扩展的对话泡泡的图7的示例图像的示例图像。
图9是图示根据一个实施例的在数字图形小说内容中提供感兴趣对象的导航的方法的流程图。
图10是图示根据一个实施例的构建用于在图9的方法中使用的机器学习模型的方法的流程图。
具体实施方式
出版商正在以数字方式使越来越多的图形小说内容可用。追溯到19世纪还存在巨大的图形小说、漫画书和连环漫画的印刷语料库。一些历史学家甚至已经认为诸如古罗马的Trajan's Column和Bayeux Tapestry的古代文明所产生的艺术品基本上是相同的艺术形式。为了方便起见,术语图形小说在本文中被使用以指代包括具有叙事流的一系列有序图像的任何此类内容。
阅读图形小说不同于阅读基于文本的书籍。不是主要通过以场所特定的阅读顺序(例如,说英语国家的从左到右和从上到下)阅读的文本来讲述故事,而是通过有序面板和面板内的文本的组合来传达图形小说的叙述。文本包含在对话泡泡中和/或直接写在面板的背景上。在某些情况下,对话泡泡与多个面板重叠。此外,在某些情况下(例如,许多日本图形小说),从右到左阅读文本。因此,在电子设备上有效地显示图形小说呈现特定的挑战:屏幕尺寸变化、为基于文本的书籍开发的导航技术没有反映用户如何阅读图形小说、其中面板和对话泡泡阅读的顺序可能不是从左到右或者从上到下、给定图像相对于其他图像的场境可能是重要的等等。
系统概述
附图(图)和以下描述仅通过说明描述某些实施例。本领域的技术人员将从以下描述中容易地认识到,在不脱离本文所述的原理的情况下可以采用本文所图示的结构和方法的替代实施例。现在将参考若干实施例,其示例在附图中被图示。注意,只要可行,可以在附图中使用类似或相似的附图标记,并且可以指示类似或相似的功能。
图1图示适用于在数字图形小说内容中提供感兴趣对象的导航的联网计算环境100的一个实施例。如所示的,环境100包括图形小说语料库110、图形小说分析系统120、图形小说分发系统130和阅读设备180,它们都经由网络170连接。联网计算环境100的其他实施例包括不同的或其他组件。另外,功能可以以与本文描述的方式不同的方式分布在组件之间。
网络170使联网计算环境100的组件能够彼此通信。在一个实施例中,网络170使用标准通信技术和/或协议,并且能够包括互联网。因此,网络170能够包括使用诸如以太网、802.11、全球微波接入互操作性(WiMAX)、2G/3G/4G移动通信协议、数字用户线(DSL)、异步传输模式(ATM)、InfiniBand、PCI Express高级交换等技术的链路。类似地,网络170上使用的网络协议能够包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。能够使用包括二进制形式的图像数据的技术和/或格式(例如,便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)等等的技术和/或格式表示在网络110上交换的数据。此外,能够使用传统加密技术加密,诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟私人网络(VPN)、互联网协议安全(IPsec)等等来加密所有的或者一些链路。在另一实施例中,代替在上面描述的那些或者除了在上面描述的那些之外,网络170上的实体能够使用定制和/或专用数据通信技术。
图形小说语料库110存储图形小说的数字表示。通常,数字图形小说由连续的数字图像系列表示,其中每个图像包含图形小说的页面或两个相邻页面的展开。图形小说的叙述通过页面上的一系列有序面板传达,每个面板包含叙述中的场景的图形描绘,其包括人物、景观风景、情绪等的描绘。面板还经常包含用于传达叙述的文本内容,包括可以是包含文本的气球形状的对象的对话泡泡,以被理解为表示图形小说中的一个或多个字符的语音或思想。在下面参考图3详细地描述图形小说语料库110。
图形小说分析系统120接收图形小说并且识别图形小说中感兴趣对象的位置和呈现顺序。对象的位置(或图像中的任何其他特征)在本文中定义为对象的外边界上的点相对于包含对象的图形小说的图像的坐标。因此,对象的位置环绕对象相对于包含对象的图像的地理位置,以及以其外边界为特征的对象的形状。基于由图形小说分析系统120确定的位置和呈现顺序,稍后将感兴趣对象的扩展版本呈现给阅读设备180。感兴趣的对象是在向图形小说的读者传达图形小说的叙述中起重要作用的对象。在整个说明书的其余部分中引用的一个特定示例中,感兴趣的对象是对话泡泡。然而,应理解,感兴趣的对象的其他示例可替选地和/或另外包括描绘的字符、背景文本(例如,描绘声音效果的文本、风景的描述等)、描绘的文章(例如,门、武器、等)等。在一个实施例中,通过识别包含感兴趣对象的区别特性的感兴趣区域来确定感兴趣对象的位置,并且在所识别的感兴趣区域周围应用各种启发法(heuristics)以确定感兴趣对象的位置。
图形小说分析系统120生成打包的数字图形小说,其包括图形小说的内容和指示应如何在阅读设备180上呈现图形小说的内容的相应的呈现元数据。在一个实施例中,呈现元数据包括图形小说的感兴趣对象的位置和呈现顺序使得阅读器设备180能够在屏幕上顺序呈现图形小说的各个图像,并且对于给定图像,根据被确定的呈现元数据中的呈现顺序地显示所识别的感兴趣对象的扩展版本。例如,阅读设备180可以针对一系列顺序排序的对话泡泡转变成放大和缩小。图形小说分析系统120将打包的数字图形小说提供给图形小说分发系统130,用于分发给一个或多个阅读设备180。下面参考图4详细地描述图形小说分析系统120。
图形小说分发系统130存储从图形小说分析系统120接收的打包的图形小说,并且响应于接收对于图形小说的请求将打包的图形小说分发给阅读设备180。下面参考图5详细地描述图形小说分发系统130。
阅读设备180是能够向用户呈现数字图形小说的计算设备,诸如台式PC、膝上型计算机、智能电话、平板计算机、专用阅读设备等。尽管仅示出了三个阅读设备180,但是实际上有许多(例如,数百万个)阅读设备180,其能够使用网络170与环境100的其他组件通信。阅读设备180通过阅读器设备180的电子屏幕向用户呈现数字图形小说。阅读器设备180的电子屏幕固有地具有由设备的硬件配置确定的屏幕尺寸,以及指示电子屏幕的最大像素数或显示单元的屏幕分辨率。
阅读设备180从图形小说分发系统130接收打包的图形小说,并且根据相应的呈现元数据将图形小说呈现给阅读设备180的用户。具体地,对于图形小说的给定图像,阅读设备180能够呈现图像并且还基于呈现元数据顺序地呈现感兴趣对象的扩展版本。例如,可以在阅读设备180上呈现图形小说的页面,并且响应于用户输入信号,可以向设备180的用户显示由呈现元数据识别的下一对话泡泡。下面参考图6详细地描述示例性阅读设备180。
图1中所示的环境100允许感兴趣对象的扩展版本被顺序地显示在图形小说中,使得阅读设备180的用户可以以更方便的方式导航图形小说。具体地,其允许阅读设备180的用户在无需手动放大和缩小图形小说的图像的情况下完全导航图形小说以检查在传达图形小说的叙述中的重要的感兴趣的对象。
图2是图示适用于联网计算环境100的计算机200的一个实施例的高级框图。图示耦合到芯片集204的至少一个处理器202。芯片集204包括存储器控制中枢220和输入/输出(I/O)控制中枢222。存储器206和图形适配器212被耦合到存储器控制中枢220,并且显示设备218被耦合到图形适配器212。存储设备208、键盘210、指针设备214和网络适配器216被耦合到I/O控制中枢222。计算机200的其他实施例具有不同的架构。例如,在一些实施例中,存储器206直接耦合到处理器202。
存储设备208包括一个或多个非暂时性计算机可读存储介质,诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器206保存由处理器202使用的指令和数据。指针设备214与键盘210结合使用以将数据输入计算机系统200。图形适配器212在显示设备218上显示图像和其他信息。在一些实施例中,显示设备218包括用于接收用户输入和选择的触摸屏功能。网络适配器216将计算机系统200耦合到网络110。计算机200的一些实施例具有与图2中所示的组件不同或附加的组件。例如,图形小说分析系统120能够由一起操作的多个计算机200形成,以提供这里描述的功能。作为另一示例,客户端设备180可以是智能手机并且包括提供屏幕上键盘210和指针设备214功能的触摸屏。
计算机200适合于执行用于提供本文描述的功能的计算机程序模块。如这里所使用的,术语“模块”指的是用于提供指定功能的计算机程序指令或其他逻辑。因此,模块能够以硬件、固件或软件或其组合的形式来实现。在一个实施例中,由可执行计算机程序指令形成的程序模块存储在存储设备208上,加载到存储器206中,并由处理器202执行。
示例系统
图3图示图形小说语料库110的一个实施例。如所示,图形小说语料库110包括图形小说内容310和图形小说元数据320。图形小说语料库110的其他实施例包括不同或附加的组件。例如,尽管图形小说内容310和图形小说元数据320被示为不同实体,但是单个数据存储可以被用于内容和元数据两者。
图形小说内容310包括语料库110中的图形小说页面的数字图像,并且存储在一个或多个非暂时性计算机可读存储介质上。如前面所讨论的,图形小说的叙述通过图形小说的页面上的一系列有序面板被传达,每个面板包含叙述中场景的图形描绘。在各种实施例中,数字图像由出版商和作者预先提供,通过扫描现有的印刷图形小说创建,或使用这些技术的组合编译。图形小说内容310中的数字图像具有由数字图像的源确定的固有分辨率。例如,扫描图像的分辨率可能受到扫描仪的光学分辨率的限制,或者出版商提供的图像的分辨率可能限于出版商可用的分辨率。分辨率可以通过各种单位来测量,包括图像的高度和宽度上的像素数、每英寸像素数(PPI)等。
图形小说内容310中的数字图像可以以任何适当的格式,例如EPUB或PDF存储。例如,图形小说内容310可以包括完整图形小说的PDF文档,其中PDF的每个页面包括图形小说的页面的图像。可替选地,PDF的每个页面可以包括图形小说的两页展开的图像。作为另一示例,图形小说内容310可以包括图形小说的固定布局EPUB文件。本领域的技术人员将理解其中能够存储图形小说内容310的合适的其他格式。
图形小说元数据320包括关于语料库110中的图形小说的已知元数据,并且包含诸如在语料库110中的图形小说的标题、出版日期、作者、出版商、系列、主要人物及他们在其他图形小说中的历史等信息。图形小说元数据320可以由图形小说的出版商或作者提供,和/或由扫描印刷图形小说的个人或实体提供(例如,通过将其键入电子形式作为扫描过程的一部分)。语料库110中的一些图形小说可以使他们的数字图像存储在图形小说内容310中,但是可能缺少一些或所有相关联的图形小说元数据。
图形小说元数据320附加地包含关于语料库110中的图形小说的面板信息。面板信息指示图形小说的数字图像中的面板的位置和预期阅读顺序,并且可以通过将机器学习模型应用于图形小说的内容来确定,或者可以由人类操作者手动确定。作为示例,对于图形小说中的每个识别的面板,面板信息可以包含指示面板的位置的面板边界上的所有像素的行和列坐标,以及面板的预期阅读顺序。面板信息还指示面板是否跨越图形小说中的两个相邻页面的展开。在一个实施例中,机器学习模型通过分析面板的外边界是否跨越两个相邻页面来确定这样的面板。
图4图示图形小说分析系统120的一个实施例。如所示的,图形小说分析系统120包括训练数据管理模块410、训练模块414、对象识别模块418、排序模块422、打包模块426、验证模块430、训练数据存储450、预测模型存储454和对象元数据458。图形小说分析系统120的其他实施例包括不同的或附加的组件。另外,功能可以以与本文描述的方式不同的方式分布在组件当中。例如,图形小说分析系统120可能不包括预测模型存储454,而是将预测模型存储在图形小说语料库110中。
训练数据管理模块410管理存储在训练数据存储450中的训练数据。训练数据存储450包括来自图形小说或其他图像源的数字图像集合,其每个都被标记有指示与感兴趣的对象相关联的感兴趣区域的元数据。具体地,感兴趣区域识别代表感兴趣对象的区域,并且感兴趣区域可以包括在关联对象内,可以包含对象,或者可以与对象重叠。因此,感兴趣区域的位置近似于相应感兴趣对象的位置。在各种实施例中,感兴趣区域是包含文本的矩形文本区域,其代表图形小说中的对话泡泡。在其他实施例中,兴趣区域是包含图形小说中的主要人物或其他重要感兴趣对象的区域。在一个实施例中,训练数据管理模块410通过选择图形小说语料库110中的图形小说集合并且标记所选小说中的兴趣区域来生成训练数据存储450。训练数据管理模块410还可以标记除了图形小说之外的图像源中的兴趣区域(例如,文本区域)(例如,包含诸如街道号、标志等文本的任何图像)。在另一实施例中,训练数据管理模块410通过允许参与用户从语料库110中选择图形小说并标记所选小说中的兴趣区域将构建过程众包到参与用户。
训练模块414从训练数据存储450中的标记数字图像构建机器学习模型。机器学习模型能够接收未标记图像并且识别接近图像中的感兴趣的位置的图像中感兴趣区域的位置。例如,机器学习模型可以接收包含一个或多个对话泡泡的图形小说的未标记数字页面,并输出每个对话泡泡内围绕文本的矩形区域的位置。作为另一示例,机器学习模型可以接收包含小说的主要人物的一个或多个描绘的图形小说的未标记图像,并输出包含人物的各种描绘的矩形区域的位置。感兴趣区域的位置可以由所识别区域的边界上的像素的坐标来表示。
为了构建机器学习模型,训练模块414从训练数据存储450中的标记图像中提取兴趣区域,并且学习嵌入在标记区域中的感兴趣对象的显著特性。当应用于图形小说的未标记数字图像时,机器学习模型能够识别并查明包含感兴趣对象的学习特性的未标记图像中的感兴趣区域的位置。在一个实施例中,机器学习模型是单层或多层感知器形式的前馈神经网络(NN)、人工神经网络(ANN)、深度神经网络(DNN)、卷积神经网络(CNN)等,其接收作为表示图形小说的图像的数字地图的输入。在这样的实施例中,训练模块414确定前馈神经网络的每层中的节点的数量以及相邻层中的节点之间的连接,并且将标记的感兴趣区域馈送到NN,使得能够学习各个连接的最佳权重。在一个实例中,反向传播算法可以被用于确定NN的最佳权重集。
由训练模块414执行的功能不限于图形小说分析系统120,并且还可以由其他组件执行。例如,阅读设备180可以被配置为执行这些功能。训练模块414将机器学习的模型提供给对象识别模块418,并且还将它们存储在预测模型存储454中。
对象识别模块418从图形小说语料库110接收图形小说,并基于图像中的所识别的兴趣区域(例如,对话泡泡的区域文本)确定图形小说的数字图像中的感兴趣对象(例如,对话泡泡)的位置。对象识别模块418首先通过将预测模型存储454中的机器学习模型应用于图形小说的数字图像来确定图形小说中的感兴趣区域的位置。然而,理解,在其他实施例中,人类定义的规则也能够被用于确定图形小说中的感兴趣区域的位置。然后,对象识别模块418通过分析指示图形小说中围绕感兴趣区域的图像部分中的感兴趣对象的边界的区别来确定感兴趣对象的位置。在一个实施例中,使用围绕感兴趣区域的图像部分中的显著颜色梯度的指示以确定感兴趣对象的边界。然而,理解,在替代实施例中,能够使用其他启发法或算法以基于所识别的兴趣区域来识别感兴趣的对象的边界。
在对话泡泡对象的情况下,对象识别模块418通过将由训练模块414构建的机器学习模型应用于图形小说的数字图像来确定对话泡泡内的矩形文本区域的位置。对于对应图像中的每个识别的文本区域,对象识别模块418分析文本区域,确定文本的背景颜色,并确定围绕文本区域的与背景颜色具有显著颜色对比度的点集。由显著颜色梯度定义的边界表示对话泡泡对象的位置。例如,许多对话泡泡包括带有黑色文本的白色背景和勾勒对话泡泡边界的黑线。
在一个实例中,通过将文本的背景颜色和围绕文本区域的点集的颜色映射到三维RGB(红-绿-蓝)空间,并且从背景颜色分析RGB空间中具有最大矢量距离的点来确定具有显著颜色对比度的点集。基于所识别的点集的坐标确定感兴趣对象的位置。在一个实施例中,将点集进一步内插到参数曲线中(例如,作为贝塞尔曲线),并且将内插曲线上的点的坐标确定为数字图像中的对话泡泡的位置。通过将对话泡泡或任何感兴趣对象的位置描述为参数曲线而不是单独的点集,感兴趣对象的几何形状被更有效地发送并呈现给阅读设备180。
在另一实施例中,基于对象的位置识别对象的区别特征。例如,对话泡泡对象包括包含文本的气球形部分,以及指示与对话泡泡相关联的人物的尾部。对话泡泡的尾部的形状其特征可以在于锐角,其中锐角的共同尖端指向与对话泡泡相关联的人物。对象识别模块418可以分析对话泡泡对象的几何形状,并且识别几何体中指示对话泡泡对象的尾部的存在的锐角。在整个申请的其余部分中,对话泡泡尾部的共同尖端被称为“锚定点”。类似地,对象识别模块418可以识别几何中指示对话泡泡对象的气球形部分的圆形部分。在一个实例中,对象识别模块418单独地确定感兴趣对象的区别特征的位置(例如,气球形部分、尾部、对话泡泡对象的锚定点)以及感兴趣对象本身的位置。
作为另一示例,复合对话泡泡对象是与包含多个气球状部分的人物相关联的单个对话气泡对象,所述多个气球状部分可以经由薄片段等彼此连接。每个气球形部分之间的薄片段可以指示人物叙述中的不连续性,其中复合对话泡泡的气球状部分中的文本的预期阅读顺序被与另一人物相关联的对话泡泡文本中断。对象识别模块418可以分析对话泡泡对象的几何形状,并识别几何图形中的气球形状部分和/或薄片段,其指示对话泡泡对象是复合对话泡泡对象。
尽管将对话泡泡对象概述为代表性示例,但是能对其他感兴趣的对象执行类似的过程。此外,由对象识别模块418执行的功能不限于图形小说分析系统120。例如,阅读设备180可以被配置成执行这些功能。包含语料库110中的图形小说的感兴趣对象的位置的位置信息被存储为对象元数据458。
在一个实施例中,对象识别模块418还将所识别的感兴趣对象的评论存储为对象元数据458。例如,对于图形小说中的已识别人物,评论可以包括人物的名称、关于其它图形小说中的人物的历史等等。可以将评论呈现给阅读设备180的用户,以在图形小说中提供所识别的感兴趣对象的改进的叙述场境。
排序模块422从用于语料库110中的图形小说的对象元数据存储458中检索用于感兴趣的对象的位置信息,并确定对象的呈现顺序。呈现顺序管理其中向阅读设备180的用户呈现对象的扩展版本的顺序。在一个实施例中,基于感兴趣对象的参考点相对于图形小说元数据320中包括的面板信息来确定对于图形小说中的对象的呈现顺序。参考点是感兴趣对象上或内的不同点的坐标,诸如对话泡泡锚定点的坐标。具体地,对于图形小说中的每个感兴趣对象,排序模块422首先识别并跟踪其中包含感兴趣对象的面板。基于对象的参考点是否包括在面板的位置内来确定呈现顺序。如果锚定点的坐标在面板的位置内,则可以认为面板包含对话泡泡。
排序模块422确定包含对象的面板中的感兴趣对象的呈现顺序。在一个实施例中,呈现顺序是用于与图形小说相关联的语言的预期阅读顺序。具体地,在通常从上到下、从左到右阅读的语言的图形小说的单个面板中,基于它们的参考点通过从左到右打破的结从上到下排序对话泡泡。相比之下,在通常从上到下、从右到左阅读的图形小说(例如,日本图形小说)的单个面板内,基于它们的参考点通过从右到左打破的结从上到下排序对话泡泡。
在一个实施例中,当确定对话泡泡对象是复合对话泡泡对象时,排序模块422单独地确定每个气球形状部分的呈现顺序,而不是为整个复合气泡对象指派单个呈现顺序。例如,排序模块422可以为复合对话泡泡对象中的每个气球形状部分指派参考点,并且基于参考点与其他气泡对象的空间关系分别指派它们的呈现顺序。
由排序模块422执行的功能不限于图形小说分析系统120。例如,阅读设备180可以被配置成执行这些功能。语料库110中的图形小说的感兴趣对象的呈现顺序作为对象元数据458的一部分与对象的位置一起存储,并且被提供给打包模块426。
打包模块426创建打包的数字图形小说,其包括相应的图形小说内容和指示如何由阅读设备180呈现图形小说的呈现元数据。在一个实施例中,打包模块426创建打包的数字图形小说的(例如,PDF或固定布局EPUB文件,诸如符合EPUB基于区域的导航1.0标准的文件),其包括一系列有序图像(例如,图形小说的每页一个图像、图形小说的每两页展开一个图像)和对应于数字图形小说的呈现元数据。呈现元数据指示阅读器设备180应如何顺序地呈现图形小说的图像(例如,以全屏呈现的各个页面)。呈现元数据还包括包含数字图形小说中的面板的位置和预期阅读顺序的面板信息,以及包含基于对象元数据458和图形小说元数据320中的信息的数字图形小说中的每个感兴趣对象的位置和呈现顺序的对象元数据。打包模块426将图形小说的内容及其呈现元数据打包,并将打包的数字图形小说提供给图形小说分发系统130。
在替代实施例中,图形小说分析系统120省略将数字图形小说内容和呈现元数据打包在一起,而是经由应用程序编程接口(API)直接将数字图形小说内容和对应的呈现元数据提供给阅读设备180。
验证模块430从阅读设备180的用户接收关于打包的数字图形小说的反馈数据,验证反馈数据,并将反馈数据提供给图形小说分析系统120中的适当模块,使得能够改进用于打包的数字图形小说的用户导航体验。可以通过人类操作员验证反馈数据的有效性。
反馈数据表示来自阅读设备180的用户关于能够如何改进数字图形小说的呈现的评论。在一个实施例中,反馈数据包括不正确的呈现元数据的指示。在一个实例中,当反馈数据指示尚未检测到感兴趣对象时,验证模块430生成对象周围的感兴趣区域并将标记图像提供给图形小说分析系统120中的适当模块。例如,验证模块430可以将标记图像提供给对象识别模块418,使得能够基于标记的兴趣区域识别感兴趣对象的位置,并且相应地更新相应数字图形小说的呈现元数据。具有更新的呈现元数据的相应图形小说可以通过排序模块422重新排序,通过打包模块426重新打包,并且提供给图形小说分发系统130。作为另一示例,标记图像可以被提供给训练数据管理模块410使得训练数据450能够用标记图像更新。在更新训练数据存储450时,训练模块414可以通过使用由用户标记的图像来改进存储在预测模型存储454中的机器学习模型。
在另一实例中,当反馈数据指示感兴趣的对象的呈现顺序不正确时,验证模块430可以将此信息提供给排序模块422,使得模块422可以更新相应的图形小说中的感兴趣对象的呈现顺序。与上述实例类似,具有对象的更新的呈现顺序的图形小说可以由打包模块426重新打包并提供给图形小说分发系统130。
反馈数据还包括图形小说图像部分的集合,其已经被指示潜在感兴趣对象的阅读设备180的用户放大。在一个实施例中,放大部分的位置由包括被放大的部分的图像上的矩形区域表示。放大部分可以包含由系统120识别但是未被系统120检测到的一种类型的对象,但是还可以包含使阅读设备180的用户感兴趣的由图形小说分析系统120未识别的新类型的对象。例如,放大的部分可以包含图形小说分析系统120未能预先识别的图形小说中的新类型的人物。验证模块430可以检查这些部分是否包含新的或现有的感兴趣对象,并将此信息提供给图形小说分析系统120中的适当模块。在一个实例中,验证模块430可以将此信息发送到训练数据管理模块410,使得可以适当地标记训练数据存储450的图形小说中的对应字符。
图5图示图形小说分发系统130的一个实施例。如所示的,图形小说分发系统130包括分发模块510和分发数据存储530。图形小说分发系统130的其他实施例包括不同的或附加的组件。另外,功能可以以与本文描述的方式不同的方式分布在组件当中。
分发模块510将从图形小说分析系统120接收的打包的数字图形小说存储在分发数据存储530中,并且在接收到对打包的数字图形小说的请求时将打包的小说分发给阅读设备180的用户。分发数据存储530包括存储打包的数字图形小说的一个或多个计算机可读介质。在一些实施例中,分发数据存储530位于服务器群,其为数字图形小说分发系统130提供功能。
图6图示阅读设备180的一个实施例。如所示的,阅读设备180包括应用602、显示模块610、反馈模块620和本地数据存储630。阅读设备180的其他实施例包括不同的或附加的组件。另外,功能可以以与本文描述的方式不同的方式分布在组件当中。
应用602允许阅读设备180与图形小说分析系统120和图形小说分发系统130交互。例如,应用602可以是允许阅读设备180的用户通过浏览图形小说分发系统130的网站获得打包的数字图形小说的浏览器。作为另一示例,应用602可以是专门设计的专用应用(例如,由负责图形小说分析系统120和/或图形小说分布系统130的组织)以启用与图形小说分析系统120和图形小说分发系统130的交互。应用602将所接收的打包的图形小说存储在阅读设备180的本地数据存储630中,使得它能够在本地访问,或者在远程服务器(例如,云服务器)中,使得经由网络170能够进行访问。
显示模块610生成用于显示由阅读设备180的用户选择的打包的数字图形小说的用户界面,并且基于呈现元数据和阅读设备180配置呈现图形小说。具体地,显示模块610使用包括在打包的数字图形小说中的呈现元数据来响应于一系列信号执行一系列呈现动作。该系列动作包括显示图形小说的各个图像并且基于所确定的呈现顺序在图像中顺序地呈现感兴趣对象的扩展版本。
在一个实施例中,允许阅读设备180的用户选择用于用信号发送显示模块610执行后续动作的选项。例如,阅读设备180的用户可以通过按下阅读设备180的按钮(例如,设备上的音量键)来选择以手动地发信号发送下一个动作,或者通过在预定的时间量之后指示显示模块610执行下一个动作来自动地用信号发送下一个动作。对于每个识别的感兴趣对象,预定时间量可以变化。例如,显示模块610可以基于在对话泡泡对象中确定的文本量(例如,由对话泡泡的相应文本区域的大小指示)在时间量内呈现扩展的对话泡泡对象。因此,该信号可以是用户输入信号或者自从先前的动作已流逝预定时间量的指示(例如,自从第一个对话泡泡被扩展以来的5秒)。
显示模块610最初根据阅读设备180的固有分辨率在阅读设备180的屏幕上呈现图形小说的图像。通常,移动阅读设备180的固有分辨率低于图形小说的数字图像的分辨率。在这样的示例中,显示模块610可以对图像进行下采样,用于在阅读设备180上进行适当的呈现。响应于信号,显示模块610利用第一呈现顺序(例如,要在图像中阅读的第一对话泡泡)识别图像中的第一感兴趣对象的位置,并呈现对象的扩展版本。响应于另一信号,显示模块610移除第一对象的扩展版本,识别具有下一个顺序的图像内的感兴趣的第二对象(例如,要在图像中阅读的第二对话泡泡),并且呈现图像上的第二个对象的扩展版本等等。当在图像中呈现所有感兴趣对象的扩展版本时,呈现图形小说的后续图像。在复合对话泡泡对象的情况下,显示模块610可以根据它们确定的呈现顺序呈现每个气球形状部分的扩展版本,而不是呈现整个对话泡泡对象的扩展版本。
在一个实施例中,当单个页面被呈现为图形小说的图像时,显示模块610考虑跨越图形小说的展开的面板中的感兴趣对象。在一个实例中,显示模块610最初在阅读器设备180上呈现包含跨越面板的图形小说的完整两页展开。随后显示模块610取决于在每页中包含的感兴趣的对象的呈现顺序显示展开的两页中的每一页。例如,当两个对话泡泡被定位在展开的左页和右页时,显示模块610可以显示包含具有第一呈现顺序的对话气泡的页面,并响应于信号呈现对话泡泡的扩展版本。然后,显示模块610可以显示包含具有下一个顺序的对话泡泡的剩余页面,并且响应于另一信号呈现对话泡泡的扩展版本。
在一个实施例中,显示模块610通过将扩展对象叠加在接近感兴趣对象的原始位置的图像上来显示图像中感兴趣对象的扩展版本。在一个实例中,显示模块610将扩展的感兴趣对象叠加在图像上,使得感兴趣的原始对象的参考点与扩展的感兴趣对象的对应的不同点对齐。例如,扩展的对话泡泡对象可以叠加在图像的原始对话泡泡对象上,使得原始和扩展的对话泡泡的锚定点被对齐。如果显示模块610确定扩展的感兴趣对象将扩展超出图形小说图像的边缘,则显示模块610可以移位扩展的感兴趣对象的位置,使得阅读设备180的用户具有完整对象视图。在另一实例中,显示模块610分别生成感兴趣对象的区别特征的扩展版本,使得能够单独调整每个扩展特征的位置。例如,显示模块610可以单独地生成对话泡泡对象的气球状部分和尾部,并且单独地定位每个特征的扩展版本。
在一个实施例中,当叠加在感兴趣的原始对象上的扩展的感兴趣对象不完全覆盖图像上的原始对象时,显示模块610叠加半透明掩模以遮蔽原始感兴趣对象的暴露部分。例如,扩展的对话泡泡对象可以叠加在原始对话泡泡对象上,其中来自原始对话泡泡对象的文本很大程度上暴露给阅读器设备180的用户。对于阅读器设备180的用户来说可能难以理解对话泡泡的文本,因为用户在图像上并排呈现两个叠加的文本部分。在这种情况下,显示模块610可以用半透明掩模遮蔽原始对话泡泡对象的暴露文本部分,使得阅读器设备180的用户可以以更方便的方式理解文本。
在一个实施例中,显示模块610在阅读设备180的屏幕上分析感兴趣对象的大小,并且确定是否有必要呈现对象的扩展版本,或者是否阅读设备180的用户在没有通过扩展版本呈现的情况下能够方便地浏览图形小说。例如,阅读设备180的用户可以选择阈值字体大小,该阈值字体大小指示在没有呈现对话泡泡对象的扩展版本的情况下用户舒适地观看的对话泡泡文本的最小字体大小。响应于此输入,显示模块610可以确定对话泡泡对象中的文本的字体大小,并且如果确定的字体大小高于阅读设备180的用户指定的最小字体大小,则选择性地呈现对话泡泡对象的扩展版本。
在一个实施例中,当已经在阅读设备180上呈现感兴趣对象的扩展版本时,显示模块610还在感兴趣对象周围显示包括对感兴趣对象的评论的注释(例如,图形小说中的人物的名字和历史)。这允许当在不必在单独的应用中搜索关于人物的信息的情况下用户正在阅读图形小说时阅读设备180的用户检索关于人物的信息。
显示模块610可以以各种方式生成扩展对象。在其中在阅读设备180上呈现下采样的图像的一个实施例中,显示模块610通过在原始的更高分辨率图像中定位相应的感兴趣对象并使用包含在较高分辨率的对象版本中的信息来生成感兴趣对象的扩展版本。例如,可以通过将对话泡泡对象定位在具有较高像素数的原始数字图像中并且仅在阅读设备180的屏幕上显示较高数量的像素以生成扩展对象生成下采样的像素化图像中的对话泡泡对象的扩展版本。在其他实施例中,可以通过按比例放大对象的像素或者生成对象的放大版本以进行显示的任何方法来生成扩展的感兴趣对象。
反馈模块620结合用户界面提供一组编辑工具,阅读设备180的用户可以使用该用户界面以提供关于数字图形小说的呈现的反馈。反馈数据可以包括不正确的呈现元数据的指示,以及图形小说分析系统120尚未识别的潜在感兴趣对象的指示。
在各种实施例中,反馈模块620在显示设备的屏幕上提供虚拟按钮,用户能够选择以通过模块620提供的编辑工具来报告不正确的呈现元数据。例如,如果显示模块610以不正确的顺序呈现感兴趣的扩展对象,则用户能够按下按钮并且完成简短的反馈表以描述正确的顺序。作为另一示例,阅读设备180的用户可以通过在包含未检测到的对象的图像的一部分上按长和/或硬按,或者在未检测到的对象周围画线来指示尚未检测到感兴趣对象。反馈模块620收集这些错误呈现元数据的指示并将其提供给图形小说分析系统120的验证模块430,使得能够进一步改进图形小说的导航体验。
在一个实施例中,反馈模块620能够修改本地数据存储630中的用于对应图形小说的呈现元数据,使得可以在运行中校正图形小说的不正确呈现。例如,反馈模块620可以识别未检测到的感兴趣对象的接近位置,对图像内的对象进行重新排序,并且通过此信息修改本地呈现元数据,使得显示模块610能够基于被识别的接近位置呈现未检测到的对象的扩展版本。
在各种实施例中,反馈模块620还跟踪阅读设备180的用户已放大的数字图像的部分。其中许多用户已经放大的图像部分指示图形小说分析系统120尚未在图形小说中被识别的潜在感兴趣对象。这些可以包括新类型的对象,诸如新人物等,或图形小说分析系统120错过识别的感兴趣对象。反馈模块620还将此信息提供给验证模块430,使得能够进一步改进导航体验。
图7示出根据一个实施例的具有识别的对话泡泡722、724、726、728的位置的图形小说的示例图像700。
示例图像700示出具有三个面板702、704、706和五个对话泡泡对象722、724、726、728、732的图形小说的单个页面770。每个面板702、704、706中的场景示出彼此交谈的图形小说的两个人物。在示例图像700中,图形小说分析模块120已经识别对话泡泡对象722、724、726、728的位置(如围绕对话泡泡的粗实线所示的),但是未能识别对话泡泡对象732(如以虚线所示的)。
在对话泡泡对象728中,通过将图像700的数字地图应用于由训练模块414构建的机器学习模型由图形小说分析系统120中的对象识别模块414检测文本区域746、750的位置。通过识别指示对话泡泡对象728的外边界754的文本区域746、750周围的区别,基于识别的文本区域746、750确定对话泡泡对象728的位置。通过分析对话泡泡对象728的形状也由对象识别模块414识别对话泡泡对象728的区别特征,诸如锚定点742。
在示例图像700中,面板的预期阅读顺序是(724、726、728)的顺序,假设从左到右、从上到下阅读图形小说。检测到的对话泡泡对象722、724、726、728的锚定点被排序模块422用作参考点,以确定对话泡泡的呈现顺序。具体地,对话泡泡对象722、724被确定为与面板702、与面板704相关联的对话泡泡对象726以及与面板706相关联的对话泡泡对象728相关联。在所检测到的四个对话泡泡对象当中,对话泡泡对象722被指派第一呈现顺序,因为其在最左边的面板702中,并且其锚定点被定位在对话泡泡对象724上方。类似地,对话泡泡对象724被指派第二顺序,对话泡泡对象726被指派第三顺序,并且对话泡泡对象728被指派第四顺序,因为其在最后一个面板706中。因此,相应图形小说的呈现元数据包含对话泡泡对象(722、724、726、728),例如图像700,的位置和呈现顺序。
图8示出根据一个实施例的基于具有扩展的对话泡泡828的图7的示例图像的示例图像800。
如示例图像800中所示,根据对话泡泡对象728的呈现顺序将扩展的对话泡泡对象828呈现给阅读设备的用户。在此特定示例中,通过将扩展的对话泡泡828的锚定点842与原始对话泡泡728的锚定点842对齐扩展的对话泡泡对象828被叠加在原始对话泡泡对象728上。如前面参考显示模块610所讨论的,从原始对话泡泡对象728保留的暴露部分832可能被显示器模块610遮挡使得阅读设备的用户可以更容易地理解扩展的对话泡泡828的文本。
当在呈现对话泡泡对象828之前没有向阅读设备180的用户呈现对话泡泡732的扩展版本时,用户可以在包含对话泡泡732的部分上长按,或者放大部分使得反馈模块620能够向验证模块430提供反馈。
示例性方法
图9是图示根据一个实施例的提供感兴趣对象的自动或半自动导航的方法900的流程图。图9将方法900的步骤归因于联网计算环境100的各种组件。然而,一些或所有步骤可以由其他实体执行,包括图形小说分析系统120和/或图形小说分发系统130。另外,一些实施例可以并行执行步骤,以不同顺序执行步骤,或执行不同步骤。
在图9中所示的实施例中,系统构建910机器学习模型,用于识别数字图形小说内容中的感兴趣区域的位置。如先前所描述的,最初通过在图形小说内容或包含代表感兴趣对象的区域的其他图像源中标记感兴趣区域构建机器学习模型。下面参考图10详细地描述用于构建机器学习模型的方法1000的一个实施例。然后,机器学习的模型被应用920到数字图形小说内容以识别感兴趣区域的位置。基于所识别的兴趣区域,系统识别930数字图形小说内容中的感兴趣对象的位置和呈现顺序。系统创建940打包的数字图形小说,其包括图形小说内容和呈现元数据。呈现元数据包括感兴趣对象的所识别的位置和呈现顺序。将打包的数字图形小说提供950到阅读设备,用于根据呈现元数据进行呈现。系统还获得960关于阅读设备上的数字图形小说内容的呈现的反馈数据,并且使用反馈数据以改进数字图形小说内容的呈现元数据。在一个实施例中,感兴趣的对象是数字图形小说内容中的对话泡泡对象,并且感兴趣区域是围绕对话泡泡对象的文本的矩形文本区域。
图10是图示根据一个实施例的构建用于在图9的方法中使用的机器学习模型的方法1000的流程图。图10将方法1000的步骤归因于联网计算环境100的各种组件。然而,一些或所有步骤可以由其他实体,包括图形小说分析系统120和/或图形小说分发系统130执行。另外,一些实施例可以并行执行步骤,以不同顺序执行步骤,或执行不同步骤。
在图10中示出的实施例中,系统从语料库中识别1010数字图形小说的子集。系统从所选择的数字图形小说内容子集中提取1020图像(例如,对应于各个页面)或者收集包含感兴趣区域的任何其他图像源。系统标记1030图像中的感兴趣区域以生成标记图像的训练数据。如前面所讨论的,感兴趣区域可以是围绕数字图形小说内容中的对话泡泡对象的文本的矩形文本区域。基于训练数据的标记图像,系统创建1040机器学习模型,其能够接收数字图形小说内容并且在数字图形小说内容中生成感兴趣区域的位置。系统将机器学习模型1050存储在预测模型存储中。
附加考虑
以上描述的一些部分在算法过程或操作方面描述实施例。这些算法描述和表示通常由数据处理领域的技术人员使用,以将其工作的实质有效地传达给本领域的其他技术人员。虽然在功能上、计算上或逻辑上描述,但是这些操作被理解为由包括用于由处理器或等效电路、微代码等执行的指令的计算机程序实现。此外,也已经证明,在不失一般性的情况下,将功能操作的这些布置称为模块有时是方便的。所描述的操作及其被关联的模块可以以软件、固件、硬件或其任何组合体现。
如本文所使用的,对“一个实施例”或“实施例”的任何引用意指结合实施例描述的特定元件、特征、结构或特性被包括在至少一个实施例中。在说明书中各处出现的短语“在一个实施例中”不一定都指的是同一实施例。
可以使用表达“耦合”和“连接”以及它们的派生词来描述一些实施例。应理解的是,这些术语并非旨在作为彼此的同义词。例如,可以使用术语“连接”来描述一些实施例,以指示两个或更多个元件彼此直接物理或电接触。在另一示例中,可以使用术语“耦合”来描述一些实施例,以指示两个或更多个元件处于直接物理或电接触。然而,术语“耦合”还可以意指两个或更多个元件彼此不直接接触,但是仍然彼此协作或交互。实施例不限于此场境。
如本文所使用的,术语“包括”、“包含”、“包括”、“包括”、“具有”、“具有”或其任何其他变型旨在涵盖非排他性的包括。例如,包括元素列表的过程、方法、物品或装置不一定仅限于那些元素,而是可以包括未明确列出的或者这种过程、方法、物品或装置固有的其他元素。此外,除非有相反的明确说明,否则“或”指的是包含性的或并且不是排他性的或。例如,条件A或B由下述中的任何一个满足:A为真(或存在)且B为假(或不存在)、A为假(或不存在)且B为真(或存在)、A和B都是真的(或存在)。
另外,采用“一”或“一个”以描述本文实施例的元件和组件。这仅仅是为了方便并且给出本公开的一般意义。此描述应该被理解为包括一个或至少一个,并且单数也包括复数,除非显而易见地另有所指。
在阅读本公开后,本领域的技术人员将理解用于在数字图形小说内容中提供感兴趣对象的导航的系统和过程的另外的替代结构和功能设计。因此,虽然已经说明和描述特定实施例和应用,但是要理解的是,所描述的主题不限于本文公开的精确构造和组件并且对于本领域的技术人员来说将会显而易见的各种修改、改变和变化可以在本文公开的布置、操作、方法和装置的详情中进行。本发明的范围仅受以下权利要求的限制。
Claims (18)
1.一种向阅读设备提供数字图形小说内容的计算机实现的方法,所述方法包括:
接收数字图形小说内容,所述数字图形小说内容包括传达所述图形小说的叙述的一系列面板;
通过将模型应用于所述数字图形小说内容来识别所述数字图形小说内容的多个感兴趣区域的位置;
基于所述多个感兴趣区域的所识别的位置识别所述数字图形小说内容中的多个感兴趣对象的位置,其中,所述多个对象包括所述数字图形小说内容中的对话泡泡对象,所述对话泡泡对象包含与所述数字图形小说内容中的人物相关联的文本;
对于每个感兴趣对象:
i)识别该感兴趣对象的区别特征的坐标,
ii)使用所述区别特征的所述坐标设置与该感兴趣对象相关联的参考点;
iii)基于所述参考点和所述面板的位置之间的空间关系来确定包含该感兴趣对象的面板;以及
iv)基于所述参考点与包含在所述面板内的其他感兴趣对象的参考点之间的空间关系来确定所述面板内的该感兴趣对象的呈现顺序;
为所述数字图形小说内容创建呈现元数据,所述呈现元数据指示所述多个感兴趣对象的所识别的位置和呈现顺序;以及
将所述数字图形小说内容和所述呈现元数据提供给所述阅读设备,用于根据所述呈现元数据呈现所述多个感兴趣对象的扩展版本。
2.根据权利要求1所述的计算机实现的方法,其中所述模型是机器学习模型,并且还包括构建所述机器学习模型,所述构建包括:
选择图像集;
标记所述图像集中的感兴趣区域以生成标记图像的训练数据;以及
基于所述训练数据的标记图像构建所述机器学习模型,所述机器学习模型能够接收所述数字图形小说内容并且在所述数字图形小说内容中生成所述多个感兴趣区域的所述位置。
3.根据权利要求1所述的计算机实现的方法,其中所述多个感兴趣区域包括包含所述对话泡泡对象的所述文本的所述数字图形小说内容中的所述对话泡泡对象的文本区域。
4.根据权利要求1所述的计算机实现的方法,其中所述感兴趣对象是所述数字图形小说内容中的对话泡泡对象,并且所述区别特征是所述对话泡泡对象的锚定点。
5.根据权利要求2所述的计算机实现的方法,还包括:
获得关于所述数字图形小说内容的呈现的反馈数据;以及
基于所获得的反馈数据更新所述机器学习模型以改进与所述数字图形小说内容相关联的呈现元数据。
6.根据权利要求5所述的计算机实现的方法,其中所述反馈数据包括已经在所述阅读设备上放大的所述数字图形小说内容的部分。
7.一种存储用于向阅读设备提供数字图形小说内容的可执行计算机程序指令的非暂时性计算机可读存储介质,所述计算机程序指令包括:
接收数字图形小说内容,所述数字图形小说内容包括传达所述图形小说的叙述的一系列面板;
通过将模型应用于所述数字图形小说内容来识别所述数字图形小说内容的多个感兴趣区域的位置;
基于所述多个感兴趣区域的所识别的位置识别所述数字图形小说内容中的多个感兴趣对象的位置,其中,所述多个对象包括所述数字图形小说内容中的对话泡泡对象,所述对话泡泡对象包含与所述数字图形小说内容中的人物相关联的文本;
对于每个感兴趣对象:
i)识别该感兴趣对象的区别特征的坐标,
ii)使用所述区别特征的所述坐标设置与该感兴趣对象相关联的参考点;
iii)基于所述参考点和所述面板的位置之间的空间关系来确定包含该感兴趣对象的面板;以及
iv)基于所述参考点与包含在所述面板内的其他感兴趣对象的参考点之间的空间关系来确定所述面板内的该感兴趣对象的呈现顺序;为所述数字图形小说内容创建呈现元数据,所述呈现元数据指示所述多个感兴趣对象的所识别的位置和呈现顺序;以及
将所述数字图形小说内容和所述呈现元数据提供给所述阅读设备,用于根据所述呈现元数据呈现所述多个感兴趣对象的扩展版本。
8.根据权利要求7所述的计算机可读存储介质,其中所述模型是机器学习模型,并且所述计算机程序指令还包括构建所述机器学习模型,所述构建包括:
选择图像的集合;
标记所述图像中的感兴趣区域以生成标记图像的训练数据;以及
基于所述训练数据的标记图像构建所述机器学习模型,所述机器学习模型能够接收所述数字图形小说内容并且在所述数字图形小说内容中生成所述多个感兴趣区域的所述位置。
9.根据权利要求7所述的计算机可读存储介质,其中所述多个感兴趣区域包括所述数字图形小说内容中的所述对话泡泡对象的文本区域,所述文本区域包含所述对话泡泡对象的所述文本。
10.根据权利要求7所述的计算机可读存储介质,其中所述感兴趣对象是所述数字图形小说内容中的对话泡泡对象,并且所述区别特征是所述对话泡泡对象的锚定点。
11.根据权利要求8所述的计算机可读存储介质,所述计算机程序指令还包括:
获得关于所述数字图形小说内容的呈现的反馈数据;以及
基于所获得的反馈数据来更新所述机器学习模型以改进与所述数字图形小说内容相关联的呈现元数据。
12.根据权利要求11所述的计算机可读存储介质,其中所述反馈数据包括已经在所述阅读设备上放大的所述数字图形小说内容的部分。
13.一种用于将数字图形小说内容提供给阅读设备的服务器,包括:
处理器,所述处理器用于执行计算机程序指令;以及
非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储可执行步骤的计算机程序指令,所述步骤包括:
接收数字图形小说内容,所述数字图形小说内容包括传达所述图形小说的叙述的一系列面板;
通过将模型应用于所述数字图形小说内容来识别所述数字图形小说内容的多个感兴趣区域的位置;
基于所述多个感兴趣区域的所识别的位置识别所述数字图形小说内容中的多个感兴趣对象的位置,其中,所述多个对象包括所述数字图形小说内容中的对话泡泡对象,所述对话泡泡对象包含与所述数字图形小说内容中的人物相关联的文本;
对于每个感兴趣对象:
i)识别该感兴趣对象的区别特征的坐标,
ii)使用所述区别特征的所述坐标设置与该感兴趣对象相关联的参考点;
iii)基于所述参考点和所述面板的位置之间的空间关系来确定包含该感兴趣对象的面板;以及
iv)基于所述参考点与包含在所述面板内的其他感兴趣对象的参考点之间的空间关系来确定所述面板内的该感兴趣对象的呈现顺序;
为所述数字图形小说内容创建呈现元数据,所述呈现元数据指示所述多个感兴趣对象的所识别的位置和呈现顺序;并且
将所述数字图形小说内容和所述呈现元数据提供给所述阅读设备,用于根据所述呈现元数据呈现所述多个感兴趣对象的扩展版本。
14.根据权利要求13所述的服务器,其中所述模型是机器学习模型,并且所述计算机程序指令还包括构建所述机器学习模型,所述构建包括:
选择图像的集合;
标记所述图像中的感兴趣区域以生成标记图像的训练数据;以及
基于所述训练数据的标记图像构建所述机器学习模型,所述机器学习模型能够接收所述数字图形小说内容并且在所述数字图形小说内容中生成所述多个感兴趣区域的所述位置。
15.根据权利要求13所述的服务器,其中所述多个感兴趣区域包括所述数字图形小说内容中的所述对话泡泡对象的文本区域,所述文本区域包含所述对话泡泡对象的所述文本。
16.根据权利要求13所述的服务器,其中所述感兴趣对象是所述数字图形小说内容中的对话泡泡对象,并且所述区别特征是所述对话泡泡对象的锚定点。
17.根据权利要求14所述的服务器,所述计算机程序指令还包括:
获得关于所述数字图形小说内容的呈现的反馈数据;以及
基于所获得的反馈数据更新所述机器学习模型以改进与所述数字图形小说内容相关联的呈现元数据。
18.根据权利要求17所述的服务器,其中所述反馈数据包括已经在所述阅读设备上放大的所述数字图形小说内容的部分。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/186,208 | 2016-06-17 | ||
US15/186,208 US20170365083A1 (en) | 2016-06-17 | 2016-06-17 | Automatically identifying and displaying objects of interest in a graphic novel |
PCT/US2016/068117 WO2017218043A1 (en) | 2016-06-17 | 2016-12-21 | Automatically identifying and displaying object of interest in a graphic novel |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109155076A CN109155076A (zh) | 2019-01-04 |
CN109155076B true CN109155076B (zh) | 2023-07-14 |
Family
ID=60659688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680085828.9A Active CN109155076B (zh) | 2016-06-17 | 2016-12-21 | 自动识别和显示图形小说中的感兴趣对象 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170365083A1 (zh) |
EP (1) | EP3472807B1 (zh) |
CN (1) | CN109155076B (zh) |
WO (1) | WO2017218043A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019049068A1 (en) * | 2017-09-07 | 2019-03-14 | Studeo Realty Marketing Inc. | GENERATION OF SEQUENTIAL VISUAL NARRATIONS |
US10929595B2 (en) | 2018-05-10 | 2021-02-23 | StoryForge LLC | Digital story generation |
US11602132B2 (en) | 2020-10-06 | 2023-03-14 | Sixgill, LLC | System and method of counting livestock |
US20230294973A1 (en) | 2020-11-06 | 2023-09-21 | Versabev, Inc. | Scalable modular system and method for storing, preserving,managing, and selectively dispensing beverages |
US11526652B1 (en) * | 2020-11-23 | 2022-12-13 | Amazon Technologies, Inc. | Automated optimization of displayed electronic content imagery |
JP2022092837A (ja) * | 2020-12-11 | 2022-06-23 | 株式会社東海理化電機製作所 | 制御装置およびプログラム |
US20230178065A1 (en) * | 2021-12-02 | 2023-06-08 | Jpmorgan Chase Bank, N.A. | Evaluating screen content for accessibility |
US11989922B2 (en) * | 2022-02-18 | 2024-05-21 | Disney Enterprises, Inc. | Automated image analysis and indexing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682457A (zh) * | 2012-05-17 | 2012-09-19 | 南开大学 | 一种对平面媒体图像进行适应屏幕阅读的重排方法 |
WO2014042051A1 (ja) * | 2012-09-11 | 2014-03-20 | 富士フイルム株式会社 | コンテンツ作成装置、方法およびプログラム |
CN105574524A (zh) * | 2015-12-11 | 2016-05-11 | 北京大学 | 基于对白和分镜联合识别的漫画图像版面识别方法和系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7545940B2 (en) * | 2002-08-02 | 2009-06-09 | Disney Enterprises, Inc. | System for publishing content on a portable digital storage medium |
US20050039138A1 (en) * | 2003-08-13 | 2005-02-17 | Aaron Urbina | Method and system for displaying comic books and graphic novels on all sizes of electronic display screens. |
JP2007164550A (ja) * | 2005-12-15 | 2007-06-28 | Core Colors Inc | コンテンツ表示方法 |
US8301999B2 (en) * | 2006-09-25 | 2012-10-30 | Disney Enterprises, Inc. | Methods, systems, and computer program products for navigating content |
JP4796530B2 (ja) * | 2007-03-30 | 2011-10-19 | 株式会社セルシス | マンガの表示方法およびマンガを表示する電子機器 |
JP2012133659A (ja) * | 2010-12-22 | 2012-07-12 | Fujifilm Corp | ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置 |
JP5674450B2 (ja) * | 2010-12-22 | 2015-02-25 | 富士フイルム株式会社 | 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法 |
US20120196260A1 (en) * | 2011-02-01 | 2012-08-02 | Kao Nhiayi | Electronic Comic (E-Comic) Metadata Processing |
JP5376685B2 (ja) * | 2011-07-13 | 2013-12-25 | Necビッグローブ株式会社 | コンテンツデータ表示装置、コンテンツデータ表示方法及びプログラム |
JP5437340B2 (ja) * | 2011-10-21 | 2014-03-12 | 富士フイルム株式会社 | ビューワ装置、サーバ装置、表示制御方法、電子コミック編集方法及びプログラム |
JP5439454B2 (ja) * | 2011-10-21 | 2014-03-12 | 富士フイルム株式会社 | 電子コミック編集装置、方法及びプログラム |
JP5439455B2 (ja) * | 2011-10-21 | 2014-03-12 | 富士フイルム株式会社 | 電子コミック編集装置、方法及びプログラム |
KR20140037535A (ko) * | 2012-09-19 | 2014-03-27 | 삼성전자주식회사 | 사용자 효과를 포함하는 전자책 생성 방법 및 그 장치 |
US9436357B2 (en) * | 2013-03-08 | 2016-09-06 | Nook Digital, Llc | System and method for creating and viewing comic book electronic publications |
US20170083196A1 (en) * | 2015-09-23 | 2017-03-23 | Google Inc. | Computer-Aided Navigation of Digital Graphic Novels |
US9881003B2 (en) * | 2015-09-23 | 2018-01-30 | Google Llc | Automatic translation of digital graphic novels |
-
2016
- 2016-06-17 US US15/186,208 patent/US20170365083A1/en not_active Abandoned
- 2016-12-21 CN CN201680085828.9A patent/CN109155076B/zh active Active
- 2016-12-21 WO PCT/US2016/068117 patent/WO2017218043A1/en unknown
- 2016-12-21 EP EP16905682.7A patent/EP3472807B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682457A (zh) * | 2012-05-17 | 2012-09-19 | 南开大学 | 一种对平面媒体图像进行适应屏幕阅读的重排方法 |
WO2014042051A1 (ja) * | 2012-09-11 | 2014-03-20 | 富士フイルム株式会社 | コンテンツ作成装置、方法およびプログラム |
CN105574524A (zh) * | 2015-12-11 | 2016-05-11 | 北京大学 | 基于对白和分镜联合识别的漫画图像版面识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
手机漫画特效与数据格式的研究;徐博斌 等;《2012全国无线及移动通信学术大会论文集(下)》;20120901;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3472807A4 (en) | 2019-04-24 |
EP3472807A1 (en) | 2019-04-24 |
CN109155076A (zh) | 2019-01-04 |
WO2017218043A1 (en) | 2017-12-21 |
EP3472807B1 (en) | 2020-09-23 |
US20170365083A1 (en) | 2017-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109155076B (zh) | 自动识别和显示图形小说中的感兴趣对象 | |
US9881003B2 (en) | Automatic translation of digital graphic novels | |
US20220319219A1 (en) | Technologies for content analysis | |
CN108073555B (zh) | 用于从电子文档生成虚拟现实环境的方法和系统 | |
CN114375435A (zh) | 增强物理活动表面上的有形内容 | |
US9965175B2 (en) | System and method of digital note taking | |
US20180356967A1 (en) | Facilitating automatic generation of customizable storyboards | |
JP6613317B2 (ja) | デジタルグラフィックノベルのコンピュータ支援ナビゲーション | |
CN109074172A (zh) | 向电子设备输入图像 | |
JP2018533782A (ja) | デジタルノートテイキングのシステムおよび方法 | |
US20180060743A1 (en) | Electronic Book Reader with Supplemental Marginal Display | |
US11610054B1 (en) | Semantically-guided template generation from image content | |
US9619126B2 (en) | Computer-readable non-transitory storage medium with image processing program stored thereon, element layout changed material generating device, image processing device, and image processing system | |
CN112035022A (zh) | 阅读页样式生成方法和装置 | |
US11430166B1 (en) | Facilitating generation of number-bullet objects | |
US20220350974A1 (en) | Integrating overlaid textual digital content into displayed data via graphics processing circuitry using a frame buffer | |
US20230230406A1 (en) | Facilitating identification of fillable regions in a form | |
KR20190020281A (ko) | 시각적 입력의 처리 | |
US20240070390A1 (en) | Generating suggestions using extended reality | |
KR20230125580A (ko) | 컷팅라인 자동 응용 시스템 및 그 동작 방법 | |
Yao | VTQuestAR: An Augmented Reality Mobile Software Application for Virginia Tech Campus Visitors | |
CN118135061A (zh) | 一种基于扩散模型的ai文字生成方法、装置以及设备 | |
CN113655922A (zh) | 文件处理方法、装置、电子设备及计算机可读存储介质 | |
CN117193609A (zh) | 图像处理方法、装置、计算机设备、存储介质和程序产品 | |
CN116860705A (zh) | 数据处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |