CN111930289A

CN111930289A - 一种处理图片和文本的方法和系统

Info

Publication number: CN111930289A
Application number: CN202010938148.5A
Authority: CN
Inventors: 袁方; 毛娅楠; 汪鑫源; 董宏昌; 李鹏飞; 刘智; 马景阳; 王松祥; 李宏明; 刘文平
Original assignee: Zhizhe Sihai Beijing Technology Co ltd
Current assignee: Zhizhe Sihai Beijing Technology Co ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-11-13
Anticipated expiration: 2040-09-09
Also published as: CN111930289B

Abstract

本公开提供了一种处理图片和文本的方法，包括：解析所述图片和文本，得到多个语句；确定所述多个语句中的每个语句与图片的对应关系；根据语句与图片之间的对应关系，产生图文大纲；获取与所述文本相关的朗读语音配置；以及根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿。本公开还提供了一种处理图片和文本的系统。

Description

一种处理图片和文本的方法和系统

技术领域

本公开涉及信息技术领域，特别涉及一种处理图片和文本的方法、系统、电子设备及计算机可读介质。

背景技术

目前，随着移动互联网技术的普及和高速发展，人们在手机上花费的时间越来越多，而其中短视频类的应用，又占据了相当大的比例。但是，目前，图文类UGC（UserGenerated Content）视频创作门槛非常高，需要使用复杂的电脑端软件进行长时间的编辑和处理。大量的图文创作者，每天产生海量的图文内容，而有能力发布高质量视频的用户只占其中非常小的一部分。

手机端存在屏幕小，运算性能低的问题，导致很难处理复杂的创作任务。大部分手机端视频创作者会直接使用摄像头录制，然后添加滤镜、美颜和简单字幕进行发布。

因此，急需一种图文视频创作工具，面向图文创作者的创作习惯，直接基于图文内容分段生成大纲，按段落进行视频及字幕预览，结合文字转语音技术，可以编辑、预览、生成视频。

发明内容

有鉴于此，本公开实施例的目的在于提供一种处理图片和文本的方法,通过图文大纲编辑生成视频。

根据本公开的第一方面，提供了一种处理图片和文本的方法，包括：

解析所述图片和文本，得到多个语句；

确定所述多个语句中的每个语句与图片的对应关系；

根据语句与图片之间的对应关系，产生图文大纲；

获取与所述文本相关的朗读语音配置；以及

根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿。

在一个可能的实施例中，其中解析所述图片和文本包括：

根据所述图片和文本，构建文档对象模型树；

遍历所述文档对象模型树，产生用于存储文本的自然段、图片和格式控制标志的混合链表；

通过遍历所述混合链表，得到所述多个语句，确定每个语句与图片的对应关系以及产生所述图文大纲。

在一个可能的实施例中，其中，所述图片被嵌入在所述文本中，所述方法还包括：

根据所述图片在所述文本中的位置，初始化语句与图片之间的对应关系。

在一个可能的实施例中，其中，所述文本包括段落，所述方法还包括：

对于单独的图片，确定该图片对应于其上方最近的段落；

对于连续多张图片，按照图片和段落的倒序，确定图片和段落的对应关系；以及

对于无图片对应的段落，确定其对应于默认黑场视频。

在一个可能的实施例中，所述结构化的视频草稿还包括背景音乐配置。

在一个可能的实施例中，还包括：根据所述结构化的视频草稿产生视频，所述视频包括关于所述图片的视频轨道、关于所述多个语句的字幕轨道、关于所述多个语句的朗读音频轨道。

在一个可能的实施例中，还包括：按照段落下载和在本地保存与所述多个语句相关联的朗读音频文件。

在一个可能的实施例中，其中，所述视频轨道、所述字幕轨道和所述朗读音频轨道基于所述语句和图片之间的对应关系沿时间轴对齐。

在一个可能的实施例中，其中，基于与图片对应的语句的预估朗读时间和/或朗读音频文件的播放时长，确定所述图片的播放时长。

根据本公开的第二方面，提供了一种处理图片和文本的系统，包括：

解析图文单元，用于解析所述图片和文本，得到多个语句；

对应关系单元，用于确定所述多个语句中的每个语句与图片的对应关系；

大纲产生单元，用于根据语句与图片之间的对应关系，产生图文大纲；

朗读配置单元，用于获取与所述文本相关的朗读语音配置；

视频草稿单元，用于根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿。

根据本公开的第三方面，提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，该指令被处理器执行时使处理器执行如第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了根据本公开实施例的典型的处理图片和文本的方法的示意图。

图2示出了根据本公开实施例的典型的待解析的图文素材的示意图。

图3示出了根据本公开实施例的典型的图文大纲的示意图。

图4示出了根据本公开实施例的典型的调整图文对应关系的示意图。

图5示出了根据本公开实施例的典型的处理视频轨道的示意图。

图6示出了根据本公开实施例的典型的处理图片和文本的系统的示意图。

图7示出了用于实现本公开实施例的电子设备的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个（种）”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

随着移动互联网的发展，越来越多的人直接使用手机上网、浏览新闻，社交沟通，分享内容。例如短视频类的手机应用，需要内容的分享者创作大量的短视频，上传分享后供用户收看。但是，图文类UGC（User Generated Content）视频创作门槛非常高，需要使用复杂的电脑端软件进行长时间的编辑和处理，同时，手机端存在屏幕小，运算性能低的问题，导致很难处理复杂的创作任务。所以，实际情况是，大部分手机端视频创作者会直接使用摄像头录制，然后添加滤镜、美颜和简单字幕进行发布。这样的视频编辑虽然简单，但是效果不如在电脑上创作的好。

本公开提供了一种处理图片和文本的方法，面向图文创作者的创作习惯，直接基于图文内容分段生成大纲，按段落进行视频及字幕预览，结合文字转语音技术，使得大量的图文创作者可以编辑生成视频， 10分钟左右视频的创作时间从2-3小时减小至10-20分钟。

本公开创新地使用了图文大纲编辑的方法，直接利用移动终端设备，通过图文大纲编辑生成视频、预览和发布。同时，也可以结构化的保存为视频草稿，能够更快速和准确的识别视频内容，为合规审核提供了便利。

以下结合附图详细描述本公开。

图1示出了根据本公开实施例的典型的处理图片和文本的方法的示意图。包括步骤101，解析所述图片和文本，得到多个语句；步骤102，确定所述多个语句中的每个语句与图片的对应关系；步骤103，根据语句与图片之间的对应关系，产生图文大纲；步骤104，获取与所述文本相关的朗读语音配置；步骤105，根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿。

在步骤101中，首先解析要生成视频的图文素材的内容，构造文档对象模型（DOM）树。例如图2，示出了一种基于HTMAL格式的显示在手机端的图文素材，要生成视频的素材可以是以HTML的格式存储在数据库中的。在将其转换为视频大纲数据前，需要将其转换为内存中的DOM树的形式以便后续操作。

其次，遍历DOM树，去除对视频转换无用的节点：内容的DOM树中可能会包含一些不能转化为视频大纲的节点（例如 <embed>、<video>、不包含文本内容的<a>节点等），需要先将这些节点去除，简化之后进行的其他转化步骤。

然后创建一个空的可包含图片、文本自然段或格式控制标志的混合链表：DOM树到大纲的转换过程中，会生成一个中间态的数据结构，该结构根据图文内容的阅读顺序保存了一系列文本（自然段）、图片和段落分隔符等格式控制数据。创建一个空链表，为之后的数据存储作准备。

再次，先序遍历DOM树，对于可用的节点，根据节点类型选择适合的策略解析节点内容，将节点内容或格式控制标志追加到混合链表中，优选的，可以按照先序遍历的形式，从外向内、从上到下地解析DOM的节点，并根据节点类型采用不同的策略获取其中的内容。策略主要如下：

a.对于<img>节点：解析出一个图片记录，该记录包含 <img> 节点中的图片数据，将该记录追加到混合链表末尾；

b.对于<div>、<blockquote>：继续遍历其子节点，根据策略获取其内容，作为一个闭合的文本自然段追加到混合链表的末尾；

c.对于<p>、<h1>、<h2>、<h3>、<h4>节点：将其中的所有文本内容，作为一个文本自然段解析出来，将其追加到混合链表末尾；

d.对于<b>、<i>、<u>、<em>、<strong>、<a>节点：将其中文本内容解析出来，追加到混合链表末尾的未闭合文本自然段中。如果当前混合链表末尾没有一个未闭合的文本自然段，则创建一个空的未闭合文本自然段后，将当前节点的内容追加进去；

e.对于<br>节点：将其作为一个换行符解析出来，追加到混合链表末尾的未闭合文本自然段中。如果当前混合链表末尾没有一个未闭合的文本自然段，则创建一个空的未闭合文本自然段后，将当前节点的内容追加进去；

f.对于<equation>节点：在混合链表末尾追加一个图片分隔符，避免上下的图片被后续操作识别为连续图片；

g.对于<ul>、<ol>节点：解析其中的<li>节点的文本内容，将每个<li>节点的文本内容组合起来，作为一个闭合文本自然段追加到混合链表末尾；

h.对于<hr>节点：在混合链表末尾追加一个图片/文本组合分隔符，避免之后的步骤将改节点上下的内容解析为连贯的内容而进行图片、文本自然段的组合；

最后，遍历混合链表，根据上述策略去除其中无用的元素，将其中的无用元素（如空的文本自然段、连续的图片分隔符等）去除。将其中的文本自然段分句，使用正则表达式寻找文本中的分句标点（如“。”“；”“——”等），根据标点分句，避免后续步骤的自然段合并导致分句信息丢失。将其中字数较少的连续文本自然段合并，避免连续的短自然段影响生成的视频的观感。

至此可以得到解析后的多个语句。

在步骤102中，确定所述多个语句中的每个语句与图片的对应关系的方法可以包括：

遍历混合链表，根据下述策略将图片与文本自然段对应。

a.每张图片可对应的文字区间：该图片上方的前一个与之不连续的图片（或前一个分割线、或文章开头）下方的，之间的文字。

b.具体对应规则如下：

i.单独一张图片，对应文字与图片上方最近的自然段（合并处理后的），是对应关系。

ii.连续多张图片，图片和文字都按照倒序相对应：即最后一张图对应最后一段，倒数第二张图对应倒数第二段，以此类推。

iii.无图片对应的文字，则对应默认黑场视频。

c.若可对应的文字区间内，出现图片比自然段多的情况，则后边多出来的图片对应空白字幕。

d.若两个图片之间，若只有空格，或只有换行符，则视为连续。

e.若两个图片之间，若文字全部被丢弃，或有分割线，视为不连续。

至此可以得到所述多个语句中的每个语句与图片的对应关系。

在步骤103中，根据语句与图片之间的对应关系，产生图文大纲，并返回给客户端。如图3所示的图文大纲，左侧列出了图片，图片的右侧排列了对应于该图片的文本。在一个实施例中，用户可以通过点击选择、触摸拖动等方式调整图片和文本的对应关系。

在步骤104中，获取与所述文本相关的朗读语音配置，朗读配置可以包括，音频或者文本。对于文本，可以自动朗读。为了尽量做到音画统一，需要视频字幕，与音频朗读在时间上尽量一致。配置的方法可以包括：下载图片资源的同时，开始首段内容的音频加载，图片加载成功即可进入预览页，音频资源在请求成功之后，插入轨道，如果下载失败时，再次播放到该段落时，重新获取，或者用户手动重试获取。

在步骤105，根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿，并提供创作者预览，如果创造者不满意，可以直接拖动图片或文字，调整其对应关系，进行修改，如图4所示。其中，结构化的视频草稿还包括背景音乐配置，也可以通过加载相关的音乐文件进行配置。

生成视频草稿之后，可以进行预览。预览模式的视频播放、导出、时间线设计跟传统模式类似，可以直接让创作者进行对应视频的预览和编辑。预览模式包括多媒体资源的转化、音频生成、和草稿的处理。多媒体转化部分主要考虑到用户有很多存量的图文作品，可以直接导入进行视频化，本公开的方法会按照更适合视频的格式进行切分和处理，生成对应的段落和大纲。

针对预览，本公开的方法设计了3个对应的时间线轨道:视频轨道、字幕和音频轨道、水印轨道，可分别处理对应的资源时间对应，所述视频轨道、所述字幕轨道和所述朗读音频轨道基于所述语句和图片之间的对应关系沿时间轴对齐。

步骤501，进入预览的页面。

步骤502，设置视频轨道的数据。

步骤503，加载段落对应的数据。

步骤504，判断是否存在段落文本。

若无，则进入步骤505，获取音频文件的播放时长。以及

步骤506，添加音频。

若有，则进入步骤507，预估文本的朗读时长。

在步骤506或507之后，步骤508，获得段落的对应时长，基于与图片对应的语句的预估朗读时间和/或朗读音频文件的播放时长，确定所述图片的播放时长。

步骤509，添加视频。

步骤510，添加字幕。

同时，在生成视频的时候，也会添加预选的水印，也可以选择不添加水印，最终合成视频。

在一个可能的实施例中，获得段落文本对应的音频文件也可以来自于网络，通过设置网络上的链接地址等方式进行。

如果创作者预览后想要生成视频，则本公开的方法会保证所有的音频文件已全部下载到本地，会使用真实的音频时间重置所有数据，保证音频的语速是正常的。通常，可以按照段落下载和在本地保存与所述多个语句相关联的朗读音频文件。

本公开以单独的段落文本列表为数据处理单位，举例说明如下：

a.如果第二句是一个空行，那么整个段落，会先分成两个请求。

b.拆分之后的数据，组装成一个完整请求。

c.因网络请求携带内容，也是有最大上限值的，所以，合并之后的请求，需要进行，是否超过最大上限值，如果超过，那么网络请求，需要继续拆分。

d.网络请求划分完成之后，每个请求的文本+音色相关信息会拼接成一个文本，生成对应的值，作为文件名字。

e.发起网络请求，网络请求成功之后，按照上面的文件名，保存到文件，翻边下次使用。

f.为了方便音频数据与字幕，画面的对应，同时降低数据处理的复杂度，以段落划分的所有音频请求为一个整体，所有请求都成功，认为是段落的音频获取成功，其中一个数据失败，则认为当前段落的音频获取失败。

针对草稿视频，本公开的方法可以在创作期间维护一个草稿（Draft）数据结构。在变更视频图文数据（outlineData）、背景音乐数据（musicInfo）、朗读设置（speechInfo）时都会同步更新（Draft）数据结构中的对应数据。

当用户保存时，如果时第一次生成该视频，则生成新的草稿唯一标识符（id），如果是从已有草稿开始的视频创作，则沿用该草稿的唯一标识符。同时更新草稿时间（date）。唯一标识符是判断草稿是否相等的依据，草稿时间是在草稿列表排序比较大小的依据。对草稿数据结构序列化，保存序列化后的数据至用户设备磁盘，达到持久化的目的。

读取草稿时，从磁盘目标路径读取对应数据，进行相应的反序列化操作，恢复成草稿数据结构，并将该草稿传入视频创作工具，初始化时将依据草稿各个数据恢复对应的创作状态。

所以，对于这样的结构化草稿视频，本公开的方法可以方便的将草稿内容用作视频内容的分析和处理。审核内容时，方便的识别出视频的内容，大大降低了视频的审核成本。

图6示出了根据本公开实施例的典型的处理图片和文本的系统的示意图。系统600包括解析图文单元601，用于解析所述图片和文本，得到多个语句；对应关系单元602，用于确定所述多个语句中的每个语句与图片的对应关系；大纲产生单元603，用于根据语句与图片之间的对应关系，产生图文大纲；朗读配置单元604，用于获取与所述文本相关的朗读语音配置；视频草稿单元605，用于根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿。

图7示出了用于实现本公开的实施例的电子设备的结构示意图。如图7所示，电子设备700包括中央处理单元（CPU）701，其可以根据存储在只读存储器（ROM）702中的程序或者从存储部分708加载到随机访问存储器（RAM）703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该指令被中央处理单元（CPU）701执行时，执行本公开中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本公开构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种处理图片和文本的方法，包括：

解析所述图片和文本，得到多个语句；

确定所述多个语句中的每个语句与图片的对应关系；

根据语句与图片之间的对应关系，产生图文大纲；

获取与所述文本相关的朗读语音配置；以及

2.如权利要求1所述的方法，其中解析所述图片和文本包括：

根据所述图片和文本，构建文档对象模型树；

3.如权利要求1所述的方法，其中，所述图片被嵌入在所述文本中，所述方法还包括：

4.如权利要求3所述的方法，其中，所述文本包括段落，所述方法还包括：

对于单独的图片，确定该图片对应于其上方最近的段落；

对于无图片对应的段落，确定其对应于默认黑场视频。

5.如权利要求1所述的方法，所述结构化的视频草稿还包括背景音乐配置。

6.如权利要求1所述方法，还包括：根据所述结构化的视频草稿产生视频，所述视频包括关于所述图片的视频轨道、关于所述多个语句的字幕轨道、关于所述多个语句的朗读音频轨道。

7.如权利要求6所述的方法，还包括，按照段落下载和在本地保存与所述多个语句相关联的朗读音频文件。

8.如权利要求6所述的方法，其中，所述视频轨道、所述字幕轨道和所述朗读音频轨道基于所述语句和图片之间的对应关系沿时间轴对齐。

9.如权利要求8所述的方法，其中，基于与图片对应的语句的预估朗读时间和/或朗读音频文件的播放时长，确定所述图片的播放时长。

10.一种处理图片和文本的系统，包括：

解析图文单元，用于解析所述图片和文本，得到多个语句；

朗读配置单元，用于获取与所述文本相关的朗读语音配置；

11.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至9任一项所述方法。

12.一种计算机可读存储介质，其上存储有可执行指令，所述可执行指令被处理器执行时使处理器执行如权利要求1至9任一项所述方法。