CN113806570A

CN113806570A - 图像生成方法和生成装置、电子设备和存储介质

Info

Publication number: CN113806570A
Application number: CN202111109448.3A
Authority: CN
Inventors: 朱明月
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-17

Abstract

本申请公开了一种图像生成方法和生成装置、电子设备和存储介质，属于图像处理技术领域。图像生成方法，包括：在播放视频的情况下，接收第一输入；响应于第一输入，显示目标界面，其中，目标界面中包括时刻信息和时刻信息对应的初始图像帧；根据时刻信息确定目标时间段信息，其中，目标时间段信息包括时刻信息；确定视频在目标时间段内的台词信息，并显示台词信息；根据初始图像帧，在视频中确定关键帧；根据台词信息和视频的关键帧生成对应的图像文件。

Description

图像生成方法和生成装置、电子设备和存储介质

技术领域

本申请属于图像处理技术领域，具体涉及一种图像生成方法和生成装置、电子设备和存储介质。

背景技术

在相关技术中，用户在播放视频，如观看电影时，可能会对某些场景感兴趣，从而希望记录该场景。目前的视频截图，仅能截取当前视频帧，用户需要通过专业软件来对视频帧进行编辑处理，来手动添加场景下的对话，体验不好。

发明内容

本申请实施例的目的是提供一种图像生成方法和生成装置、电子设备和存储介质，能够解决用户需要通过专业软件来手动记录场景问题。

第一方面，本申请实施例提供了一种图像生成方法，包括：

在播放视频的情况下，接收第一输入；

响应于第一输入，显示目标界面，其中，目标界面中包括时刻信息和时刻信息对应的初始图像帧，时刻信息为接收到第一输入的时刻；

根据时刻信息确定目标时间段信息，其中，目标时间段信息包括时刻信息；

确定视频在目标时间段内的台词信息，并显示台词信息；

根据初始图像帧，在视频中确定关键帧；

根据台词信息和视频的关键帧生成对应的图像文件。

第二方面，本申请实施例提供了一种图像生成装置，包括：

接收模块，用于在播放视频的情况下，接收第一输入；

显示模块，用于响应于第一输入，显示目标界面，其中，目标界面中包括时刻信息和时刻信息对应的初始图像帧，时刻信息为接收到第一输入的时刻；

接收模块，还用于接收针对时刻信息的第二输入；

确定模块，用于根据时刻信息确定目标时间段信息，其中，目标时间段信息包括时刻信息；

显示模块，还用于确定视频在目标时间段内的台词信息，并显示台词信息；

确定模块，还用于根据初始图像帧，在视频中确定关键帧；

生成模块，用于根据台词信息和视频的关键帧生成对应的图像文件。

第三方面，本申请实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，该程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现如第一方面的方法的步骤。

在本申请实施例中，在用户播放视频时，如果需要记录某场景，可以通过第一输入呼出目标界面，目标界面中显示有当前视频播放到的场景，并同时记录有以接收到第一输入的时刻信息，并自动获取该时刻信息附近的视频内容中的台词信息，通过视频的关键帧和该台词信息生成目标图像，使得目标图像包括了视频中重要场景的画面，也同时记录了该场景下的对话内容，无需用户手动截图后编辑，也无需使用专业软件，提高了使用体验。

附图说明

图1示出了根据本申请实施例的图像生成方法的流程图；

图2示出了根据本申请实施例的图像生成方法的界面示意图之一；

图3示出了根据本申请实施例的图像生成方法的界面示意图之二；

图4示出了根据本申请实施例的图像生成方法的界面示意图之三；

图5示出了根据本申请实施例的图像生成方法的界面示意图之四；

图6示出了根据本申请实施例的图像生成方法的界面示意图之五；

图7示出了根据本申请实施例的图像生成装置的结构框图；

图8示出了根据本申请实施例的电子设备的结构框图；

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像生成方法和生成装置、电子设备和存储介质进行详细地说明。

在本申请的一些实施例中，提供了一种图像生成方法，图1示出了根据本申请实施例的图像生成方法的流程图，如图1所示，方法包括：

步骤102，在播放视频的情况下，接收第一输入；

步骤104，响应于第一输入显示目标界面；

在步骤104中，目标界面中包括时刻信息，还包括视频在时刻信息下的初始图像帧，时刻信息为接收到第一输入的时刻；

步骤106，根据时刻信息确定目标时间段信息；

在步骤106中，目标时间段信息包括时刻信息；

步骤108，确定视频在目标时间段内的台词信息，并显示台词信息；

步骤110，根据初始图像帧，在视频中确定关键帧；

步骤112，根据台词信息和视频的关键帧生成对应的图像文件。

在本申请实施例中，在用户播放视频，如播放电影时，如果有希望留存或分享的场景，则可以通过第一输入，呼出目标界面。其中，第一输入可以是对视频播放界面中，截图标识的触发输入，也可以是手势输入或对电子设备的实体按键进行按压的输入，本申请实施例对此不做限制。

目标界面，可以是覆盖至少部分视频播放界面的“悬浮窗口”，也可以是替换视频播放界面的全新界面，在目标界面中，显示有接收到第一输入的时刻下，视频的图像帧，并标记为初始图像帧。

同时，在确定目标时间段时，可以根据接收到第一输入的时刻信息为起点，用户可以选择一段时长，如以时刻信息为起点，回退X秒，到达第一时刻，并以时刻信息为起点，快进Y秒，到达第二时刻，以第一时刻和第二时刻为端点，确定一段时长，即为目标时间段。

在另一些实施方式中，还可以预设一段时长，以时刻信息为起点或终点，根据时刻信息和预设时间段，确定上述目标时间段。

进一步地，采集所播放的视频在目标时间段内产生的台词信息，具体地，图2示出了根据本申请实施例的图像生成方法的界面示意图之一，如图2所示，目标界面200中显示有视频的图像帧202，该图像帧202具体为上述初始图像帧，同时还显示有目标时间段内的台词信息204。同时，目标界面200中还显示有时刻信息对应的时间标识206，以时间标识206为起点，可以选择一段时长作为目标时间段，以图2为例，当前的时刻信息为30min，用户通过时间标识206选择(30min-15s)至(30min+10s)的区间为目标时间段。

其中，可以通过识别字幕文件，或对目标时间段内的音频进行语音识别，来得到该台词信息。根据台词信息，和视频的关键帧，生成对应于用户希望留存或分享的场景的图像文件。其中，视频的关键帧可以是初始图像帧，也可以接收用户输入，根据用户输入，在所播放的视频的目标时间段内，选取任一图像帧作为关键帧。因此最终得到的目标图像包括了视频中重要场景的画面，也同时记录了该场景下的对话内容，无需用户手动截图后编辑，也无需使用专业软件，提高了使用体验。

在本申请的一些实施例中，确定视频在目标时间段内的台词信息，包括：

获取视频在目标时间段内的N个图像帧，其中N为正整数；

分别获取N个图像帧中包含的对话文本；

根据对话文本确定台词信息。

在本申请实施例中，可以通过所播放的视频，在目标时间段内的N个图像帧，来确定对应的台词信息。具体地，视频文件是由多个连续的帧图像构成的，因此，在目标时间段内，包括有N个连续的图像帧，按照设定的帧率对这些图像帧进行连续播放，就得到了目标时间段内的视频画面。

其中，每个视频帧均对应一个画面，可通过采集每个视频帧的画面中的字幕信息，确定N个图像帧的对话文本，也可以按照每个视频帧在视频中的时长，对视频文件中的音频部分进行分割，从而识别出一个或多个视频帧对应的对话文本。

在识别到这这些对话文本后，按照每句对话文本在视频中出现的时间顺序，对这些对话文本进行排序显示，如图2所示，从而得到目标界面200中对应显示的台词信息204。

本申请通过根据目标时间段内的N个图像帧确定对话文本，从而得到一段时间内的台词信息，从而能够保证在图像文件中显示的台词信息完整、连贯，提高使用体验。

在本申请的一些实施例中，根据初始图像帧，在视频中确定关键帧台词信息，包括：

在接收到第二输入的情况下，根据第二输入确定关键帧，其中，第二输入为对N个图像帧中的关键帧进行选择的输入；

在未接收到第二输入的情况下，将初始图像帧确定为关键帧。

在本申请实施例中，用户可以在目标时间段内的N个图像帧中，手动选择视频的关键帧，并作为生成的图像文件的图像内容。具体地，举例来说，图3示出了根据本申请实施例的图像生成方法的界面示意图之二，如图3所示，目标界面300中，显示有拖动条302，用户通过拖动滑块304的方式，可以在N个视频帧中切换当前目标界面中显示的关键帧。

如果用户没有手动选择关键帧，则默认将当前目标界面中显示的初始图像帧306作为关键帧，从而生成图像文件。

本申请实施例通过根据用户选择的目标帧作为关键帧，使得生成的图像文件能够更好的表达用户希望记录的场景，提高了用户体验。

在本申请的一些实施例中，图像文件为动图文件；

根据台词信息和视频的关键帧生成对应的图像文件，包括：

根据对话文本，在N个图像帧中，确定包含对话文本的M个目标帧，其中M为小于或等于N的正整数；

根据M个目标帧，生成对应的动图文件；

根据动图文件和台词信息，生成图像文件。

在本申请实施例中，图像文件可以是动图文件，即动态图像，如.GIF格式的图像，其中，动态图像包括多个帧图像，这些帧图像按照先后顺序连续播放，从而得到“动态”的效果。

对于用户希望生成动态图像的情况下，可以在N个图像帧中，确定包含对话文本的M个目标帧，其中，对于N个图像帧中均包括对话文本的情况，即M＝N的情况，可直接按照N个图像帧的时间顺序，合成为一个动态图像文件。

其中，还可根据用户设定的动态图像的文件大小、动态图像的帧率等属性，对N个图像帧进行抽帧或添帧。对于抽帧的情况，如果连续的两个图像帧中的对话文本相同，且图像内容接近，则可以将这两个相似的图像帧中的一个删除，仅保留两个图像帧中的一个图像帧，从而减小最终生成的动态图像的体积。

对于在N个图像帧中，存在若干个帧不包含对话文本的情况，则将包含对话文本的M个图像帧进行整合，得到仅包含对话文本的图像帧的集合，并生成动态图像。其中，如果N个图像帧中的对话文本不连续，如10个图像帧中，第1、2、3帧中存在对话文本，第8、9、10帧中存在对话文本，第4、5、6、7帧中不存在对话文本，则可以将第1、2、3帧合成为一份动态图像，将第8、9、10帧合成为第二份动态图像，即生成两份动态图像。

在生成两份动态图像后，还可以按照时间顺序，将两份动态图像首尾拼接，并在中间缺失部分帧的位置形成一个简单的转场特效，以提高图像的流畅度。

本申请实施例通过生成动态图像，使得图像文件更具表现力，能够更好的展现用户希望保存或分享的场景内容，提高使用体验。

在本申请的一些实施例中，根据台词信息和视频的关键帧生成对应的图像文件，包括：

接收针对台词信息的调整调整输入；

响应于调整输入，对台词信息进行调整，以调整台词信息的显示方式，和调整台词信息在关键帧中的位置；

根据调整后的台词信息和关键帧，生成图像文件；

其中，台词信息的显示方式包括以下至少一种：台词信息的字体、台词信息的颜色、台词信息的透明度、台词信息的大小。

在本申请实施例中，在生成图像文件时，还可以通过第四输入，对识别出的台词信息进行调整，具体包括调整台词信息的显示方式，以及调整台词信息的位置。

举例来说，图4示出了根据本申请实施例的图像生成方法的界面示意图之三，如图4所示，在目标界面400中，显示有关键帧402，同时包括台词信息404。同时，目标界面400中还显示有调整菜单406，通过调整菜单406，可以对台词信息的显示方式，具体为台词信息的字体、颜色、透明度和大小进行调整。

进一步地，台词信息可以通过“聊天气泡”的方式，显示在图像文件中，用户可以通过拖动聊天气泡的方式，改变对应的台词信息在关键帧，也即在最终呈现的图像文件中的显示位置，从而实现灵活设置图像文件，提高使用体验。

在本申请的一些实施例中，根据动图文件和台词信息，生成图像文件，包括：

对关键帧进行图像识别，确定关键帧包含的人脸图像；

根据人脸图像，确定对应的人物名；

根据视频，识别台词信息中，每个台词语句对应的人物名；

根据人物名、台词语句和关键帧，生成图像文件，其中，在图像文件中，台词语句和人物名对应显示。

在本申请实施例中，如果场景中包括人物，即发生对话的人物出现在了画面中，则可以通过对人物的人脸图像进行人脸识别，从而确定出对应的人物名，如“小A”、“小B”等。同时，对视频中对应的片段进行进一步识别，从而确定每句对话文本，是由哪个人物“说出”的。

具体地，在识别人物时，可以获取人脸数据，然后结合所播放视频的视频信息，假设视频是电影，则可以结合电影的演员信息和角色信息，得到演员和角色之间的对应列表，然后通过人脸识别到场景中的演员，从而确定该演员所饰演的角色名称，该角色名称即人物名称。

进一步地，通过对视频片段对应的音频信息进行声纹识别或音色识别等方式，识别出每一句台词语句具体是哪个角色说出来的，能够理解的是，也可以通过识别台词文本播放时，各角色的面部动作(嘴部动作)来对台词文本对应的人物进行识别，本申请对此不做限定。

在确定出人物名，和每个人物名对应的台词语句后，用户可以选择是否在生成的图像文件中显示人物名。如果用户不选择生成人物名，则根据台词语句和关键帧直接生成图像文件，此时图像文件中的对话可以按照如下方式显示：

“你今天值日吗”；

“今天我不值日，今天是小C值日”。

如果用户选择生成人物名，则在图像文件中的每句台词语句前，显示说出该台词语句的人物名，此时图像文件中的对话可以按照如下方式显示：

“小A：你今天值日吗”；

“小B：今天我不值日，今天是小C值日”。

本申请通过识别场景中的人物名，并对人物名和台词语句进行对应显示，使得用户在分享图像文件时，被分享的人看到图像文件后，能够快速理解场景内容，并明晰对话逻辑，从而提高了使用体验。

在本申请的一些实施例中，台词语句的数量为P，其中P为正整数；

根据人物名、台词语句和关键帧，生成图像文件，包括：

接收针对台词语句的第三输入，其中，第三输入为对P个台词语句中的目标台词语句进行选择的输入；

响应于第三输入，确定Q个目标台词语句，其中Q为小于或等于P的正整数；

根据人物名，Q个目标台词语句和关键帧，生成图像文件。

在本申请实施例中，如果识别到的台词语句的数量为多句，而其中并非全部语句都是用户希望保留的，此时，用户可以通过第三输入，在全部P个台词语句中，选取希望保留的Q个目标台词语句，从而使得最终生成的图像文件中，仅包括有用户希望保留的目标台词语句，提高用户体验。

具体地，图5示出了根据本申请实施例的图像生成方法的界面示意图之四，如图5所示，目标界面500中，显示有4个台词语句，其中，用户可通过触摸输入，将其中的几个台词语句选为目标台词语句，被选为目标台词语句旁边的方框标识被填充为黑色，从而表示该台词语句为目标台词语句。

本申请实施例通过使用户在识别出的多个台词语句中选取希望保留的目标台词语句，从而使生成的图像文件中能够更好的表达用户希望保存或分享的场景，提高用户体验。

在本申请的一些实施例中，在根据人物名、台词语句和关键帧，生成图像文件之前，方法还包括：

在人物名的数量为X个的情况下，显示X个人物名，其中，X为大于1的整数；

接收对X个人物名的第四输入，其中，第四输入为对X个人物名中的目标人物名进行选择的输入；

响应于第四输入，确定Y个目标人物名，其中Y为正整数；

根据人物名、台词语句和关键帧，生成图像文件，包括：

根据目标人物名、台词语句和关键帧，生成图像文件。

在本申请实施例中，如果识别出的人物名的数量为多个，具体为识别到X个人物名，则以列表的形式，显示这X个人物名。同时，接收用户的第四输入，根据用户的第四输入，在X个人物名中，选择用户关注的Y个目标人物名。

能够理解的是，目标人物名的数量可以为一个或多个。

在用户选取了目标人物名后，则对应在全部台词语句中，选出目标人物名对应的台词语句，并根据这些台词语句，和目标人物名对应的目标人物，以及关键帧生成最终的图像文件，因此，在最终生成的图像文件中，仅包含用户关注的人物，和用户关注的人物的台词语句，使图像文件更加符合用户希望保留或分享的场景。

在本申请的一些实施例中，根据人物名、台词语句和关键帧，生成图像文件，包括：

根据人脸图像，确定关键帧中包含的人物数量；

在人物数量为多个的情况下，截取人脸图像对应的人物图像；

将人物图像添加至关键帧中，得到人物帧；

根据人物名、台词语句和人物帧，生成图像文件，其中，在图像文件中，人物名和人物图像对应显示，台词语句和人物图像对应显示。

在本申请实施例中，如果人脸图像的数量为多个，也就说明当前用户所选场景中的人物数量为多个。而这些参与对话的人物，不一定会在同一个图像帧中同时出现。此时，则可以进入“趣味多人截图”模式。

具体地，首先，截取多个人脸图像对应的人物图像，其中，如果视频中出现人物的全身图像，则优先选取全身图像，如未出现全身图像，则截取半身图像或面部图像。

在截取人物图像之后，按照对话对象，将人物图像合并至同一个图像中，即将这些人物合成到关键帧中，举例来说，图6示出了根据本申请实施例的图像生成方法的界面示意图之五，如图6所示，人物数量为2个，分别为小A和小B，分别在不同的图像帧中，将小A和小B的人物图像截取出来，并添加至关键帧602中，形成小A和小B“面对面”的感觉。

进一步地，在生成的图像文件中，对应小A和小B的人物图像，对应标记两人的人物名，并分别用对话气泡的形式显示小A和小B的台词语句，从而使阅读者能够直接识别出小A和小B分别的台词语句，提高使用体验。

在本申请的一些实施例中，提供了一种图像生成装置，图7示出了根据本申请实施例的图像生成装置的结构框图，如图7所示，图像生成装置700包括：

接收模块702，用于在播放视频的情况下，接收第一输入；

显示模块704，用于响应于第一输入，显示目标界面，其中，目标界面中包括时刻信息和时刻信息对应的初始图像帧，时刻信息为接收到第一输入的时刻；

确定模块706，用于根据时刻信息确定目标时间段信息，其中，目标时间段信息包括时刻信息；

显示模块704，还用于确定视频在目标时间段内的台词信息，并显示台词信息；

确定模块706，还用于根据初始图像帧，在视频中确定关键帧；

生成模块708，用于根据台词信息和视频的关键帧生成对应的图像文件。

在本申请的一些实施例中，图像生成装置还包括：

获取模块，用于获取视频在目标时间段内的N个图像帧，其中N为正整数；分别获取N个图像帧中包含的对话文本；

生成模块，还用于根据对话文本确定台词信息。

在本申请的一些实施例中，确定模块，还用于在接收到第二输入的情况下，根据第二输入确定关键帧，其中，第二输入为对N个图像帧中的关键帧进行选择的输入；在未接收到第二输入的情况下，将初始图像帧确定为关键帧。

在本申请的一些实施例中，图像文件为动图文件；

确定模块，还用于根据对话文本，在N个图像帧中，确定包含对话文本的M个目标帧，其中M为小于或等于N的正整数；

生成模块，还用于根据M个目标帧，生成对应的动图文件；根据动图文件和台词信息，生成图像文件。

在本申请的一些实施例中，接收模块，还用于接收针对台词信息的调整输入；

图像生成装置还包括：

调整模块，用于响应于调整输入，对台词信息进行调整，以调整台词信息的显示方式，和调整台词信息在关键帧中的位置；

生成模块，还用于根据调整后的台词信息和关键帧，生成图像文件；

本申请实施例的台词信息可以通过“聊天气泡”的方式，显示在图像文件中，用户可以通过拖动聊天气泡的方式，改变对应的台词信息在关键帧，也即在最终呈现的图像文件中的显示位置，从而实现灵活设置图像文件，提高使用体验。

在本申请的一些实施例中，图像生成装置还包括：

识别模块，用于对关键帧进行图像识别，确定关键帧包含的人脸图像；

确定模块，还用于根据人脸图像，确定对应的人物名；

识别模块，还用于根据视频，识别台词信息中，每个台词语句对应的人物名；

生成模块，还用于根据人物名、台词语句和关键帧，生成图像文件，其中，在图像文件中，台词语句和人物名对应显示。

接收模块，还用于接收针对台词语句的第三输入，其中，第三输入为对P个台词语句中的目标台词语句进行选择的输入；

确定模块，还用于响应于第三输入，确定Q个目标台词语句，其中Q为小于或等于P的正整数；

生成模块，还用于根据人物名，Q个目标台词语句和关键帧，生成图像文件。

在本申请的一些实施例中，显示模块，还用于在人物名的数量为X个的情况下，显示X个人物名，其中，X为大于1的整数；

接收模块，还用于接收对X个人物名的第四输入，其中，第四输入为对X个人物名中的目标人物名进行选择的输入；

确定模块，还用于响应于第四输入，确定Y个目标人物名，其中Y为正整数；

生成模块，还用于根据目标人物名、台词语句和关键帧，生成图像文件。

在本申请实施例中，在人物名的数量为X个的情况下，显示X个人物名，其中，X为大于1的整数；

响应于第四输入，确定Y个目标人物名，其中Y为正整数；

根据人物名、台词语句和关键帧，生成图像文件，包括：

根据目标人物名、台词语句和关键帧，生成图像文件。

在本申请的一些实施例中，确定模块，还用于根据人脸图像，确定关键帧中包含的人物数量；

图像生成装置，还包括：

截取模块，用于在人物数量为多个的情况下，截取人脸图像对应的人物图像；

合成模块，用于将人物图像添加至关键帧中，得到人物帧；

生成模块，还用于根据人物名、台词语句和人物帧，生成图像文件，其中，在图像文件中，人物名和人物图像对应显示，台词语句和人物图像对应显示。

在截取人物图像之后，按照对话对象，将人物图像合并至同一个图像中，举例来说，人物数量为2个，分别为小A和小B，分别在不同的图像帧中，将小A和小B的人物图像截取出来，并添加至关键帧中，形成小A和小B“面对面”的感觉。进一步地，在生成的图像文件中，对应小A和小B的人物图像，对应标记两人的人物名，并分别用对话气泡的形式显示小A和小B的台词语句，从而使阅读者能够直接识别出小A和小B分别的台词语句，提高使用体验。

本申请实施例中的图像处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像处理装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，本申请实施例还提供一种电子设备800，图8示出了根据本申请实施例的电子设备的结构框图，如图8所示，包括处理器802，存储器804，存储在存储器804上并可在所述处理器802上运行的程序或指令，该程序或指令被处理器802执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。

本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，用户输入单元907用于在播放视频的情况下，接收第一输入；

处理器910用于响应于第一输入，显示目标界面，其中，目标界面中包括时刻信息和时刻信息对应的初始图像帧，时刻信息为接收到第一输入的时刻；

处理器910还用于根据时刻信息确定目标时间段信息，其中，目标时间段信息包括时刻信息；确定视频在目标时间段内的台词信息，并显示台词信息；根据初始图像帧，在视频中确定关键帧；根据台词信息和视频的关键帧生成对应的图像文件。

可选地，处理器910还用于获取视频在目标时间段内的N个图像帧，其中N为正整数；分别获取N个图像帧中包含的对话文本；根据对话文本确定台词信息。

可选地，处理器910还用于在接收到第二输入的情况下，根据第二输入确定关键帧，其中，第二输入为对N个图像帧中的关键帧进行选择的输入；在未接收到第二输入的情况下，将初始图像帧确定为关键帧。

可选地，图像文件为动图文件；处理器910还用于根据对话文本，在N个图像帧中，确定包含对话文本的M个目标帧，其中M为小于或等于N的正整数；根据M个目标帧，生成对应的动图文件；根据动图文件和台词信息，生成图像文件。

根据调整后的台词信息和关键帧，生成图像文件；其中，台词信息的显示方式包括以下至少一种：台词信息的字体、台词信息的颜色、台词信息的透明度、台词信息的大小。

可选地，处理器910还用于对关键帧进行图像识别，确定关键帧包含的人脸图像；根据人脸图像，确定对应的人物名；根据视频，识别台词信息中，每个台词语句对应的人物名；根据人物名、台词语句和关键帧，生成图像文件，其中，在图像文件中，台词语句和人物名对应显示。

可选地，台词语句的数量为P，其中P为正整数；用户输入单元907还用于接收针对台词语句的第三输入，其中，第三输入为对P个台词语句中的目标台词语句进行选择的输入；

处理器910还用于响应于第三输入，确定Q个目标台词语句，其中Q为小于或等于P的正整数；根据人物名，Q个目标台词语句和关键帧，生成图像文件。

可选地，显示单元906用于在人物名的数量为X个的情况下，显示X个人物名，其中，X为大于1的整数；

用户输入单元907还用于接收对X个人物名的第四输入，其中，第四输入为对X个人物名中的目标人物名进行选择的输入；

处理器910还用于响应于第四输入，确定Y个目标人物名，其中Y为正整数；根据目标人物名、台词语句和关键帧，生成图像文件。

可选地，处理器910还用于根据人脸图像，确定关键帧中包含的人物数量；在人物数量为多个的情况下，截取人脸图像对应的人物图像；将人物图像添加至关键帧中，得到人物帧；根据人物名、台词语句和人物帧，生成图像文件，其中，在图像文件中，人物名和人物图像对应显示，台词语句和人物图像对应显示。

应理解的是，本申请实施例中，输入单元904可以包括图形处理器(GraphicsProcessing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。

显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器909可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像生成方法，其特征在于，包括：

在播放视频的情况下，接收第一输入；

响应于所述第一输入，显示目标界面，其中，所述目标界面中包括时刻信息和所述时刻信息对应的初始图像帧，所述时刻信息为接收到所述第一输入的时刻；

根据所述时刻信息确定目标时间段信息，其中，所述目标时间段信息包括所述时刻信息；

确定所述视频在所述目标时间段内的台词信息，并显示所述台词信息；

根据所述初始图像帧，在所述视频中确定关键帧；

根据所述台词信息和所述关键帧生成对应的图像文件。

2.根据权利要求1所述的图像生成方法，其特征在于，所述确定所述视频在所述目标时间段内的台词信息，包括：

获取所述视频在所述目标时间段内的N个图像帧，其中N为正整数；

分别获取所述N个图像帧中包含的对话文本；

根据所述对话文本确定所述台词信息。

3.根据权利要求2所述的图像生成方法，其特征在于，所述根据所述初始图像帧，在所述视频中确定关键帧台词信息，包括：

在接收到第二输入的情况下，根据所述第二输入确定所述关键帧，其中，所述第二输入为对所述N个图像帧中的所述关键帧进行选择的输入；

在未接收到所述第二输入的情况下，将所述初始图像帧确定为所述关键帧。

4.根据权利要求2所述的图像生成方法，其特征在于，所述图像文件为动图文件；

所述根据所述台词信息和所述视频的关键帧生成对应的图像文件，包括：

根据所述对话文本，在所述N个图像帧中，确定包含所述对话文本的M个目标帧，其中M为小于或等于N的正整数；

根据所述M个目标帧，生成对应的动图文件；

根据所述动图文件和所述台词信息，生成所述图像文件。

5.根据权利要求4所述的图像生成方法，其特征在于，所述根据所述动图文件和所述台词信息，生成所述图像文件，包括：

对所述关键帧进行图像识别，确定所述关键帧包含的人脸图像；

根据所述人脸图像，确定对应的人物名；

根据所述视频，识别所述台词信息中，每个台词语句对应的所述人物名；

根据所述人物名、所述台词语句和所述关键帧，生成所述图像文件，其中，在所述图像文件中，所述台词语句和所述人物名对应显示。

6.根据权利要求5所述的图像生成方法，其特征在于，所述台词语句的数量为P，其中P为正整数；

所述根据所述人物名、所述台词语句和所述关键帧，生成所述图像文件，包括：

接收对所述台词语句的第三输入，其中，所述第三输入为对P个台词语句中的目标台词语句进行选择的输入；

响应于所述第三输入，确定Q个目标台词语句，其中Q为小于或等于P的正整数；

根据所述人物名，所述Q个目标台词语句和所述关键帧，生成所述图像文件。

7.根据权利要求5所述的图像生成方法，其特征在于，在所述根据所述人物名、所述台词语句和所述关键帧，生成所述图像文件之前，所述方法还包括：

在所述人物名的数量为X个的情况下，显示X个人物名，其中，X为大于1的整数；

接收对所述X个人物名的第四输入，其中，所述第四输入为对所述X个人物名中的目标人物名进行选择的输入；

响应于所述第四输入，确定Y个目标人物名，其中Y为正整数；

根据所述目标人物名、所述台词语句和所述关键帧，生成所述图像文件。

8.根据权利要求5所述的图像生成方法，其特征在于，所述根据所述人物名、所述台词语句和所述关键帧，生成所述图像文件，包括：

根据所述人脸图像，确定所述关键帧中包含的人物数量；

在所述人物数量为多个的情况下，截取所述人脸图像对应的人物图像；

将所述人物图像添加至所述关键帧中，得到人物帧；

根据所述人物名、所述台词语句和所述人物帧，生成所述图像文件，其中，在所述图像文件中，所述人物名和所述人物图像对应显示，所述台词语句和所述人物图像对应显示。

9.一种图像生成装置，其特征在于，包括：

接收模块，用于在播放视频的情况下，接收第一输入；

显示模块，用于响应于所述第一输入，显示目标界面，其中，所述目标界面中包括时刻信息和所述时刻信息对应的初始图像帧，所述时刻信息为接收到所述第一输入的时刻；

确定模块，用于根据所述时刻信息确定目标时间段信息，其中，所述目标时间段信息包括所述时刻信息；

所述显示模块，还用于确定所述视频在所述目标时间段内的台词信息，并显示所述台词信息；

所述确定模块，还用于根据所述初始图像帧，在所述视频中确定关键帧；

生成模块，用于根据所述台词信息和所述关键帧生成对应的图像文件。

10.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至8中任一项所述方法的步骤。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。