CN109857905A

CN109857905A - 一种视频编辑方法及终端设备

Info

Publication number: CN109857905A
Application number: CN201811445365.XA
Authority: CN
Inventors: 缪刚
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-06-07
Anticipated expiration: 2038-11-29
Also published as: CN109857905B

Abstract

本发明实施例提供了一种视频编辑方法及终端设备，涉及通信技术领域，以解决用户在视频编辑中因输入文字，再设置文字显示位置，导致用户操作繁琐的问题。其中，所述视频编辑方法，包括：在目标视频处于编辑状态的情况下，接收用户的第一输入；响应于所述第一输入，识别所述第一输入对应的文字信息，以及识别所述目标视频包括的图像内容；在所述目标视频包括的图像内容中，获取与所述文字信息匹配的目标图像内容；将所述文字信息与所述目标图像内容关联显示。本发明实施例中的视频编辑方法应用于终端设备中。

Description

一种视频编辑方法及终端设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种视频编辑方法及终端设备。

背景技术

在编辑视频的过程中，用户通常会在视频显示的画面中加入文字信息，文字信息可提高视频的趣味性，可传达用户的想法，还可帮助观看者理解视频中的内容。

在常见的视频编辑方法中，用户可输入一段文字，再将输入的文字设置在视频对应的位置。如，用户输入“美丽的风景”的文字后，可将“美丽的风景”的文字设置在视频显示风景的画面中。

在上述过程中，用户需进行输入文字和设置文字位置的操作，尤其是在一个视频中，一般有多处位置显示文字，从而用户需要重复多次输入文字、设置文字位置的操作，导致用户操作繁琐。

发明内容

本发明实施例提供一种视频编辑方法，以解决用户在视频编辑中因输入文字，再设置文字显示位置，导致用户操作繁琐的问题。

为了解决上述技术问题，本发明是这样实现的：一种视频编辑方法，包括：在目标视频处于编辑状态的情况下，接收用户的第一输入；响应于所述第一输入，识别所述第一输入对应的文字信息，以及识别所述目标视频包括的图像内容；在所述目标视频包括的图像内容中，获取与所述文字信息匹配的目标图像内容；将所述文字信息与所述目标图像内容关联显示。

第一方面，本发明实施例还提供了一种终端设备，包括：第一输入接收模块，用于在目标视频处于编辑状态的情况下，接收用户的第一输入；第一输入响应模块，用于响应于所述第一输入，识别所述第一输入对应的文字信息，以及识别所述目标视频包括的图像内容；文字匹配模块，用于在所述目标视频包括的图像内容中，获取与所述文字信息匹配的目标图像内容；文字显示模块，用于将所述文字信息与所述目标图像内容关联显示。

第二方面，本发明实施例还提供了一种终端设备，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述视频编辑方法的步骤。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述视频编辑方法的步骤。

在本发明实施例中，在目标视频处于编辑状态的情况下，用户可通过第一输入在目标视频中输入文字信息，从而终端设备可基于用户输入的文字信息进行智能识别，同时智能识别目标视频中包含的图像内容，进而对识别的文字信息和图像内容进行匹配，若文字信息与部分图像内容匹配，则将匹配的图像内容作为目标图像内容，以使文字信息根据匹配结果与目标图像内容关联显示，达到在目标视频中添加文字信息的效果。从上述过程可以看出，用户执行的操作仅仅是输入文字信息，终端设备就可自动识别文字信息及视频内容，并将文字信息智能添加至目标位置，避免了用户设置文字信息位置的操作，简化用户操作。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的视频编辑方法的流程图之一；

图2是本发明实施例的视频编辑方法的流程图之二；

图3是本发明实施例的视频编辑方法的流程图之三；

图4是本发明实施例的视频编辑方法的流程图之四；

图5是本发明实施例的视频编辑方法的流程图之五；

图6是本发明实施例的终端设备的框图之一；

图7是本发明实施例的终端设备的框图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，示出了本发明一个实施例的视频编辑方法的流程图，应用于终端设备，包括：

步骤S1：在目标视频处于编辑状态的情况下，接收用户的第一输入。

目标视频为用户选取的视频，用户可对选取的目标视频进行编辑，编辑操作如：删减视频内容、调整视频播放速度等等。控制目标视频进入编辑状态的过程可为：用户点击目标视频的编辑按键，目标视频进入编辑状态。

对应地，目标视频进入编辑状态时，用户可以在目标视频中增加或减少相应的内容。其中，进入编辑状态的目标视频，可以是处于播放状态，也可以是停留在某个视频帧的静止状态。

第一输入用于用户输入文字信息。

其中，第一输入包括点击输入、文本输入、语音输入、脑电波输入、在屏上的悬空非摄像头输入、利用摄像头进行识别的手势输入等多种操作形式。

例如，点击输入包括用户在显示屏上点击按键、点击某一显示位置；文本输入包括用户在显示屏上输入文本内容；等等。

第一输入包括一系列的操作，每个操作对应为一个子输入。例如，目标视频处于编辑状态时，用户可对添加文字的按键进行点击子输入，响应于该点击子输入，显示界面弹出输入框，用户在输入框进行文本子输入，响应于该文本子输入，输入框显示用户输入的文本内容。

步骤S2：响应于第一输入，识别第一输入对应的文字信息，以及识别目标视频包括的图像内容。

响应于第一输入，获取用户在第一输入中输入的文字信息，并对文字信息进行识别，识别的内容包括文字信息中的字符、文字信息的语义、文字信息的长度、文字信息的格式中至少一项。

进一步地，第一输入还包括用于表示完成输入文字信息的点击子输入，从而响应于该点击子输入，开始识别用户输入的文字信息。

例如，用户在输入框输入文字信息后，对输入框以外的区域进行点击子输入，以表示完成输入文字信息；又如，用户在输入框输入文字信息后，对输入框内的“完成”按键进行点击子输入，以表示完成输入文字信息。

需要说明的是，在该步骤中，对目标视频包括的图像内容的识别动作，以及对文字信息的识别动作，不作先后顺序的限定。

优选地，目标视频包括的图像内容不限于每帧对应的静态画面，以及静态画面包括的对象，如山水、人物等。

步骤S3：在目标视频包括的图像内容中，获取与文字信息匹配的目标图像内容。

根据识别的文字信息和图像内容，在图像内容中选取与文字信息匹配的图像内容作为目标图像内容。示例性地，可根据文字信息的语义与图像内容进行匹配。

例如，根据语义识别得到文字信息与风景相关，则选取风景类的静态画面作为目标图像内容；又例如，以包含多种水果的画面为例，当输入的文字信息为“苹果”时，则在画面中包括的苹果、葡萄、橘子、橙子等对象中，找到苹果这个目标对象，以及其位置，以作为目标图像内容。

步骤S4：将文字信息与目标图像内容关联显示。

其中，文字信息与目标图像内容关联显示包括：文字信息与视频帧对应的目标静态画面关联显示、文字信息与静态画面包括的目标对象关联显示。

例如，在文字信息与视频帧对应的目标静态画面关联显示的情况下，某一视频帧对应的静态画面的类型与文字信息相关，则将文字信息显示在该视频帧对应的静态画面中。其中，文字信息与目标静态画面关联显示，显示位置不固定，文字信息可以显示在目标静态画面的空白区域、中心区域、边角区域等。

具体地，多个视频帧对应的静态画面有人物类画面、食物类画面、风景类画面等，其中，以风景类画面为例，当文字信息“美景”识别出来后，则在视频帧对应的静态画面中找到风景类画面，并将“美景”则两个文字显示在该视频帧对应的风景类画面的空白区域、中心区域，或者边角区域等。文字信息与视频帧对应的目标静态画面进行关联显示，以使文字信息与目标静态画面之间的关系能够突出显示。

进一步地，文字信息还可以根据目标静态画面的显示布局进行调整显示位置或者显示大小。例如，目标静态画面的上部分区域显示为空白内容，下部分区域显示为风景图像，则可将文字信息显示在上部分区域，以避免遮挡风景图像。或者，目标静态画面的全部区域显示为风景图像，则将文字信息显示在风景图像上。或者，目标静态画面的部分区域显示为风景图像，部分区域显示为食物图像，则将与风景相关的文字信息与风景图像关联显示。

又如，在文字信息与静态画面包括的目标对象关联显示的情况下，某一视频帧对应的静态画面中包括目标对象，则将相关的文字信息也显示在该视频帧对应的静态画面中，且文字信息与静态画面中包括目标对象关联显示。

其中，文字信息与目标对象关联显示，显示位置不固定，文字信息可以紧靠目标对象显示，也可以显示在目标对象上，而非在固定的位置进行显示。

具体地，以水果类静态画面为例，水果类静态画面中包括苹果、葡萄、橘子、橙子等多个水果类对象中，当文字信息“苹果”识别出来后，并在水果类静态画面找到了“苹果”这个目标图像内容，以及其轮廓所在位置。则将“苹果”则两个文字在围绕苹果图像的四周显示，或者在苹果图像上显示，或者一个字显示在苹果图像上，另一个字显示在苹果图像外。在多种图像内容中，文字信息与目标图像内容进行关联显示，以使文字信息与目标图像内容之间的关系能够突出显示。

进一步地，文字信息还可以根据目标对象的形状进行调整显示位置或者显示大小。例如，目标对象为竖直长条状，则文字信息沿竖向显示；目标对象为倾斜的长条状，则文字信息沿倾斜方向显示；目标对象包括葫芦状的形状时，但文字信息包括两个文字时，则一个文字显示字体偏小，一个文字显示字体较大。

在图1所示实施例的基础上，图2示出了本发明另一个实施例的视频编辑方法的流程图，步骤S2包括：

步骤S21：响应于第一输入，获取第一输入对应的文字信息。

步骤S22：识别文字信息包含的至少两个文字子信息。

进一步地，第一输入还包括智能拆分子输入。

例如，智能拆分子输入的具体操作方式为：用户输入文字信息后，点击输入框上显示的“拆分”按键。

或者，智能拆分子输入的具体操作方式为：用户输入文字信息后，点击输入框上显示的“完成”按键，终端自动进行智能拆分。

优选地，响应于第一输入中用于体现智能拆分的操作输入，获取并识别第一输入对应的文字信息，将文字信息中包含的句号等标点符号作为分段标识，以按照分段标识将文字信息分为多段，拆分后的每段文字信息表示一个文字子信息，文字信息至少包括两个文字子信息。

另外，还可识别文字信息的语义，根据语义将文字信息分为多段。

例如，用户可根据需要，一次性在输入框中输入待添加的全部文字信息，并通过标点符号，将全部的文字信息划分为多段文字子信息，从而基于终端的智能拆分功能，可根据用户输入的标点符号，对文字信息进行拆分。

具体地，用户在输入框中输入的文字信息为“苹果、葡萄、橘子、橙子”，从而自动将文字信息拆分为“苹果”、“葡萄”、“橘子”、“橙子”多个文字子信息，再基于识别的苹果图像内容、葡萄图像内容、橙子图像内容分别将对应的文字子信息与目标图像内容关联显示。

其中，在对文字信息进行智能拆分的同时，还可根据拆分的结果，自动删减、调整文字子信息中包含的标点符号等。

具体地，用户在输入框中输入的文字信息为“XXXXXX，XXXXXX”，若分析得到根据逗号拆分文字信息后，形成的两个文字子信息可分别表达的独立的含义，则拆分文字信息后自动删除逗号。或者，用户在输入框中输入的文字信息为“XXXXXX，XXXXXX；XXXXXX，XXXXXX。”若分析得到根据逗号拆分文字信息后，形成的文字子信息无法表达的独立的含义，则只能根据分号拆分文字信息，且拆分文字信息后自动将分号调整为句号，进一步，还可将分段后的文字信息的句号删除。

在更多的智能拆分中，还可根据文字信息的格式进行拆分，如两个句子之间虽然没有标点符号，但识别到两个句子之间设有换行符，则可将两个句子分别作为一个文字子信息。

对应地，步骤S4包括：

步骤S41：将文字子信息与对应的目标图像内容关联显示。

在图1所示实施例的基础上，本实施例提供了智能拆分文字信息的方案，若用户需要在视频中添加多段文字信息，只需写入一次文字信息即可，从而终端设备可进行智能拆分，并对拆分的每段文字信息分别进行智能匹配，以将每段文字信息分别与匹配的目标图像内容关联显示。相比于现有技术中，用户多次输入文字信息，多次设置文字信息的显示位置，本实施例用户一次性输入所有需添加的文字信息就可一步到位，进一步简化了用户的操作。

进一步地，终端还可根据用户输入的文字信息进行主动拆分，而非用户一次性输入的多段文字，从而根据智能拆分而来的显示方式，为用户提供更优选、更智能的添加效果，以供用户参考。

在图2所示实施例的基础上，图3示出了本发明另一个实施例的视频编辑方法的流程图，步骤S2包括：

步骤S23：获取目标视频的多个关键帧对应的图像内容。

步骤S24：识别目标视频的多个关键帧对应的图像内容。

在本实施例中，可优选获取目标视频中多个关键帧对应的图像内容进行识别。其中，关键帧对应的图像内容可认为是该时刻对应的视频截图，还可以是视频截图中的对象。

步骤S25：对多个关键帧对应的图像内容进行归类。

基于识别的多个关键帧对应的图像内容，分别对其进行分类，如风景类、人物类、食物类等。一个关键帧对应的图像内容可被归为多类。

在实际应用中，可对关键帧对应的图像内容添加相应标签，标签如“风景”、“宠物”、“人物”、“运动”、“聚会”等，从而通过添加标签的方式实现对图像内容的归类处理。

优选地，可利用图像识别技术对关键帧对应的图像内容进行识别。

例如，在一个关键帧对应的图像内容中识别出“苹果”，则将该关键帧对应的图像内容添加“水果”、“苹果”、“食物”等多个标签。

对应地，步骤S3包括：

步骤S31：若文字子信息与至少一个关键帧对应的图像内容所属的类型匹配，则将至少一个关键帧对应的图像内容确定为文字子信息对应的目标图像内容。

在该步骤中，分别将每个文字子信息与识别的图像内容所属的类型，行匹配，以分别使每个文字子信息与对应的关键帧关联显示。进一步地，在使每个文字子信息与对应的关键帧关联显示的基础上，还可基于在对应的关键帧识别的目标对象，使每个文字子信息在对应的关键帧中，与对应的目标对象关联显示。

例如，文字子信息为“苹果”，将标签为“苹果”的关键帧与文字子信息关联显示，进一步地，将“苹果”文字与该关键帧中的“苹果”对象关联显示。

本实施例提供了一种识别目标图像内容的方法，首先将视频的动态图像转换为关键帧对应的静态图像，以便于对静态图像进行识别。在对关键帧对应的静态图像进行识别后，根据识别的图像内容对关键帧进行分类，以用于文字信息与所属的类型进行匹配，从而得到每段文字信息对应的关键帧，再将文字信息显示在对应的关键帧中。

在图3所示实施例的基础上，图4示出了本发明一个实施例的视频编辑方法的流程图，步骤S4至少包括以下任一项：

步骤S42：将一个文字子信息重复显示在多个连续关键帧对应的目标图像内容中。

若多个连续的关键帧的标签均与一个文字子信息匹配，则将该文字子信息分别显示在每个关键帧中。从而用户在观看视频时，多个连续的关键帧连续播放，使得该文字子信息持续显示，增强用户的观看效果。

这种情况适用于多个连续的关键帧中的图像内容变化不大，一个文字子信息连续显示，还可在多个关键帧之间起到衔接作用。

步骤S43：将一个文字子信息对应显示在一个关键帧对应的目标图像内容中。

对于有多个关键帧均与一个文字子信息匹配的情况时，可以仅在其中的一个关键帧中显示该文字子信息，以避免用户在观看视频时，因同一文字子信息重复出现，造成视觉审美疲劳，影响观看效果。

这种情况更适用于多个不连续的关键帧共用一个文字子信息，以避免同一文字子信息分别在不同的时段出现。

步骤S44：将多个文字子信息分别对应显示在多个间隔的关键帧对应的目标图像内容中。

该步骤中的多个文字子信息可以是多个不同的文字子信息，每个文字子信息均有匹配的关键帧，为了避免视频中的文字变化速度过快，可将各个匹配成功的关键帧之间间隔一定数量非匹配成的帧图后均匀分布，以免用户在短时间内看到多个关键帧均显示文字信息，文字信息的变化速度过快，无法保证用户体验。

该步骤中的多个文字子信息可以是多个相同的文字子信息；还可以既包括多个不同的文字子信息，又包括多个相同的文字子信息。

特别地，对于前面关键帧已显示过的文字子信息，若后续的关键帧也与其匹配，还可以提取前面关键帧对应的原始视频文件的字幕内容，并将该字幕内容显示在后续的关键帧中，这样方便用户将字幕内容和视频帧内容关联，产生更好的观看体验。

在图1所示实施例的基础上，图5示出了本发明另一个实施例的视频编辑方法的流程图，步骤S4之后还包括：

步骤S5：接收用户的第二输入。

步骤S6：响应于第二输入，根据第二输入对应的调整操作，调整文字信息在目标视频中的显示位置。

在终端设备完成智能拆分和智能添加文字信息后，用户还通过第二输入调整文字信息在目标视频中的显示位置。

其中，第二输入包括长按、拖动、删除等多种操作形式。

例如，以上实施例可将文字信息显示在对应的帧图中，但具体的显示位置不固定，从而用户可长按文字信息，激活文字信息的移动状态，再将文字信息拖动至目标位置。

又如，用户还长按文字信息，激活文字信息的移动状态，将文字信息拖动至另一帧图中的目标位置。

又如，一个文字信息可匹配多个目标图像内容，从而使得一个文字信息重复与多个目标图像内容关联显示，则用户可根据需求，保留文字信息的部分显示位置。

本实施例在智能添加文字信息的基础上，还为用户提供了个性化服务，以使用户根据需求调整文字信息的显示情况，还可继续拆分文字信息，或者合并文字信息，以将拆分或者合并后的文字信息显示在关联位置处。可见，在简化用户操作的同时，还满足用户的个人需求，优化用户的使用体验。

进一步地，若文字信息无对应的目标图像内容，则可将文字信息显示在目标视频的片头位置，以起到提醒用户的作用，便于用户对这些文字信息进行相关操作，如将这些文字信息手动添加至目标位置；又如，基于这些文字信息重新匹配目标图像内容；或者删除这些文字信息。

综上所述，在以上发明实施例中，简化了用户给视频添加文字的操作流程。用户可一次性输入完整的文字，终端设备根据图像处理，对视频画面进行识别，以根据文字内容和视频内容的分析结果进行匹配，将文字拆分显示到视频对应的目标位置，简化用户操作，提升了视频编辑过程中的智能性，优化用户体验。

图6示出了本发明另一个实施例的终端设备的框图，包括：

第一输入接收模块10，用于在目标视频处于编辑状态的情况下，接收用户的第一输入；

第一输入响应模块20，用于响应于第一输入，识别第一输入对应的文字信息，以及识别目标视频包括的图像内容；

文字匹配模块30，用于在目标视频包括的图像内容中，获取与文字信息匹配的目标图像内容；

文字显示模块40，用于将文字信息与目标图像内容关联显示。

优选地，第一输入响应模块20包括：

文字获取单元，用于响应于第一输入，获取第一输入对应的文字信息；

文字分段单元，用于识别文字信息包含的至少两个文字子信息；

文字显示模块40包括：

分段显示单元，用于将文字子信息与对应的目标图像内容关联显示。

优选地，第一输入响应模块20还包括：

图像获取单元，用于获取目标视频的多个关键帧对应的图像内容；

图像识别单元，用于识别目标视频的多个关键帧对应的图像内容；

图像归类单元，用于对多个关键帧对应的图像内容进行归类；

文字匹配模块30包括：

目标图像确定单元，用于若文字子信息与至少一个关键帧对应的图像内容所属的类型匹配，则将至少一个关键帧对应的图像内容确定为文字子信息对应的目标图像内容。

优选地，文字显示模块30至少包括以下任一项：

连续显示单元，用于将一个文字子信息重复显示在多个连续关键帧对应的目标图像内容中；

单一显示单元，用于将一个文字子信息对应显示在一个关键帧对应的目标图像内容中；

间隔显示单元，用于将多个文字子信息分别对应显示在多个间隔的关键帧对应的目标图像内容中。

优选地，终端设备还包括：

第二输入接收模块，用于接收用户的第二输入；

第二输入响应模块，用于响应于第二输入，根据第二输入对应的调整操作，调整文字信息在目标视频中的显示位置。

本发明实施例提供的终端设备能够实现图1至图5的方法实施例中终端设备实现的各个过程，为避免重复，这里不再赘述。

图7为实现本发明各个实施例的一种终端设备的硬件结构示意图，该终端设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图7中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，用户输入单元107，用于在目标视频处于编辑状态的情况下，接收用户的第一输入；

处理器110，用于响应于所述第一输入，识别所述第一输入对应的文字信息，以及识别所述目标视频包括的图像内容；在所述目标视频包括的图像内容中，获取与所述文字信息匹配的目标图像内容；

显示单元106，用于将所述文字信息与所述目标图像内容关联显示。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与终端设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

终端设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在终端设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图7中，触控面板1071与显示面板1061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与终端设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备100内的一个或多个元件或者可以用于在终端设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

终端设备100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备100包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种终端设备，包括处理器110，存储器109，存储在存储器109上并可在所述处理器110上运行的计算机程序，该计算机程序被处理器110执行时实现上述视频编辑方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频编辑方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频编辑方法，其特征在于，包括：

在目标视频处于编辑状态的情况下，接收用户的第一输入；

响应于所述第一输入，识别所述第一输入对应的文字信息，以及识别所述目标视频包括的图像内容；

在所述目标视频包括的图像内容中，获取与所述文字信息匹配的目标图像内容；

将所述文字信息与所述目标图像内容关联显示。

2.根据权利要求1所述的方法，其特征在于，所述响应于所述第一输入，识别所述第一输入对应的文字信息，包括：

响应于所述第一输入，获取所述第一输入对应的文字信息；

识别所述文字信息包含的至少两个文字子信息；

所述将所述文字信息与所述目标图像内容关联显示，包括：

将所述文字子信息与对应的所述目标图像内容关联显示。

3.根据权利要求2所述的方法，其特征在于，所述识别所述目标视频包括的图像内容，包括：

获取所述目标视频的多个关键帧对应的图像内容；

识别所述目标视频的多个关键帧对应的图像内容；

对所述多个关键帧对应的图像内容进行归类；

所述在所述目标视频包括的图像内容中，获取与所述文字信息匹配的目标图像内容，包括：

若所述文字子信息与至少一个关键帧对应的图像内容所属的类型匹配，则将所述至少一个关键帧对应的图像内容确定为所述文字子信息对应的目标图像内容。

4.根据权利要求3所述的方法，其特征在于，所述将所述文字信息与所述目标图像内容关联显示，至少包括以下任一项：

将一个所述文字子信息重复显示在多个连续关键帧对应的所述目标图像内容中；

将一个所述文字子信息对应显示在一个关键帧对应的所述目标图像内容中；

将多个所述文字子信息分别对应显示在多个间隔的关键帧对应的所述目标图像内容中。

5.根据权利要求1所述的方法，其特征在于，所述将所述文字信息与所述目标图像内容关联显示之后，还包括：

接收所述用户的第二输入；

响应于所述第二输入，根据所述第二输入对应的调整操作，调整所述文字信息在所述目标视频中的显示位置。

6.一种终端设备，其特征在于，包括：

第一输入接收模块，用于在目标视频处于编辑状态的情况下，接收用户的第一输入；

第一输入响应模块，用于响应于所述第一输入，识别所述第一输入对应的文字信息，以及识别所述目标视频包括的图像内容；

文字匹配模块，用于在所述目标视频包括的图像内容中，获取与所述文字信息匹配的目标图像内容；

文字显示模块，用于将所述文字信息与所述目标图像内容关联显示。

7.根据权利要求6所述的终端设备，其特征在于，所述第一输入响应模块包括：

文字获取单元，用于响应于所述第一输入，获取所述第一输入对应的文字信息；

文字分段单元，用于识别所述文字信息包含的至少两个文字子信息；

所述文字显示模块包括：

分段显示单元，用于将所述文字子信息与对应的所述目标图像内容关联显示。

8.根据权利要求7所述的终端设备，其特征在于，所述第一输入响应模块还包括：

图像获取单元，用于获取所述目标视频的多个关键帧对应的图像内容；

图像识别单元，用于识别所述目标视频的多个关键帧对应的图像内容；

图像归类单元，用于对所述多个关键帧对应的图像内容进行归类；

所述文字匹配模块包括：

目标图像确定单元，用于若所述文字子信息与至少一个关键帧对应的图像内容所属的类型匹配，则将所述至少一个关键帧对应的图像内容确定为所述文字子信息对应的目标图像内容。

9.根据权利要求8所述的终端设备，其特征在于，所述文字显示模块至少包括以下任一项：

连续显示单元，用于将一个所述文字子信息重复显示在多个连续关键帧对应的所述目标图像内容中；

单一显示单元，用于将一个所述文字子信息对应显示在一个关键帧对应的所述目标图像内容中；

间隔显示单元，用于将多个所述文字子信息分别对应显示在多个间隔的关键帧对应的所述目标图像内容中。

10.根据权利要求6所述的终端设备，其特征在于，还包括：

第二输入接收模块，用于接收所述用户的第二输入；

第二输入响应模块，用于响应于所述第二输入，根据所述第二输入对应的调整操作，调整所述文字信息在所述目标视频中的显示位置。

11.一种终端设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的视频编辑方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的视频编辑方法的步骤。