CN111599386B

CN111599386B - 录屏方法及录屏装置

Info

Publication number: CN111599386B
Application number: CN202010352525.7A
Authority: CN
Inventors: 李祥鹏
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2022-05-31
Anticipated expiration: 2040-04-28
Also published as: CN111599386A

Abstract

本申请提供了一种录屏方法及录屏装置，属于通信技术领域。其中，可以在电子设备的显示界面进行录制的过程中，接收对显示界面的第一输入，并根据第一输入获取对应的描述文本，对描述文本进行语音合成得到音频数据，根据第一输入的第一输入时间点，将该音频数据插入到已录制的音频轨中。描述文本与第一输入对应，因此该描述文本能够指明第一输入的具体操作情况，这样，在播放录制的视频时，在第一输入时间点会播放描述文本对应的音频数据，根据该音频数据可以得知第一输入的具体操作情况，从而可以提高录制的操作流程的辨识度，使得用户可以根据播放的音频数据直观地了解具体的操作流程，进而可以提高用户的操作效率。

Description

录屏方法及录屏装置

技术领域

本申请属于通信技术领域，特别是涉及一种录屏方法及录屏装置。

背景技术

随着移动终端技术的不断发展，移动终端可以实现的功能越来越广泛。目前，移动终端通常具有录屏功能。所谓录屏，指的是采用录屏应用程序，将移动终端屏幕上正在播放的内容录制下来。

移动终端的录屏功能不仅可以清晰地向对方展示想法意图，而且省略了繁琐的文字介绍，促进了沟通。但是，电子设备的屏幕在响应于功能操作时有时不会发生明显的变化，这样在录制的视频中无法确定具体的功能操作，使得操作流程不明确，增加用户辨识操作流程的难度，进而影响用户的操作效率。

发明内容

本申请提供一种录屏方法及录屏装置，以便解决录屏过程中录制的操作流程不明确，增加用户辨识操作流程的难度，进而影响用户的操作效率的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种录屏方法，该方法可以包括：

在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点；

响应所述第一输入，获取所述第一输入对应的描述文本；

对所述描述文本进行语音合成，生成所述描述文本对应的音频数据；

根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据。

第二方面，本申请实施例提供了一种录屏装置，该录屏装置可以包括：

输入接收模块，用于在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点；

文本获取模块，用于响应所述第一输入，获取所述第一输入对应的描述文本；

语音合成模块，用于对所述描述文本进行语音合成，生成所述描述文本对应的音频数据；

音频插入模块，用于根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的录屏方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序，所述程序被处理器执行时实现如第一方面所述的录屏方法的步骤。

在本申请实施例中，可以在电子设备的显示界面进行录制的过程中，接收对显示界面的第一输入，并获取第一输入对应的描述文本，再对描述文本进行语音合成生成音频数据；所述第一输入包括第一输入时间点，可以根据第一输入时间点，在已录制的音频轨中插入音频数据。由于描述文本与第一输入对应，因此该描述文本能够指明第一输入的具体操作情况，这样，在播放录制的视频时，在第一输入时间点会播放插入的描述文本对应的音频数据，根据该音频数据可以得知第一输入的具体操作情况，从而可以提高录制的操作流程的辨识度，使得用户可以根据播放的音频数据直观地了解具体的操作流程，进而可以提高用户的操作效率。

附图说明

图1是本申请实施例提供的一种录屏方法的步骤流程图；

图2是本申请实施例提供的一种录屏方法的步骤流程图；

图3是本申请实施例中一种显示界面录制过程的界面示意图；

图4a是本申请实施例中一种显示界面第一输入的上一帧图像示意图；

图4b是本申请实施例中一种显示界面第一输入的当前帧图像示意图；

图5a是本申请实施例中另一种显示界面第一输入的上一帧图像示意图；

图5b是本申请实施例中另一种显示界面第一输入的当前帧图像示意图；

图6是本申请实施例中一种音频轨时间戳示意图；

图7是本申请实施例提供的又一种录屏方法的步骤流程图；

图8a是本申请实施例中再一种显示界面第一输入的上一帧图像示意图；

图8b是本申请实施例中再一种显示界面第一输入的当前帧图像示意图；

图9是本申请实施例提供的一种录屏装置的结构框图；

图10为实现本申请各个实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

图1是本申请实施例提供的一种录屏方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点。

本申请实施例可以应用于具有录屏功能的电子设备，即在录屏功能开启后录制电子设备的显示界面，在录屏功能后获得录制的帧图像和音频轨，由于录屏功能中通常需要关闭麦克风以避免环境音对录制的干扰，因此，音频轨中通常仅包括电子设备的音频，如录制的电子设备中的消息提示音，播放的音乐、视频的声音等。可选地，可以对电子设备的录屏功能进行设置，从而在开启录屏功能，对电子设备的显示界面进行录制时，选择仅对显示界面进行录制，或选择在对显示界面进行录制的过程下，添加对第一输入的操作提示，以明确操作流程。

本申请实施例中，对显示界面的第一输入可以是用户对显示界面的点击操作、长按操作、轨迹滑动操作、指关节敲击操作、隔空手势操作等，可选地，可以对用户对显示界面的操作进行识别，如点击位置、按压时长、滑动轨迹等等，此时，如果点击位置处于显示界面的预设区域、按压时长大于或等于预设时长、滑动轨迹与预设轨迹匹配等，可以确定该操作为第一输入，以避免误触、误操作被确定为第一输入，影响后续的录制以及操作流程显示。另外，第一输入的第一输入时间点可以是第一输入开始的时间点，也可以是第一输入结束的时间点，也可以是第一输入开始和结束中间的时间点等，本申请实施例对此不做具体限制。

步骤102、响应所述第一输入，获取所述第一输入对应的描述文本。

本申请实施例中，与第一输入对应的描述文本可以包括对第一输入的相关特征进行描述的文本内容，从而能够明确指示第一输入的具体操作。可选地，相关特征可以包括第一输入的操作特征、位置特征、频率特征等，操作特征可以是第一输入的操作形式，如点击、按压、滑动等；位置特征可以是第一输入的输入位置，如显示界面中央、显示界面对角等，或者，位置特征也可以是显示界面上第一输入的输入位置的显示内容，如显示界面上蓝色区域、显示界面上对应文本区域、显示界面上对应形状图标等；频率特征可以是第一输入对应的操作次数，如单次、双次、多次等中的至少一种。可选地，可以通过电子设备屏幕的传感器获取操作相关的参数信息，如压力变化信息、温度变化信息、轨迹变化信息、接触面积变化信息等，从而确定第一输入的相关特征。

步骤103、对所述描述文本进行语音合成，生成所述描述文本对应的音频数据。

本申请实施例中，可以根据描述文本的文本内容进行语音合成，生成描述文本的音频数据，可选地，可以采用TTS(Text To Speech，从文本到语音) 技术，通过神经网络的设计，将文字转化为自然语音流，其中，音频数据的音调、音速、语音模板等可以根据用户的预先设置确定，本申请实施例对此不作具体限制。

步骤104、根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据。

在实际录制过程中，音频轨用于保存对电子设备的显示界面进行录制的过程中的音频信息，其中包括电子设备输出的音频以及电子设备输出该音频的时间戳等。本申请实施例中，可以根据第一输入的第一输入时间点，将根据描述文本生成的音频数据插入已录制的音频轨中。可选地，可以是在音频轨上第一输入时间点的对应位置之前，确定起始时间戳和终止时间戳，使得起始时间戳与终止时间戳之间的时间差等于音频数据的时长，并将音频数据插入音频轨上起始时间戳至终止时间戳之间，从而将根据描述文本生成的音频数据插入已录制的音频轨中。

综上所述，本申请实施例提供的录屏方法，可以在电子设备对显示界面进行录制的过程中，接收对显示界面的第一输入，并获取第一输入对应的描述文本，再对描述文本进行语音合成生成音频数据；所述第一输入包括第一输入时间点，可以根据第一输入时间点，在已录制的音频轨中插入音频数据。由于描述文本与第一输入对应，因此该描述文本能够指明第一输入的具体操作情况，这样，在播放录制的视频时，在第一输入时间点会播放插入的描述文本对应的音频数据，根据该音频数据可以得知第一输入的具体操作情况，从而可以提高录制的操作流程的辨识度，使得用户可以根据播放的音频数据直观地了解具体的操作流程，进而可以提高用户的操作效率。

实施例二

图2是本申请实施例提供的一种录屏方法的步骤流程图，如图2所示，该方法可以包括：

步骤201、在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点。

本申请实施例中，步骤201可对应参照前述步骤101中的相关描述，在此不再一一赘述。可选地，图3是本申请实施例中一种显示界面录制过程的界面示意图，如图3所示，在对显示界面301进行录屏的过程中，显示界面 301上显示录屏按键302，可选地，录屏按键302可以显示录屏的时长，并且接收结束录屏操作，如针对录屏按键302的点击操作从而结束录屏，此时，显示界面301上除录屏按键302以外的显示区域接收到的输入操作可以被确认为第一输入。

步骤202、获取所述第一输入时间点对应的目标帧图像，以及所述目标帧图像的上一帧图像。

本申请实施例中，在接收对显示界面的第一输入后，可以获取已录制的帧图像中，第一输入时间点对应的目标帧图像以及目标帧图像的上一帧图像，其中，第一输入对应的目标帧图像可以是在第一输入时间点录制的帧图像，由于，第一输入时间点可以为第一输入开始时的时间点、第一输入结束时的时间点、第一输入开始和结束中间的时间点等，因此，为了避免响应于第一输入显示界面可能发生的变化，目标图像帧对应的上一帧图像可以是在第一输入开始前录制的最后一帧图像。

步骤203、对所述目标帧图像与所述上一帧图像进行比对，在所述目标帧图像中确定变化区域。

本申请实施例中，对目标帧图像和上一帧图像进行比对，可以是分别获取目标帧图像与上一帧图像的像素值，并将目标帧图像与上一帧图像中对应位置的像素值进行差分计算，其中，可以是将目标帧图像与上一帧图像像素值相减获得差值，也可以对差值取绝对值，可选地，可以将差值或差值绝对值大于或等于预设变化阈值的区域确定为变化区域。另外，目标帧图像和上一帧的图像的变化区域可以是一个或者多个。本领域技术人员可以根据具体的帧图像处理条件选择其他计算方式，如通过NCC(Normalized Cross Correction，归一化互相关)算法，基于帧图像的灰度信息确定帧图像间的相似度，从而确定变化区域等，本申请实施例对此不做具体限制。

本申请实施例中，可选地，由于第一输入的输入时间可能是持续的一段时间，如按压、滑动等，因此，第一输入时间点可以对应多个时间点，从而使得目标帧图像可以对应多个帧图像，如接收第一输入过程中录制的第一帧图像、中间帧图像、最后一帧图像等，此时，对多种目标帧图像可以分别与上一帧图像进行比对，从而分别确定多个目标帧图像的变化区域等，本申请实施例对此不做具体限制。

可选地，所述第一输入还包括输入位置。

步骤204、检测所述输入位置是否落入所述变化区域。

本申请实施例中，第一输入还可以包括输入位置，可选地，输入位置可以包括用户在进行第一输入的过程中与电子设备屏幕接触的起始位置、中间位置、结束位置等中的至少一个，或与电子设备的屏幕接触的区域大小、形状、位置等，由于第一输入的形式不做具体限制，因此，对应的第一输入的位置也不受限制，可以是显示界面上的一个或多个点、一条或多条轨迹、一个或多个面积区域等。在确定变化区域后需要检测第一输入的输入位置是否落入所述变化区域中，另外，也可能出现上一帧图像与目标帧图像之间没有变化区域的情况，此时，可以略过步骤204，直接执行步骤205。

可选地，在输入位置为显示界面上的一个点时，当该点位于变化区域中时认为输入位置落入变化区域；在输入位置为显示界面上的多个点时，可以在所有或部分的点位于变化区域中时认为输入位置落入变化区域；在输入位置为显示界面上的一条轨迹时，可以在所有或部分的轨迹与变化区域重合时认为输入位置落入变化区域；在输入位置为显示界面上的一个面积区域时，可以在所有或部分的面积区域与变化区域重合时认为输入位置落入变化区域；输入位置为多条轨迹或多个面积区域的与前述一条轨迹或一个面积区域类似，在此不再赘述。

步骤205、在所述输入位置未落入所述变化区域的情况下，将预置文本作为所述第一输入对应的描述文本。

本申请实施例中，在检测输入位置没有落入变化区域的情况下，可以将预置文本作为第一输入对应的描述文本。可选地，预置文本可以是预先设定的文本库中的文本内容，其中，可以包括描述第一输入操作特征、位置特征、频率特征等的文本内容。可选地，操作特征对应的文本内容可以是“点击”、“长按x秒”、“单指滑动”、“三指并拢滑动”、“指关节敲击”等；位置特征对应的文本内容可以是“右下按键”、“蓝色按键”、“界面中央”、“界面四角”等；频率特征的文本内容可以是“单次”、“双击”、“三次”等，本申请实施例对预置文本的文本内容和数量不做具体限制。

本申请实施例中，可以通过采集第一输入对应的操作信息确定第一输入对应的相关特征，从而确定相关特征对应的预置文本为第一输入对应的描述文本。图4a是本申请实施例中一种显示界面第一输入的上一帧图像示意图，图4b是本申请实施例中一种显示界面第一输入的目标帧图像示意图，其中，第一输入是对显示界面401中按键402的单击操作，通过对上一帧图像和目标帧图像差分计算确定，图4b中第一输入的输入位置未落入变化区域，此时，可以根据第一输入获取其对应的预置文本，如操作特征对应“点击”、位置特征对应“显示界面左上角按键”、频率特征对应“一次”等，从而可以将“点击显示界面左上角按键一次”作为所述第一输入的描述文本。或者，也可以将第一输入对应的预置文本进行调整，生成不同的描述文本，如根据上述预置文本中的“点击”、“单次”，获得描述文本“单击显示界面左上角按键”等，本申请实施例对此不做具体限制。

步骤206、在所述输入位置落入所述变化区域的情况下，对所述变化区域进行文本识别，得到所述第一输入对应的描述文本。

本申请实施例中，在输入位置落入变化区域的情况下，则可以对变化区域进行文本识别，进而得到输入位置对应显示界面的变化区域中显示的文本内容，从而更明确、具体的描述第一输入的输入位置，此时，第一输入的描述文本中可以包括操作特征的文本内容、频率特征的文本内容以及对变化区域识别得到的文本内容等，从而通过描述文本能够明确指示第一输入。

可选地，所述步骤206，包括：

子步骤S11、对所述变化区域进行文本识别，得到识别结果。

本申请实施例中，对变化区域进行文本识别可以采用OCR(Optical CharacterRecognition，光学字符识别)技术对变化区域中的汉字文本、英文文本、数字文本、符号文本等进行识别，得到识别结果。例如，识别汉字文本得到识别结果“登录”、“取消”、“返回”、“下载”、“上传”等；识别英文文本得到识别结果“search”、“download”、“upload”等；识别数字文本得到识别结果“1”、“2”、“3”等；识别符号文本得到识别结果“×”、“○”、“√”等，本申请实施例对此不作具体限制。

子步骤S12、若所述识别结果中包含文本信息，则将所述文本信息作为所述第一输入对应的描述文本。

本申请实施例中，当识别结果包括文本信息时，可以根据识别结果中的文本信息获得对应的描述文本。图5a是本申请实施例中另一种显示界面第一输入的上一帧图像示意图，图5b是本申请实施例中另一种显示界面第一输入的目标帧图像示意图，其中，第一输入是对显示界面501中按键502的单击操作，通过对上一帧图像和目标帧图像差分计算确定，图5b中第一输入的输入位置落入变化区域，此时，可以对变化区域进行文本识别，获得汉字文本“登录”，进一步的，根据第一输入的操作特征对应“点击”、频率特征对应“一次”等，获得“点击登录一次”或“单击登录”作为所述第一输入的描述文本。

子步骤S13、若所述识别结果中不包含文本信息，则将所述预置文本作为所述第一输入对应的描述文本。

本申请实施例中，变化区域的文本中可能不包括文本信息，此时，可以根据变化区域中的其他特征确定对应的预置文本，可选地，其他特征可以是颜色、亮度、显示效果等，如蓝色、红色、高亮、阴影、凸出、凹陷等，从而确定第一输入对应的描述文本，其中，根据预置文本确定描述文本的过程与前述步骤204的描述类似，在此不再赘述。

步骤207、对所述描述文本进行语音合成，生成所述描述文本对应的音频数据。

本申请实施例中，根据描述文本进行语音合成以获得音频数据的方式与前述步骤103的描述内容类似，在此不再赘述。另外，在生成音频数据时，还可以根据第一输入在当前录制过程中的输入次数增加对应的步骤次序提示，如，在第一输入为当前录制过程中的第一次操作的情况下，可以在生成音频数据时添加“首先”、“第一”的步骤次序提示；在第一输入为当前录制过程中的第二次操作的情况下，可以在生成音频数据时添加“其次”、“第二”的步骤次序提示，从而进一步明确具体地操作流程，避免操作流程的遗漏、错序，提高用户操作的效率。

步骤208、获取第二输入对应的第二输入时间点，所述第二输入为所述第一输入的前一次输入。本申请实施例中，可以将第一输入的输入时间作为第一输入时间点，将第一输入的前一次输入即第二输入的输入时间作为第二输入时间点，其中，前一次输入指录制显示界面过程中，显示界面当前接收到第一输入前，最后一次接收到的第一输入。另外，显示界面当前接收到的第一输入为录制过程中的第一次第一输入时，可以将开启录屏功能的时间作为第二输入时间。

步骤209、确定所述第一输入时间点与所述第二输入时间点之间的时间差。

本申请实施例中，可以计算第一输入时间点与第二输入时间点的时间差，可选地，由于第一输入时间点对应当前的第一输入，第二输入时间点对应上一次第一输入，因此，第一输入时间点应在第二输入时间点之后，此时，可以将第一输入时间点减去第二输入时间点，以得到第一输入时间点与第二输入时间点的时间差。

可选地，所述步骤209，包括：

子步骤S21、确定所述第一输入对应的用户反应时长。

本申请实施例中，在计算第一输入时间点与第二输入时间点的时间差时，可以先确定第一输入对应的用户反应时长，其中，用户反应时长可以指用户结束上一次第一输入后，能够清楚、完成的接收音频数据输出的信息的反应时长，和/或用户接收音频数据输出的信息后，能够确定在显示界面上具体操作方式、操作位置等的反应时长，不同第一输入的用户反应时长可能相同，也可能不同，上述两种反应时长可能相同，也可能不同。可选地，用户反应时长可以与第一输入的操作复杂程度、显示界面的显示效果等有关，可以通过采集大量不同用户在第一输入对应的操作中相关的参数信息，从而统计、分析第一输入对应的用户反应时长。

子步骤S22、将所述第一输入时间点减去所述用户反应时长，得到第一时间点。

子步骤S23、将所述第二输入时间点加上所述用户反应时长，得到第二时间点。

本申请实施例中，可选地，可以在第二输入时间点后，第一输入时间点前分别确定用户反应时长，如在已录制的音频轨中，将第一输入时间点减去用户反应时长，从而将第一输入时间点前用户反应时长对应的时间戳确定为第一时间点；将第二输入时间点减去用户反应时长，从而将第二输入时间后用户反应时长对应的时间戳确定为第二时间点，保证用户在上一次输入后，接收音频输出的信息之前，以及接收音频数据输出的信息后，确定当前第一输入之前能够获得充分的反应时间，进一步保证操作流程的辨识度，提高用户操作的效率。

子步骤S24、确定所述第一时间点与所述第二时间点的差值为所述时间差。

本申请实施例中，可以将第一时间点与第二时间点的差值作为第一输入时间点和第二输入时间点的时间差。

步骤210、若所述时间差与所述音频数据的音频时长不相等，则对已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像的数量进行调整，使得调整后的时间差与所述音频数据的音频时长相等。

本申请实施例中，音频时长可以是音频数据的时间长度，将音频数据插入第一输入时间点和第二输入时间点之间时，时间差可能不等于音频数据的音频时长，当时间差小于音频数据的音频时长时，插入音频数据后，可能造成上一次第一输入未结束即开始音频数据的输出，或音频数据的输出还未结束当前第一输入已开始，使得操作路程的信息混乱，影响录制得到的视频中操作流程的辨识度；当时间差大于音频数据的音频时长时，插入音频数据后，可能造成上一次第一输入结束再经过长时间等待后才开始音频数据的输出，或音频数据输出后再经过长时间等待才开始当前的第一输入，使得操作路径等待时间过长。因此，可以通过增加或删除帧图像的方式，调整时间差等于音频数据的音频时长，从而在保证音频数据输出时对第一输入的明确指示，并避免操作路径等待时间过长。

可选地，所述步骤210，包括：

子步骤S31、在所述时间差大于所述音频时长的情况下，确定所述时间差与所述音频时长相差的第一时长，在已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像中，删除所述第一时长的帧图像；或者

子步骤S32、在所述时间差小于所述音频时长的情况下，确定所述时间差与所述音频时长相差的第二时长，在已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像中，增加所述第二时长的帧图像。

本申请实施例中，在时间差不等于音频时长的情况下，可以确定时间差与音频时长相差的时长，由于一帧图像与一个时间点对应，因此多帧图像可以与累积的时间点对应，一定数量的时间点累积可以对应相差的时长，从而可以根据相差的时长确定删除或增加的帧图像的帧数。可选地，在时间差小于音频时长时，确定时间差与音频时长相差的第一时长，并根据第一时长确定需要增加的帧图像的帧数；在时间差大于音频时长时，确定时间差与音频时长相差的第二时长，并根据第二时长确定需要减少的帧图像的帧数。此时，可以在第一输入时间点与第二输入时间点之间增加第一时长对应的帧图像，由于录制得到帧图像的时间与音频轨的时间对应，因此，可以增大时间差使其等于音频数据的时长；也可以在时间差大于音频数据的时长时，在第一输入时间点与第二输入时间点之间删除第二时长对应帧图像，从而减小时间差使其等于音频数据的时长。

本申请实施例中，可以在第一输入时间点和第二输入时间点之间至少一个位置插入或删除帧图像，可选地，可以在第一输入时间点和第二输入时间点内确定连续两个变化区域小于预设变化区域的帧图像，增加帧图像时，复制两个帧图像中的任意一个插入两个帧图像之间，从而增加帧图像；删除帧图像时，删除两个帧图像中的任意一个，其中，确定连续两个帧图像变化区域的方式可以参照步骤203的相关描述，在此不再赘述。

步骤211、在已录制的所述第一输入时间点与所述第二输入时间点之间的音频轨中，插入所述音频数据。

本申请实施例中，在已录制的音频轨中插入音频数据可以是在已录制的音频轨中，以音频轨上第二输入时间点或第二时间点为音频数据的起始时间戳，第一输入时间点或第一时间点为音频数据的终止时间戳，从而将音频数据插入音频轨中。

图6是本申请实施例中一种音频轨时间戳示意图，如图6所示，以箭头表示时间正方向，包括第一输入时间点T1、第二输入时间点T2，当第一输入对应的用户反应时长均为P时，将第一输入时间点T1前用户反应时长P 的时间戳记为第一时间点B，将第二输入时间点T2后用户反应时长P的时间戳记为第二时间点A，此时，可以将第二时间点A记为音频数据的起始时间戳，第一时间点B记为终止时间戳，将音频数据插入音频轨中。

另外，可以对第一输入时间点T1和第二输入时间点T2进行差值计算，结果记为diff＝|T2-T1|，根据用户反应时长P，计算第一输入时间点T1和第二输入时间点T2的时间差为diff-2×P，当diff-2×P大于音频数据的音频时长t时，计算diff-2×P与音频时长t相差的第一时长，可以在第二时间点A 和第一时间点B之间增加第一时长对应帧个数的帧图像；当diff-2×P小于音频数据的音频时长t时，计算diff-2×P与音频时长t相差的第二时长，可以在第二时间点A和第一时间点B之间删除第二时长对应帧个数的帧图像，以使时间差等于音频数据的音频时长t。

实施例三

图7是本申请实施例提供的又一种录屏方法的步骤流程图，如图7所示，该方法可以包括：

步骤701、在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点。

步骤702、获取所述第一输入时间点对应的目标帧图像，以及所述目标帧图像的上一帧图像。

步骤703、对所述目标帧图像与所述上一帧图像进行比对，在所述目标帧图像中确定变化区域。

可选地，所述第一输入还包括输入位置。

步骤704、检测所述输入位置是否落入所述变化区域。

步骤705、在所述输入位置未落入所述变化区域的情况下，将预置文本作为所述第一输入对应的描述文本。

步骤706、在所述输入位置落入所述变化区域的情况下，对所述变化区域进行文本识别，得到所述第一输入对应的描述文本。

本申请实施例中，步骤701至步骤706可对应参照前述步骤201至步骤 206中的相关描述，在此不再一一赘述。

步骤707、根据所述输入位置，在所述目标帧图像中添加位置提示符。

本申请实施例中，可以在目标帧图像中根据第一输入的输入位置添加对应的位置提示符，可选地，位置提示符的形状、颜色等不做限定，可以根据第一输入的操作特征显示不同的位置提示符，如操作特征为点击时，显示包括点击位置的方框、圆圈等；操作特征为滑动时，显示对应滑动轨迹的曲线或包括滑动区域的方框、圆圈等，本申请实施例对此不做具体限制。

可选地，可以在第一输入的输入位置未落入变化区域，或第一输入的输入位置落入变化区域，但是变化区域中未识别出文字信息的情况下，在目标帧图像上第一输入的输入位置添加位置提示符，从而在文本描述的同时在显示界面上明确提示第一输入对应的位置，进一步加强操作流程的清晰程度，提高用户操作的效率；或者，也可以根据用户对录屏功能的预先设置，在每一次第一输入时，对当前图像帧上的输入位置添加位置提示符。

本申请实施例中，如果在目标帧图像上的输入位置添加位置提示符，此时，对应的描述文本可以适当的简化，如“点击提示位置一次”、“沿提示轨迹滑动”、“点击此处”等，从而减少不同第一输入之间的时间差，进而减少录制得到的视频的时长，避免视频传播的时间成本高，影响用户操作的效率。

步骤708、对所述描述文本进行语音合成，生成所述描述文本对应的音频数据。

步骤709、根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据。

本申请实施例中，步骤708至步骤709可对应参照前述步骤103至步骤 104中的相关描述，在此不再一一赘述。

图8a是是本申请实施例中再一种显示界面第一输入的上一帧图像示意图，图8b是本申请实施例中再一种显示界面第一输入的目标帧图像示意图，其中，第一输入是对显示界面801中按键802的单击操作，通过对上一帧图像和目标帧图像差分计算确定，图8b中第一输入的输入位置未落入变化区域，此时，可以确定在目标帧图像中第一输入的输入位置上显示位置提示符，并将第一输入对应的描述文本插入音频轨中。

根据第一输入获取其对应的预置文本，如操作特征对应“点击”、位置特征根据位置提示符可以对应“提示位置”或“此处”、频率特征对应“一次”等，从而可以将“点击提示位置一次”作为所述第一输入的描述文本，并在如图8b所示的目标帧图像上添加包括第一输入的输入位置的黑框803，作为位置提示符。

实施例四

图9是本申请实施例提供的一种录屏装置的结构框图，如图9所示，该录屏装置90可以包括：

输入接收模块901，用于在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点；

文本获取模块902，用于响应所述第一输入，获取所述第一输入对应的描述文本；

语音合成模块903，用于对所述描述文本进行语音合成，生成所述描述文本对应的音频数据；

音频插入模块904，用于根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据。

可选地，所述第一输入还包括输入位置，所述文本获取模块902，包括：

图像获取子模块，用于获取所述第一输入时间点对应的目标帧图像，以及所述目标帧图像的上一帧图像；

图像对比子模块，用于对所述目标帧图像与所述上一帧图像进行比对，在所述目标帧图像中确定变化区域；

位置检测子模块，用于检测所述输入位置是否落入所述变化区域；

文本生成子模块，用于在所述输入位置未落入所述变化区域的情况下，将预置文本作为所述第一输入对应的描述文本；

所述文本生成子模块，还用于在所述输入位置落入所述变化区域的情况下，对所述变化区域进行文本识别，得到所述第一输入对应的描述文本。

可选地，所述文本生成子模块，包括：

文本识别单元，用于对所述变化区域进行文本识别，得到识别结果；

第一文本确定单元，用于若所述识别结果中包含文本信息，则将所述文本信息作为所述第一输入对应的描述文本；

第二文本确定单元，用于若所述识别结果中不包含文本信息，则将所述预置文本作为所述第一输入对应的描述文本。

可选地，所述装置还包括：

提示符添加模块，用于根据所述输入位置，在所述目标帧图像中添加位置提示符。

可选地，所述音频插入模块904，包括：

时间点获取子模块，获取第二输入的第二输入时间点，所述第二输入为所述第一输入的前一次输入；

音频插入子模块，用于在已录制的所述第一输入时间点与所述第二输入时间点之间的音频轨中，插入所述音频数据。

可选地，所述音频插入模块904，还包括：

时差计算子模块，用于确定所述第一输入时间点与所述第二输入时间点之间的时间差；

时差调整子模块，用于若所述时间差与所述音频数据的音频时长不相等，则对已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像的数量进行调整，使得调整后的时间差与所述音频数据的音频时长相等。

可选地，所述时差调整子模块，包括：

第一时差调整单元，用于在所述时间差大于所述音频时长的情况下，确定所述时间差与所述音频时长相差的第一时长，在已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像中，删除所述第一时长的帧图像；

第二时差调整单元，用于在所述时间差小于所述音频时长的情况下，确定所述时间差与所述音频时长相差的第二时长，在已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像中，增加所述第二时长的帧图像。

可选地，所述时差计算子模块，包括：

反应时长单元，用于确定所述第一输入对应的用户反应时长；

第一时间单元，用于将所述第一输入时间点减去所述用户反应时长，得到第一时间点；

第二时间单元，用于将所述第一输入时间点减去所述用户反应时长，得到第一时间点；

时差计算单元，用于确定所述第一时间与所述第二时间的差值为所述时间差。

综上所述，本申请实施例提供的电子设备能够实现图1、2和7的方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本申请实施例提供的电子设备，可以在电子设备对显示界面进行录制的过程中，接收对显示界面的第一输入，并获取第一输入对应的描述文本，再对描述文本进行语音合成生成音频数据；所述第一输入包括第一输入时间点，可以根据第一输入时间点，在已录制的音频轨中插入音频数据。由于描述文本与第一输入对应，因此该描述文本能够指明第一输入的具体操作情况，这样，在播放录制的视频时，在第一输入时间点会播放插入的描述文本对应的音频数据，根据该音频数据可以得知第一输入的具体操作情况，从而可以提高录制的操作流程的辨识度，使得用户可以根据播放的音频数据直观地了解具体的操作流程，进而可以提高用户的操作效率。

图10为实现本申请各个实施例的一种电子设备的硬件结构示意图，该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、处理器1010、以及电源1011等部件。本领域技术人员可以理解，图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、以及计步器等。

其中，处理器1010，用于在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点；响应所述第一输入，获取所述第一输入对应的描述文本；对所述描述文本进行语音合成，生成所述描述文本对应的音频数据；根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据。

本申请实施例中，可以在电子设备对显示界面进行录制的过程中，接收对显示界面的第一输入，并获取第一输入对应的描述文本，再对描述文本进行语音合成生成音频数据；所述第一输入包括第一输入时间点，可以根据第一输入时间点，在已录制的音频轨中插入音频数据。由于描述文本与第一输入对应，因此该描述文本能够指明第一输入的具体操作情况，这样，在播放录制的视频时，在第一输入时间点会播放插入的描述文本对应的音频数据，根据该音频数据可以得知第一输入的具体操作情况，从而可以提高录制的操作流程的辨识度，使得用户可以根据播放的音频数据直观地了解具体的操作流程，进而可以提高用户的操作效率。

应理解的是，本申请实施例中，射频单元1001可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1010处理；另外，将上行的数据发送给基站。通常，射频单元1001包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1001还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块1002为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1003可以将射频单元1001或网络模块1002接收的或者在存储器1009中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元1003还可以提供与电子设备1000执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1003包括扬声器、蜂鸣器以及受话器等。

输入单元1004用于接收音频或视频信号。输入单元1004可以包括图形处理器(Graphics Processing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头) 获得的静态图片或视频的图像数据进行处理。处理后的帧图像可以显示在显示单元1006上。经图形处理器10041处理后的帧图像可以存储在存储器1009 (或其它存储介质)中或者经由射频单元1001或网络模块1002进行发送。麦克风10042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1001发送到移动通信基站的格式输出。

电子设备1000还包括至少一种传感器1005，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板10061的亮度，接近传感器可在电子设备1000移动到耳边时，关闭显示面板10061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态 (比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1005还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元1006用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板10061，可以采用液晶显示器(Liquid Crystal Display， LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板10061。

用户输入单元1007可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元 1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板10071上或在触控面板10071附近的操作)。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1010，接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板10071。除了触控面板10071，用户输入单元1007还可以包括其他输入设备10072。具体地，其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板10071可覆盖在显示面板10061上，当触控面板 10071检测到在其上或附近的触摸操作后，传送给处理器1010以确定触摸事件的类型，随后处理器1010根据触摸事件的类型在显示面板10061上提供相应的视觉输出。虽然在图10中，触控面板10071与显示面板10061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板10071与显示面板10061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元1008为外部装置与电子设备1000连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1008可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备1000内的一个或多个元件或者可以用于在电子设备1000和外部装置之间传输数据。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1009可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1010是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1009内的软件程序和/或模块，以及调用存储在存储器1009内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

电子设备1000还可以包括给各个部件供电的电源1011(比如电池)，优选的，电源1011可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备1000包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器1010，存储器 1009，存储在存储器1009上并可在所述处理器1010上运行的程序，该程序被处理器1010执行时实现上述录屏方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序，该程序被处理器执行时实现上述录屏方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种录屏方法，其特征在于，所述方法包括：

在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点；所述第一输入时间点为所述第一输入开始的时间点，或所述第一输入结束的时间点，或所述第一输入开始和结束中间的时间点；

响应所述第一输入，获取所述第一输入对应的描述文本；

根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据；

其中，所述第一输入还包括输入位置，所述获取所述第一输入对应的描述文本，包括：

获取所述第一输入时间点对应的目标帧图像，以及所述目标帧图像的上一帧图像；

对所述目标帧图像与所述上一帧图像进行比对，在所述目标帧图像中确定变化区域；

检测所述输入位置是否落入所述变化区域；

在所述输入位置未落入所述变化区域的情况下，将预置文本作为所述第一输入对应的描述文本；

在所述输入位置落入所述变化区域的情况下，对所述变化区域进行文本识别，得到所述第一输入对应的描述文本。

2.根据权利要求1所述的方法，其特征在于，所述对所述变化区域进行文本识别，得到所述第一输入对应的描述文本，包括：

对所述变化区域进行文本识别，得到识别结果；

若所述识别结果中包含文本信息，则将所述文本信息作为所述第一输入对应的描述文本；

若所述识别结果中不包含文本信息，则将所述预置文本作为所述第一输入对应的描述文本。

3.根据权利要求1所述的方法，其特征在于，所述获取所述第一输入对应的描述文本之后，还包括：

根据所述输入位置，在所述目标帧图像中添加位置提示符。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据，包括：

获取第二输入的第二输入时间点，所述第二输入为所述第一输入的前一次输入；

在已录制的所述第一输入时间点与所述第二输入时间点之间的音频轨中，插入所述音频数据。

5.根据权利要求4所述的方法，其特征在于，所述在已录制的所述第一输入时间点与所述第二输入时间点之间的音频轨中，插入所述音频数据之前，还包括：

确定所述第一输入时间点与所述第二输入时间点之间的时间差；

若所述时间差与所述音频数据的音频时长不相等，则对已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像的数量进行调整，使得调整后的时间差与所述音频数据的音频时长相等。

6.根据权利要求5所述的方法，其特征在于，所述对已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像的数量进行调整，包括：

在所述时间差大于所述音频时长的情况下，确定所述时间差与所述音频时长相差的第一时长，在已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像中，删除所述第一时长的帧图像；或者

在所述时间差小于所述音频时长的情况下，确定所述时间差与所述音频时长相差的第二时长，在已录制的所述第一输入时间点与所述第二输入时间点之间的帧图像中，增加所述第二时长的帧图像。

7.一种录屏装置，其特征在于，所述装置包括：

输入接收模块，用于在对电子设备的显示界面进行录制的过程中，接收对所述显示界面的第一输入，所述第一输入包括第一输入时间点；所述第一输入时间点为所述第一输入开始的时间点，或所述第一输入结束的时间点，或所述第一输入开始和结束中间的时间点；

音频插入模块，用于根据所述第一输入时间点，在已录制的音频轨中插入所述音频数据；

其中，所述第一输入还包括输入位置，所述文本获取模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述文本生成子模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述音频插入模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述音频插入模块，还包括：

12.根据权利要求11所述的装置，其特征在于，所述时差调整子模块，包括：