CN113411532A

CN113411532A - 记录内容的方法、装置、终端及存储介质

Info

Publication number: CN113411532A
Application number: CN202110706062.4A
Authority: CN
Inventors: 池卓哲
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-17
Anticipated expiration: 2041-06-24
Also published as: CN113411532B

Abstract

本申请实施例公开了一种记录内容的方法、装置、终端及存储介质，属于计算机技术领域。本申请实施例提供的终端显示记录浮窗，该浮窗中有图像采集控件，在录制音频的过程中，终端在图像采集控件被触发时采集图像内容，并转化音频为第一文本；基于第一文本的播放时刻和图像内容的采集时刻，分别将第一文本和图像内容关联至音频的时间轴上，生成记录文件，以使得记录文件播放音频时在相应的时刻复现图像内容和第一文本。由于图像内容和第一文本的存在，相较于录制视频，本申请能够在减少容量占用的前提下，提高了音频内容的可视化程度，提高了记录信息的效果。

Description

记录内容的方法、装置、终端及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种记录内容的方法、装置、终端及存储介质。

背景技术

在课堂听讲或者培训会场听演讲时，用户为了有效记录相关的信息，通常通过录音或者录像来记录演讲者的声音。

相关技术中，用户为了避免录像占用大量存储空间，在录音的过程中，通过照相机应用拍摄板书或者幻灯片的内容。在回放录音的过程中，用户将手动打开相册，查看已经拍摄的板书或者幻灯片的内容。

发明内容

本申请实施例提供了一种记录内容的方法、装置、终端及存储介质。所述技术方案如下：

根据本申请的一方面内容，提供了一种记录内容的方法，所述方法包括：

显示记录浮窗，所述记录浮窗中显示有图像采集控件；

音频录制过程中，响应于对所述图像采集控件的触发操作，采集图像内容；

对音频进行文本转换，得到所述音频对应的第一文本；

基于所述第一文本的播放时刻，将所述第一文本关联至所述音频的时间轴上；

基于所述图像内容的采集时刻，将所述图像内容关联至所述音频的时间轴上，生成记录文件，以使得基于所述记录文件播放所述音频时按照所述采集时刻显示所述图像内容并按照所述播放时刻显示所述第一文本。

根据本申请的另一方面内容，提供了一种记录内容的装置，所述装置包括：

浮窗显示模块，用于显示记录浮窗，所述记录浮窗中显示有图像采集控件；

图像采集模块，用于在音频录制过程中，响应于对所述图像采集控件的触发操作，采集图像内容；

文本转换模块，用于对所述音频进行文本转换，得到所述音频对应的第一文本；

第一关联模块，用于基于所述第一文本的播放时刻，将所述第一文本关联至所述音频的时间轴上；

记录生成模块，用于基于所述图像内容的采集时刻，将所述图像内容关联至所述音频的时间轴上，生成记录文件，以使得所述记录文件播放所述音频时按照所述采集时刻显示所述图像内容并按照所述播放时刻显示所述第一文本。

根据本申请的另一方面内容，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如本申请各个方面提供的记录内容的方法。

根据本申请的另一方面内容，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如本申请各个方面提供的记录内容的方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，以实现如本申请各个方面提供的记录内容的方法。

本申请实施例提供的技术方案带来的有益效果可以包括：

本申请实施例提供的终端显示记录浮窗，该浮窗中有图像采集控件，在录制音频的过程中，终端在图像采集控件被触发时采集图像内容，并转化音频为第一文本；基于第一文本的播放时刻和图像内容的采集时刻，分别将第一文本和图像内容关联至音频的时间轴上，生成记录文件，以使得记录文件播放音频时在相应的时刻复现图像内容和第一文本。由于图像内容和第一文本的存在，相较于录制视频，本申请能够在减少容量占用的前提下，提高了音频内容的可视化程度，提高了记录信息的效果。

附图说明

为了更清楚地介绍本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一个示意性实施例提供的一种记录内容的方法；

图2是基于图1所示实施例提供的一种记录功能的开启示意图；

图3是本申请实施例提供的一种记录内容的方法；

图4是本申请实施例提供的一种记录浮窗的示意图；

图5是本申请实施例提供的一种获取图像内容的示意图；

图6是本申请实施例提供的一种图像内容的裁剪示意图；

图7是本申请实施例提供的一种视频模式的示意图；

图8是本申请实施例提供的一种阅读模式的示意图；

图9是本申请一个示例性实施例提供的一种记录内容的装置的结构框图；

图10是本申请一个示例性实施例提供的一种终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

如本文中所使用，根据上下文，术语“如果”任选地被解释为“当......时”、“在……时”、“响应于确定”或“响应于检测”。类似地，根据上下文，短语“如果确定……”或“如果检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

需要说明的是，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，个人可识别信息在管理和处理的过程中应当向用户明确说明授权使用的性质，以使无意或未经授权的访问或使用的风险最小化。

在日常生活中，听课或者参与培训是获取知识的重要渠道。用户为了能够记录知识，在电子设备不发达的时代通常以记笔记的方式来记录知识。随着电子技术的发展，录音设备的出现能够令用户录制课堂或者会场中的音频，从而方便地记录知识。从此，知识的记录进入电子设备辅助阶段。

在电子设备辅助阶段中，由于录音提供的是单纯的音频。因此，用户想要从音频中获取自己需要的一部分知识时较难查找。随着技术的进一步发展，用户可以通过带有摄像头的手机录像，或者拍摄堂课上的板书或者幻灯片。然后，在后续查找知识的过程中，仍然存在需要用户仔细听取音频中的内容，以确定自己需要的内容所在的位置。

本申请在上述技术的基础上，进一步提供的一种记录课堂或者会场中知识的方法，可参考如下实施例。

请参考图1，图1是本申请一个示意性实施例提供的一种记录内容的方法。该方法可以应用在终端设备中。该终端设备可以是移动终端，便于用户随身携带以出席课堂或者会场等场所。在图1中，该记录内容的方法包括：

步骤110，显示记录浮窗，记录浮窗中显示有图像采集控件。

在本例中，终端的显示屏中显示有记录浮窗。其中，该记录浮窗可以是终端的操作系统提供的系统容器，该系统容器中可以显示虚拟控件。一种可能的实现方式中，记录浮窗显示在显示屏中的最上层。

可选地，用户可以先开启终端中的记录功能。该记录功能是本申请定义的一种新式的记录功能，用于获取并记录信息。在一种可能的功能开启方式中，用户可以通过点击通知栏中的记录功能控件来开启该记录功能。

可选地，记录浮窗中还可以显示有音频录制控件，该音频录制控件用于在首次触发时，开始音频录制。音频录制控件在首次触发后的下一次触发时，停止音频录制。

示意性的，当终端中设置有触摸屏时，终端可以通过触摸屏接收用户的触控操作，例如点击控件的操作。

在一种可能的场景中，记录浮窗中显示的音频录制控件在被用户点击时，终端将开始音频录制。也即，终端能够响应于对音频录制控件的触发操作，从而开始音频录制。需要说明的是，终端中可以运行一个独立的应用或者进程来实现上述操作。

步骤120，音频录制过程中，响应于对图像采集控件的触发操作，采集图像内容。

在本例中，终端能在音频的录制过程中，监控图像采集控件是否接收到触控操作。终端在图像采集控件接收到触控操作时，采集图像内容。

可选地，本申请中所示的触控操作包括点击操作、双击操作或连击操作。其中，连击操作包括三次及三次以上次数的点击操作。

可选地，依照按压压力划分的分类方式中，触控操作包括轻按操作或重按操作。

可选地，依照按压面积划分的分类方式中，触控操作包括小面积按压操作或大面积按压操作。

可选地，依照按压时长划分的分类方式中，触控操作包括短按操作或长按操作。需要说明的是，上述触控操作包括的内容仅为示意性说明，本申请实施例不对上述内容形成限定。

可选地，本申请中所示的图像内容包括静态图片、动态图片或短视频中的至少一种。其中，静态图片在展示时是一张静态的图片。动态图片具有指定的图片格式，是包含一小段时间的视频段的一个图片文件，例如动态图片中的视频的时长可以是1秒、2秒或3秒等时长。短视频在时长上偏向于视频，持续的时长可以是5秒、7秒、10秒或15秒等时长。

在图像内容是静态图片的情况下，采集图像内容的过程是拍摄静态图片。

在图像内容是动态图片的情况下，采集图像内容的过程是采集动态图片的小段时长内的视频段。

在图像内容是短视频的情况下，采集图像内容的过程是采集短视频所需的时长的片段。

步骤130，对音频进行文本转换，得到音频对应的第一文本。

在本例中，语音识别的过程可以在云端服务器中完成。由于语音设备对计算资源要求较高，因此本申请的一种可能实现的方式中，终端将音频上传至云端服务器进行语音识别，并获取对应的文本。

示意性的，随着电子技术的发展，本申请也可以在终端本地的计算资源足够的情况下，在本地实现语音识别的功能。在终端本地对音频进行文本转换，从而得到音频对应的第一文本。

步骤140，基于第一文本的播放时刻，将第一文本关联至音频的时间轴上。

其中，播放时刻用于指示第一文本在记录文件播放时的显示时刻。例如，第一文本的播放时刻是2分35秒，则说明第一文本在记录文件播放时在时间轴(也即进度条)的时刻为2分35秒时开始显示。

在本例中，终端能够将第一文本关联至音频的时间轴上，以便记录文件在播放音频时，能够在播放时刻开始显示第一文本。可选地，第一文本持续显示的时长可以是对应语音播放的时长。在该场景中，第一文本还对应有结束播放时刻，第一文本从播放时刻开始显示，并在结束播放时刻停止显示。

可选地，记录文件可以在音频的时间轴上同时关联第一文本和图像内容，以便记录文件在播放时同时展示第一文本和图像内容。

步骤150，基于图像内容的采集时刻，将图像内容关联至音频的时间轴上，生成记录文件，以使得基于记录文件播放音频时按照采集时刻显示图像内容并按照播放时刻显示第一文本。

在本例中，终端能够将采集到的图像内容，按照图像内容的采集时刻关联至音频的时间轴上，从而生成记录文件。比如，图像内容是在音频已录制3分2秒时采集的，则采集时刻是3分2秒。终端将图像内容关联至音频的时间轴上的3分2秒的时间点上，以生成记录文件。

在一种可能的方式中，记录文件可以是若干个文件组成的文件集合，对外以其中一个组成的文件的图标作为打开记录文件的入口。例如，记录文件可以包括音频、图像内容和配置文件。在该场景中，记录文件以音频的图标作为记录文件的入口，当音频的图标被触发时，终端播放记录文件。终端在播放记录文件时将从配置文件读取到图像内容的路径和采集时刻，从而将音频和图像内容关联播放。

在另一种可能的方式中，记录文件可以包括音频和图像内容。其中，音频中设置有配置数据帧。其中，该配置数据帧中存储有图像内容的路径和该图像内容的采集时刻。终端依据该配置数据帧中的信息，在播放音频的同时关联播放图像内容。

需要说明的是，当记录文件在播放时是通过文件路径获取并展示图像内容时，该图像内容在终端中被设置为不可移动。一种可能的方式中，该图像内容在终端的相册中不可见或不可编辑。

当记录文件在播放时是通过其它方式获取图像内容时，例如通过图像内容的标识获取图像内容，该图像内容可以在终端内移动。在该场景中，图像内容可以禁止删除，以免记录文件播放时无法展示，从而丢失图像内容中的信息。

为了令上述记录内容的过程容易理解，下面通过图2来介绍一种涉及记录内容的使用过程。

请参见图2，图2是基于图1所示实施例提供的一种记录功能的开启示意图。在图2中，用户可以在终端处于用户界面2A时，通过呼出通知栏的操作，令终端显示通知栏用户界面2B。

在通知栏用户界面2B中，显示有记录功能控件210。该记录功能控件210默认的状态是未激活状态。当记录功能控件210被点击时，记录功能控件210的状态将切换为激活状态。示意性地，终端在记录功能控件210被点击时，生成开启指令。终端将在开启指令的作用下，在当前显示的用户界面2C上显示记录浮窗220。在另一种可能的方式中，当记录功能控件210被长按时，终端将显示记录文件所在的列表界面2D。记录文件能够在该界面中被查找、播放以及编辑。

需要说明的是，记录浮窗既可以只显示图像采集控件，也可以同时显示图像采集控件和音频录制控件，还可以同时显示图像采集控件、音频录制控件和文本录入控件。本申请所保护的范围同时包括上述三种内容。在图2中，以记录浮窗同时显示图像采集控件和音频录制控件为例进行说明。

在图2中，记录浮窗220中显示有音频录制控件221和图像采集控件222。其中，音频录制控件221将根据当前的音频录制状态来确定被触发时实际执行的操作。介绍如下：

(1)在终端不处于录制音频的状态时，音频录制控件221被触发时将指示终端开始录制音频。

(2)在终端处于录制音频的状态时，音频录制控件221被触发时将指示终端停止录制音频。

需要说明的是，音频的来源在不同的场景中有所区别。在本申请中，音频录制场景可以包括线上音频录制场景和线下音频录制场景。其中，线上音频录制场景中采集的音频包括环境声音频和应用内音频。线下音频录制场景中采集的音频包括环境声音频。

线下音频录制场景可以包括课堂或者会场等现场场景。其中，音频是通过终端中的麦克风从外部环境中采集到的环境声。线上音频录制场景可以包括终端通过视频会议应用、社交应用或者在线教育应用等进行视频听讲的场景中。其中，音频包括终端直接采集的视频会议的音频数据，以及，终端通过麦克风采集的环境声。

在记录浮窗220中，图像采集控件222用于在被触发时采集图像内容。

需要说明的是，图像采集控件222将根据不同的音频录制场景执行不同的操作。介绍如下：

(1)在终端处于线下音频录制场景中，图像采集控件222被触发时将通过摄像头拍摄现场的图片或者短视频，作为图像内容。

(2)终端在线上音频录制场景时，图像采集控件222被触发时将直接截屏或者录屏等方式获取图像数据。

综上所述，本申请实施例提供的终端显示记录浮窗，该浮窗中有图像采集控件，在录制音频的过程中，终端在图像采集控件被触发时采集图像内容，并转化音频为第一文本；基于第一文本的播放时刻和图像内容的采集时刻，分别将第一文本和图像内容关联至音频的时间轴上，生成记录文件，以使得记录文件播放音频时在相应的时刻复现图像内容和第一文本。由于图像内容和第一文本的存在，相较于录制视频，本申请能够在减少容量占用的前提下，提高了音频内容的可视化程度，提高了记录信息的效果。

在本申请中，终端将按照线上音频录制场景和线下音频录制场景两种场景，介绍上述本方案的具体应用方式。

请参见图3，图3是本申请实施例提供的一种在记录内容的方法。该方法可以应用在终端中，在该记录内容的方法中，包括：

步骤310，显示记录浮窗，记录浮窗中显示有图像采集控件。

在本例中，步骤310和步骤110的执行过程相同，此处不再赘述。

步骤320，响应于对音频录制控件的触发操作，开始音频录制。

在本申请中，音频录制控件可以显示在记录浮窗中，当该记录浮窗中的音频录制控件被触发时，终端开始录制音频。

步骤331，音频录制过程中，响应于对图像采集控件的触发操作，获取音频的已录制时长。

其中，用于录制音频的线程或者进程中有计时功能，终端可以从该线程或者进程中获取音频的已录制时长。可选地，终端中可以设置软件计时器和硬件计时器。本申请既可以调用软件计时器来计时，也可以调用硬件计时器来计时。

步骤332，基于音频录制场景采集图像内容，并将已录制时长确定为图像内容的采集时刻。

在本例中，终端根据不同的场景选择对应的方式采集图像内容。在本例中，基于音频录制场景采集图像内容可以包括场景一和场景二两种情况，介绍如下。

场景一：音频录制场景是线下音频录制场景。

在线下音频录制场景中，终端调用摄像头采集图像内容。其中，线下音频录制场景下采集的音频为环境声音频。环境声音频是终端周围的环境中产生的音频。

场景二：音频录制场景是线上音频录制场景。

在线上录制音频场景中，终端从显示屏显示的用户界面中采集图像内容。其中，线上音频录制场景下采集的音频包括环境声音频和应用内音频。

在一种可能的方式中，终端通过安装的视频会议或者在线教育应用录制音频，该场景即属于线上音频录制场景。

在本例中，终端可以在完成一个图像内容的采集后，更新图像采集控件的角标，角标用于指示已采集的图像内容的数量。

可选的，若音频录制过程中，终端尚未采集图像内容时，图像采集控件可以不显示角标。当终端在录制音频的过程中已经采集了图像内容时，图像采集控件可以通过角标的方式显示已经采集到的图像内容的数量。当图像内容是静态图片或者动态图片时，图像内容的数量用于指示图片的张数。当图像内容是短视频时，图像内容的数量用于指示短视频的个数。

请参考图4，图4是本申请实施例提供的一种记录浮窗的示意图。在图4中，图像采集控件222的右上角显示有角标，该角标中的数字用于指示图像内容的数量。例如图像采集控件222的右上角显示的数字“3”指示终端中已经采集了3个图像内容。

针对本申请可能应用的线上音频录制场景和线下音频录制场景，介绍如下。

(a1)在线上音频录制场景中，终端调用摄像头采集外部环境的图像，得到图像内容。

其中，采集外部图像可以包括拍摄静态图片，采集一小段时间的视频制作动态图片，或者，采集一段时间的视频制作短视频。

请参照图5，图5是本申请实施例提供的一种获取图像内容的示意图。在图5中，终端处于图像拍摄界面。需要说明的是，该图像拍摄界面既可以是系统相机应用提供的拍摄界面，也可以是第三方应用提供的拍摄界面。

(a2)在线下音频录制场景中，响应于对音频录制控件的触发操作，终端获取应用内的图像内容。其中，应用可以是视频会议应用、社交应用或者在线教育应用等。

在本例中，当终端的前台运行视频会议应用、社交应用或者在线教育应用等时，说明用户正在参与线上的视频会议、视频培训或者在线听课培训。因此，用户实际需要记录的是线上场景中的信息。终端即可在该场景中，响应于对音频录制控件的触发操作，录制应用内的音频流。其中，终端也可以获取应用内的视频流和环境声音频。

可选地，终端获取应用内的图像内容，可以对应用的用户界面进行截屏或录屏来得到视频段。示意性的，本申请还提供连拍融合功能。该连拍融合功能用于将拍摄间隔时长短于间隔阈值的两张图像进行融合，或，只保留一张，从而进一步减小记录文件的文件大小，有效节省存储空间。其中，间隔阈值可以是2秒、3秒或4秒等数值。

需要说明的是，本申请还提供一种对线上场景中采集图像内容的处理方式。该处理方式包括步骤(b1)和步骤(b2)。

步骤(b1)，对图像内容进行图像识别。

在本例中，终端对采集到的图像内容进行图像识别。其中，该图像识别的作用在于识别出图像内容中是否包括内容展示区。

可选地，内容展示区是包含文字内容的特定形状区域，或者，内容展示区是包含条形图、饼状图或报表等数据表格的特定形状区域。终端对图像内容进行图像识别，具备识别出内容展示区的能力。需要说明的是，终端可以将图像内容上传至云端，调用云端的图像识别能力来确定图像内容中是否存在内容展示区。终端也可以在本地具有图像识别能力。

可选地，内容展示区可以是幻灯片、黑板或白板中任意一种内容。

一种可能的实现方式，该图像识别功能是云端服务器提供的功能。终端通过将图像内容上传至云端服务器来完成图像识别。

步骤(b2)，响应于图像内容中包括内容展示区，对内容展示区中的局部图像进行图像处理，得到处理后的图像内容。

其中，图像处理的方式包括图像校正、图像裁剪或图像增强中的至少一种。

在本例中，终端能够从图像内容中识别出内容展示区。当终端从图像内容中识别出内容展示区后，终端可以对内容展示区中的局部图像进行处理。

可选的，图像校正用于将局部图像中变形的文字进行校正，或者，用于矫正图像中变形的矩形框。

可选的，图像裁剪用于将内容展示区中的局部图像裁剪出来。

可选的，图像增强用于提高内容展示区中的局部图像的分辨率，令局部图像更容易被用户辨认或提高观看效果。

请参见图6，图6是本申请实施例提供的一种图像内容的裁剪示意图。其中，第一图像610是终端直接获取到的未裁剪的图像，第二图像620是第一图像610经过裁剪后得到的图像。其中，区域6A是内容展示区。

在图3所示方案的基础上，本申请还能够识别音频的发声者。相应的方案包括步骤(c1)和步骤(c2)。

步骤(c1)，对音频进行声纹识别，确定第一文本对应的发声者。

在本例中，终端能够借助云端服务器对音频进行声纹识别，从而确定第一文本对应的发声者。

步骤(c2)，为第一文本添加发声者标识，以使得基于记录文件播放音频时将第一文本和发声者标识关联显示。

在本例中，终端能够在识别出发声者后，为第一文本添加发声者标识，以使得基于记录文件播放音频时将第一文本和发声者标识关联显示。

步骤341，音频录制过程中，响应于对文本录入控件的触发操作，获取录入的第二文本。

在本例中，终端还能够提供笔记功能。在该场景中，记录浮窗中还显示有文本录入控件。

也即，用户可以在音频的录制过程中，通过触发记录浮窗中显示的文本录入控件，来输入自己针对本次音频录制的笔记。示意性的，响应于对笔记控件的触发操作，终端以浮窗的形式显示笔记窗口。终端将从笔记窗口中获取到的文本作为第二文本。

步骤342，基于第二文本的录入时刻，将第二文本关联至音频的时间轴上，以使得基于记录文件播放音频时按照录入时刻显示第二文本。

步骤351，响应于播放指令，确定记录文件的播放模式。

其中，视频模式下，当音频播放至图像内容的采集时刻时，图像内容以视频帧的形式显示，阅读模式下，图像内容以图片流的形式显示。

需要说明的是，每一个视频帧的持续显示时刻可以不同。当终端采用阅读模式时，图片流中的每一张图片有其在音频的时间轴上的采集时刻。

步骤352，基于音频的时间轴，以播放模式播放记录文件。

在本例中，终端以音频的时间轴为基准，播放该记录文件。

一种可能的方式中，当记录文件包括音频和图像内容时，终端以音频的时间轴为基准，在播放音频的过程中按照采集时刻显示图像内容。

另一种可能的方式中，当记录文件包括音频、图像内容和第一文本时，终端以音频的时间轴为基准，在播放音频的过程中按照采集时刻显示图像内容，并按照播放时刻显示第一文本。

在又一种可能的方式中，当记录文件包括音频、图像内容、第一文本和第二文本时，终端以音频的时间轴为基准，在播放音频的过程中按照采集时刻显示图像内容，按照播放时刻显示第一文本，并按照录入时刻显示第二文本。

在又一种可能的方式中，当记录文件包括音频、图像内容和第二文本时，终端以音频的时间轴为基准，在播放音频的过程中按照采集时刻显示图像内容，并按照录入时刻显示第二文本。

在本申请中，记录文件具有默认的播放模式。终端能够按照指定的标准确定记录文件的播放模式。

在一种可能的指定的标准中，终端根据图像内容在记录文件中的拍摄频率与频率阈值之间的关系来确定播放模式是视频模式或者阅读模式。

场景一，在图像内容的拍摄频率大于频率阈值的情况下，终端确定播放模式是视频模式。其中，拍摄频率是图像内容的数量与音频的时长的比值。

例如，拍摄频率可以是3张/分钟、2.1张/分钟或1.55张/分钟等数值。该拍摄频率仅为示意性举例，不对拍摄频率形成限定。

若拍摄频率是5张/分钟，且频率阈值是3张/分钟，则拍摄频率大于频率阈值，此时终端将视频模式确定为播放模式。

在该播放模式是视频模式的场景中，终端可以通过执行步骤(d1)和步骤(d2)来实现播放记录文件的步骤。

步骤(d1)，音频播放过程中，响应于达到第n图像内容的采集时刻，以视频帧的形式显示第n图像内容，n为正整数。

在本例中，终端在音频播放过程中，在时间达到第n图像内容的采集时刻时，以视频帧的形式显示第n图像内容。

步骤(d2)，响应于达到第n+1图像内容的采集时刻，将第n图像内容切换为第n+1图像内容。

在本例中，终端音频播放过程中，在时间达到第n+1图像内容的采集时刻时，将第n图像内容切换为第n+1图像内容。

场景二，在图像内容在记录文件中的拍摄频率小于或等于频率阈值的情况下，终端确定播放模式是阅读模式。

若拍摄频率是2张/分钟，且频率阈值是3张/分钟，则拍摄频率小于频率阈值，此时终端将视频模式确定为阅读模式。

在播放模式是阅读模式时，图片流将随着音频的播放进度滚动，本申请对滚动的速度和方式不作限定。

请参照图7，图7是本申请实施例提供的一种视频模式的示意图。在用户界面7A中，显示有图像内容710、第一文本720、第一切换控件730和记录名称740。

在图7所示的视频模式中，图像内容710包括三组条形数据。第一组条形数据用于表示2018年的库存量和销量；第二组条形数据用于表示2019年的库存量和销量；第三组条形数据用于表示2020年的库存量和销量。

第一文本720是音频当前播放时刻12:32时的音频转化为的文字内容。也即，《记录20180529》在播放到12:32时的音频是“...库存在2020年出现了较大积压…”，本申请提供的方案能够将该音频转化为第一文本720，并在12:32时在图像内容710的上层显示。在一种可能的场景中，第一文本720所在的图层位于图像内容710所在图层的上侧。

针对第一文本720的显示位置，终端可以在显示界面中的指定区域显示。例如，指定区域是显示界面中的中部靠下的位置。在另一种可能的方式中，终端可能识别图像内容710，进而在不遮挡图像内容710的空白处显示第一文本720。

其中，在记录文件以视频模式播放的情况下，终端显示第一切换控件730，第一切换控件730用于在触发时将视频模式切换为阅读模式。

请参照图8，图8是本申请实施例提供的一种阅读模式的示意图。在用户界面8A中，显示有图像内容810、第一文本820、第二切换控件830和记录名称840。

其中，在记录文件以阅读模式播放的情况下，终端显示第二切换控件，第二切换控件用于在触发时将阅读模式切换为视频模式。

在本申请实施例中，以图8为例，记录文件在以阅读模式播放的情况下，终端能够按照预设标准分段显示第一文本。例如，图8中第一文本820分为第一段落821、第二段落822和第三段落823。在该标准中，预设标准是发声者不同或者语音间隔时长大于第二阈值。

例如，在图8给出的示例中，第一段落821和第二段落822之间的分段依据是第一段落821和第二段落822之间的时间间隔大于第二阈值。第二段落822和第三段落823之间的分段依据是第二段落822的发声者和第三段落823的发声者不同。

在本例中，分段后的第一文本中的子文本对应显示跳转控件，跳转控件用于在被触发时将记录文件的播放进度调整为子文本对应的时刻。

例如，在图8中，第一段落821对应着跳转控件851，第二段落822对应着跳转控件852，第三段落823对应着跳转控件853。需要说明的是，图8中的跳转控件被触发之后即可调整记录文件的播放进度。若跳转控件852被触发时，则记录文件的播放进度被调整至16:50。

步骤361，响应于分享指令，获取配置文件。

在本例中，终端在存储记录文件之后，能够获取配置文件。需要说明的是，该配置文件是记录文件对应的配置文件。记录文件具有唯一对应性。

步骤362，根据配置文件，将图像内容按照采集时刻关联至音频的时间轴上。

在本例中，配置文件中记录有图像内容的采集时刻以及图像内容的存储路径。因此，终端能够根据配置文件获取到图像内容，并根据采集时刻将其关联至音频的时间轴上。

步骤363，将图像和音频以超文本标记语言html格式封装。

步骤364，将封装后的超文本标记语言文件分享至分享指令对应的分享设备，以便分享设备通过原生应用播放超文本标记语言文件。

终端将音频和图像内容以超文本标记语言html格式进行封装。由于html格式的文件能够被浏览器直接读取播放，因此，重按能够将封装好的文件直接分享至分享指令对应的设备，使得该设备通过原生的浏览器或者第三方浏览器直接播放该记录文件。

综上所述，本申请提供的记录内容的方法，能够在线上音频录制场景或者线下音频录制场景进行信息记录而得到记录文件。其中，线上音频录制场景能够不仅保存应用内的录音而且保存应用的截图，从而形成记录文件，便于用户在较节省存储容量的前提下，尽可能多保存视频会议等线上场景中的信息。线下音频录制场景能够在录制音频的过程中拍摄环境中的图像，拍摄后的图像能够被截取为仅包括内容展示区的图像，进一步节省了存储容量。

可选地，记录文件还能够将音频通过语音识别转为第一文本，并按照第一文本的播放时刻关联至音频的时间轴，实现记录文件中包含音频对应的文本，使得记录文件中存储的信息更易获取。

可选地，记录文件还可以按照其中的图像内容的拍摄频率确定播放模式。当记录文件中的图像内容的拍摄频率较高时，将视频模式作为播放模式。当记录文件中的图像内容的拍摄频率较低时，将阅读模式作为播放模式。由此，本申请可以将记录文件以最容易获取信息的方式展现给用户。

可选地，记录文件还可以被封装为html文件从而分享给其他设备。由于设备中通常均安装有浏览器，而浏览器可以直接读取html文件。因此，本申请新保存的记录文件在其它设备中也能够不安装特别的播放器而直接播放，从而降低了播放记录文件的难度。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图9，图9是本申请一个示例性实施例提供的一种记录内容的装置的结构框图。该记录内容的装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

浮窗显示模块910，用于显示记录浮窗，所述记录浮窗中显示有图像采集控件。

图像采集模块920，用于在音频录制过程中，响应于对所述图像采集控件的触发操作，采集图像内容。

文本转换模块930，用于对所述音频进行文本转换，得到所述音频对应的第一文本。

第一关联模块940，用于基于所述第一文本的播放时刻，将所述第一文本关联至所述音频的时间轴上。

记录生成模块950，用于基于所述图像内容的采集时刻，将所述图像内容关联至所述音频的时间轴上，生成记录文件，以使得所述记录文件播放所述音频时按照所述采集时刻显示所述图像内容并按照所述播放时刻显示所述第一文本。

在一个可选的实施例中，所述图像采集模块920，用于音频录制过程中，响应于对所述图像采集控件的触发操作，获取所述音频的已录制时长；基于音频录制场景采集所述图像内容，并将所述已录制时长确定为所述图像内容的所述采集时刻。

在一个可选的实施例中，所述图像采集模块920，用于响应于所述音频录制场景是线下音频录制场景，调用摄像头采集所述图像内容，所述线下音频录制场景下采集的所述音频为环境声音频。或，所述图像采集模块920，用于响应于所述音频录制场景是线上音频录制场景，从显示屏显示的用户界面中采集所述图像内容，所述线上音频录制场景下采集的所述音频包括环境声音频和应用内音频。

在一个可选的实施例中，所述装置还包括图像识别模块和图像处理模块，所述图像识别模块，用于对所述图像内容进行图像识别。所述图像处理模块，用于响应于所述图像内容中包括内容展示区，对所述内容展示区中的局部图像进行图像处理，得到处理后的所述图像内容，其中，所述内容展示区是包含文字内容或数据表格的特定形状区域，图像处理的方式包括图像校正、图像裁剪或图像增强中的至少一种。

在一个可选的实施例中，所述装置还包括声纹识别模块和标识添加模块。所述声纹识别模块，用于对所述音频进行声纹识别，确定所述第一文本对应的发声者。所述标识添加模块，用于为所述第一文本添加发声者标识，以使得基于所述记录文件播放所述音频时将所述第一文本和所述发声者标识关联显示。

在一个可选的实施例中，所述装置还包括音频录制模块，用于响应于对所述音频录制控件的触发操作，开始录制所述音频，所述记录浮窗中还显示有所述音频录制控件。

在一个可选的实施例中，所述装置还包括文本获取模块和第二关联模块。所述文本获取模块，用于音频录制过程中，响应于对所述文本录入控件的触发操作，获取录入的第二文本。所述第二关联模块，用于基于所述第二文本的录入时刻，将所述第二文本关联至所述音频的时间轴上，以使得基于所述记录文件播放音频时按照所述录入时刻显示所述第二文本。

在一个可选的实施例中，所述装置还包括角标更新模块，用于更新所述图像采集控件的角标，所述角标用于指示已采集的所述图像内容的数量。

在一个可选的实施例中，所述装置还包括模式确定模块和记录播放模块。所述模式确定模块，用于响应于播放指令，确定所述记录文件的播放模式；所述播放模式包括视频模式和阅读模式，所述视频模式下，当所述音频播放至所述图像内容的所述采集时刻时，所述图像内容以视频帧的形式显示，所述阅读模式下，所述图像内容以图片流的形式显示；所述记录播放模块，用于基于所述音频的时间轴，以所述播放模式播放所述记录文件。

在一个可选的实施例中，所述模式确定模块，用于响应于所述图像内容的拍摄频率大于频率阈值，确定所述播放模式是所述视频模式；所述拍摄频率是所述图像内容的数量与音频时长的比值。或者，所述模式确定模块，用于响应于所述图像内容的所述拍摄频率小于或等于所述频率阈值，确定所述播放模式是所述阅读模式。

在一个可选的实施例中，所述装置还包括第一显示模块和第二显示模块。所述第一显示模块，用于在所述记录文件以所述视频模式播放的情况下，显示第一切换控件，所述第一切换控件用于将所述视频模式切换为所述阅读模式。所述第二显示模块，用于在所述记录文件以所述阅读模式播放的情况下，显示第二切换控件，所述第二切换控件用于将所述阅读模式切换为所述视频模式。

在一个可选的实施例中，所述记录播放模块，用于音频播放过程中，响应于达到第n图像内容的所述采集时刻，以视频帧的形式显示所述第n图像内容，n为正整数；响应于达到第n+1图像内容的所述采集时刻，将所述第n图像内容切换为第n+1图像内容，所述播放模式是所述视频模式。

综上所述，本申请提供的记录内容的装置，能够在线上音频录制场景或者线下音频录制场景进行信息记录而得到记录文件。其中，线上音频录制场景能够不仅保存应用内的录音而且保存应用的截图，从而形成记录文件，便于用户在较节省存储容量的前提下，尽可能多保存视频会议等线上场景中的信息。线下音频录制场景能够在录制音频的过程中拍摄环境中的图像，拍摄后的图像能够被截取为仅包括内容展示区的图像，进一步节省了存储容量。

示例性地，本申请实施例所示的记录内容的方法，可以应用在终端中，该终端具备显示屏且具备记录内容的功能。终端可以包括手机、平板电脑、膝上型电脑、台式电脑、电脑一体机、电视、机顶盒、智能眼镜、智能手表、数码相机、MP4播放终端、MP5播放终端、学习机、点读机、电纸书、电子词典、车载终端、虚拟现实(Virtual Reality，VR)播放终端或增强现实(Augmented Reality，AR)播放终端等。

请参考图10，图10是本申请一个示例性实施例提供的一种终端的结构框图，如图10所示，该终端包括处理器1020和存储器1040，所述存储器1040中存储有至少一条指令，所述指令由所述处理器1020加载并执行以实现如本申请各个方法实施例所述的记录内容的方法。

在本申请中，终端1000显示记录浮窗，所述记录浮窗中显示有图像采集控件；音频录制过程中，响应于对所述图像采集控件的触发操作，采集图像内容；基于所述图像内容的采集时刻，将所述图像内容关联至音频的时间轴上，生成记录文件，以使得基于所述记录文件播放所述音频时按照所述采集时刻显示所述图像内容。

处理器1020可以包括一个或者多个处理核心。处理器1020利用各种接口和线路连接整个终端1000内的各个部分，通过运行或执行存储在存储器1040内的指令、程序、代码集或指令集，以及调用存储在存储器1040内的数据，执行终端100的各种功能和处理数据。可选的，处理器1020可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1020可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1020中，单独通过一块芯片进行实现。

存储器1040可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器1040包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1040可用于存储指令、程序、代码、代码集或指令集。存储器1040可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储下面各个方法实施例中涉及到的数据等。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的记录内容的方法。

需要说明的是：上述实施例提供的记录内容的装置在执行记录内容的方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的记录内容的装置与记录内容的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的能够实现的示例性的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种记录内容的方法，其特征在于，所述方法包括：

显示记录浮窗，所述记录浮窗中显示有图像采集控件；

对音频进行文本转换，得到所述音频对应的第一文本；

2.根据权利要求1所述的方法，其特征在于，所述音频录制过程中，响应于对所述图像采集控件的触发操作，采集图像内容，包括：

音频录制过程中，响应于对所述图像采集控件的触发操作，获取所述音频的已录制时长；

基于音频录制场景采集所述图像内容，并将所述已录制时长确定为所述图像内容的所述采集时刻。

3.根据权利要求2所述的方法，其特征在于，所述基于音频录制场景采集所述图像内容，包括：

响应于所述音频录制场景是线下音频录制场景，调用摄像头采集所述图像内容，所述线下音频录制场景下采集的所述音频为环境声音频；

或，

响应于所述音频录制场景是线上音频录制场景，从显示屏显示的用户界面中采集所述图像内容，所述线上音频录制场景下采集的所述音频包括环境声音频和应用内音频。

4.根据权利要求1所述的方法，其特征在于，所述采集图像内容后，所述方法还包括：

对所述图像内容进行图像识别；

响应于所述图像内容中包括内容展示区，对所述内容展示区中的局部图像进行图像处理，得到处理后的所述图像内容，其中，所述内容展示区是包含文字内容或数据表格的特定形状区域，图像处理的方式包括图像校正、图像裁剪或图像增强中的至少一种。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述音频进行声纹识别，确定所述第一文本对应的发声者；

为所述第一文本添加发声者标识，以使得基于所述记录文件播放所述音频时将所述第一文本和所述发声者标识关联显示。

6.根据权利要求1所述的方法，其特征在于，所述记录浮窗中还显示有文本录入控件，所述方法还包括：

音频录制过程中，响应于对所述文本录入控件的触发操作，获取录入的第二文本；

基于所述第二文本的录入时刻，将所述第二文本关联至所述音频的时间轴上，以使得基于所述记录文件播放所述音频时按照所述录入时刻显示所述第二文本。

7.根据权利要求1所述的方法，其特征在于，在所述采集图像内容后，所述方法还包括：

更新所述图像采集控件的角标，所述角标用于指示已采集的所述图像内容的数量。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于播放指令，确定所述记录文件的播放模式；所述播放模式包括视频模式和阅读模式；所述视频模式下，当所述音频播放至所述图像内容的所述采集时刻时，所述图像内容以视频帧的形式显示；所述阅读模式下，所述图像内容以图片流的形式显示；

基于所述音频的时间轴，以所述播放模式播放所述记录文件。

9.根据权利要求8所述的方法，其特征在于，所述确定所述记录文件的播放模式，包括：

响应于所述图像内容的拍摄频率大于频率阈值，确定所述播放模式是所述视频模式；所述拍摄频率是所述图像内容的数量与音频时长的比值；

响应于所述图像内容的所述拍摄频率小于或等于所述频率阈值，确定所述播放模式是所述阅读模式。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

在所述记录文件以所述视频模式播放的情况下，显示第一切换控件，所述第一切换控件用于将所述视频模式切换为所述阅读模式；

在所述记录文件以所述阅读模式播放的情况下，显示第二切换控件，所述第二切换控件用于将所述阅读模式切换为所述视频模式。

11.根据权利要求8所述的方法，其特征在于，所述播放模式是所述视频模式，所述以所述播放模式播放所述记录文件，包括：

音频播放过程中，响应于达到第n图像内容的所述采集时刻，以视频帧的形式显示所述第n图像内容，n为正整数；

响应于达到第n+1图像内容的所述采集时刻，将所述第n图像内容切换为第n+1图像内容。

12.一种记录内容的装置，其特征在于，所述装置包括：

13.一种终端，其特征在于，所述终端包括处理器、和与所述处理器相连的存储器，以及存储在所述存储器上的程序指令，所述处理器执行所述程序指令时实现如权利要求1至11任一所述的记录内容的方法。

14.一种计算机可读存储介质，所述存储介质中存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至11任一所述的记录内容的方法。