CN112087653A

CN112087653A - 一种数据处理方法、装置和电子设备

Info

Publication number: CN112087653A
Application number: CN202010988746.3A
Authority: CN
Inventors: 路呈璋; 崔文华; 李健涛
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-15

Abstract

本发明实施例提供了一种数据处理方法、装置和电子设备，其中，所述方法包括：在录音设备录音过程中，接收图像采集指令；依据所述图像采集指令进行图像采集；将采集得到的图像数据与录音得到的音频数据进行关联；从而实现将从多个维度记录数据的关联，便于后续用户同时使用记录的多个维度的数据，能够提高用户使用体验。

Description

一种数据处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据处理方法、装置和电子设备。

背景技术

近年来，录音设备作为专业领域的产品，发展迅速并进入大众领域。记者、学生、教师等各种群体，通常都需要录音设备进行录音。此外各种电视节目、电影、音乐等录制也需要使用到录音设备。

其中，在很多场景中，除了需要使用录音设备进行录音，来记录音频这一个维度的数据之外，还可能需要记录其它维度的数据如图像资料，例如印刷资料、投屏图像等。此时，用户通常会用终端设备如手机拍照来记录图像资料。

由于录音设备记录的音频数据存储在录音设备中，图像资料存储在终端设备中，时间长了之后，可能会忘记录音设备的一段音频，对应终端设备中存储的哪些图像；进而使得用户无法同时使用记录的多个维度的数据。

发明内容

本发明实施例提供一种数据处理方法，以在录音的同时进行图像采集，并将采集的图像与录音得到的音频进行关联；进而便于后续用户同时使用记录的多个维度的数据。

相应的，本发明实施例还提供了一种数据处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种数据处理方法，具体包括：在录音设备录音过程中，接收图像采集指令；依据所述图像采集指令进行图像采集；将采集得到的图像数据与录音得到的音频数据进行关联。

可选地，所述图像数据包括至少一个图像帧，所述音频数据包括至少一个音频帧；所述将采集得到的图像数据与录音得到的音频数据进行关联，包括：针对所述图像数据中的目标图像帧，确定所述目标图像帧对应的目标时间戳；确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧；将所述目标图像帧和目标音频帧进行关联。

可选地，所述的方法还包括：接收针对录音得到的音频数据的传输指令；将所述音频数据和与所述音频数据关联的图像数据发送至其他设备。

可选地，所述的方法还包括：对录音得到的音频数据进行语音识别，得到对应的语音文本识别信息；将所述语音文本识别信息与所述音频数据进行关联。

可选地，所述的方法还包括：对录音得到的音频数据进行翻译，得到对应的翻译文本信息；将所述翻译文本信息与所述音频数据进行关联。

可选地，所述对录音得到的音频数据进行语音识别，得到对应的语音文本识别信息，包括：依据采集得到的图像数据对录音得到的音频数据进行语音识别，确定对应的语音识别文本信息。

可选地，所述依据采集得到到图像数据对录音得到的音频数据进行语音识别，确定对应的语音识别文本信息，包括：对采集得到的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明实施例还公开了一种数据处理装置，应用于录音设备中，具体包括：第一指令接收模块，用于在录音设备录音过程中，接收图像采集指令；图像采集模块，用于依据所述图像采集指令进行图像采集；第一关联模块，用于将采集得到的图像数据与录音得到的音频数据进行关联。

可选地，所述图像数据包括至少一个图像帧，所述音频数据包括至少一个音频帧；所述第一关联模块，用于针对所述图像数据中的目标图像帧，确定所述目标图像帧对应的目标时间戳；确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧；将所述目标图像帧和目标音频帧进行关联。

可选地，所述的装置还包括：数据传输模块，用于接收针对录音得到的音频数据的传输指令；将所述音频数据和与所述音频数据关联的图像数据发送至其他设备。

可选地，所述的装置还包括：第二关联模块，用于对录音得到的音频数据进行语音识别，得到对应的语音文本识别信息；将所述语音文本识别信息与所述音频数据进行关联。

可选地，所述的装置还包括：第三关联模块，用于对录音得到的音频数据进行翻译，得到对应的翻译文本信息；将所述翻译文本信息与所述音频数据进行关联。

可选地，所述第二关联模块，用于依据采集得到的图像数据对录音得到的音频数据进行语音识别，确定对应的语音识别文本信息。

可选地，所述第二关联模块，用于对采集得到的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由录音设备的处理器执行时，使得录音设备能够执行如本发明实施例任一所述的数据处理方法。

本发明实施例还公开了一种录音设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：在录音设备录音过程中，接收图像采集指令；依据所述图像采集指令进行图像采集；将采集得到的图像数据与录音得到的音频数据进行关联。

可选地，还包含用于进行以下操作的指令：接收针对录音得到的音频数据的传输指令；将所述音频数据和与所述音频数据关联的图像数据发送至其他设备。

可选地，还包含用于进行以下操作的指令：对录音得到的音频数据进行语音识别，得到对应的语音文本识别信息；将所述语音文本识别信息与所述音频数据进行关联。

可选地，还包含用于进行以下操作的指令：对录音得到的音频数据进行翻译，得到对应的翻译文本信息；将所述翻译文本信息与所述音频数据进行关联。

本发明实施例还提供一种数据处理方法，包括：接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的；播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

可选地，所述的方法还包括：对所述音频数据进行语音识别，确定对应的语音识别文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述语音识别文本信息。

可选地，所述的方法还包括：在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的语音识别文本信息。

可选地，所述的方法还包括：对所述音频数据进行翻译，得到翻译文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述翻译文本信息。

可选地，所述的方法还包括：在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的翻译文本信息。

可选地，所述图像数据包括至少一个图像帧，所述音频数据包括至少一个音频帧；所述播放所述音频数据和与所述音频数据关联的图像数据，包括：播放所述音频数据，并在播放所述音频数据中的目标音频帧时，判断是否存在与所述目标音频帧关联的目标图像帧；若存在与所述目标音频帧关联的目标图像帧，则展示所述目标图像帧。

可选地，所述播放所述音频数据和与所述音频数据关联的图像数据，包括：在录音设备中播放所述音频数据和与所述音频数据关联的图像数据。

可选地，所述对所述音频数据进行语音识别，确定对应的语音识别文本信息，包括：依据与所述音频数据关联的图像数据对所述音频数据进行语音识别，确定对应的语音识别文本信息。

可选地，所述依据与所述音频数据关联的图像数据对所述音频数据进行语音识别，确定对应的语音识别文本信息，包括：对与所述音频数据关联的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明实施例还提供一种数据处理装置，包括：第二指令接收模块，用于接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的；播放模块，用于播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

可选地，所述的装置还包括：第一展示模块，用于对所述音频数据进行语音识别，确定对应的语音识别文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述语音识别文本信息。

可选地，所述的装置还包括：第二展示模块，用于在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的语音识别文本信息。

可选地，所述的装置还包括：第三展示模块，用于对所述音频数据进行翻译，得到翻译文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述翻译文本信息。

可选地，所述的装置还包括：第四展示模块，用于在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的翻译文本信息。

可选地，所述图像数据包括至少一个图像帧，所述音频数据包括至少一个音频帧；所述播放模块，用于播放所述音频数据，并在播放所述音频数据中的目标音频帧时，判断是否存在与所述目标音频帧关联的目标图像帧；若存在与所述目标音频帧关联的目标图像帧，则展示所述目标图像帧。

可选地，所述播放模块，用于调用录音设备播放所述音频数据和与所述音频数据关联的图像数据。

可选地，所述第一展示模块，用于依据与所述音频数据关联的图像数据对所述音频数据进行语音识别，确定对应的语音识别文本信息。

可选地，所述第一展示模块，用于对与所述音频数据关联的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的数据处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的；播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

可选地，还包含用于进行以下操作的指令：对所述音频数据进行语音识别，确定对应的语音识别文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述语音识别文本信息。

可选地，还包含用于进行以下操作的指令：在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的语音识别文本信息。

可选地，还包含用于进行以下操作的指令：对所述音频数据进行翻译，得到翻译文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述翻译文本信息。

可选地，还包含用于进行以下操作的指令：在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的翻译文本信息。

可选地，所述电子设备为录音设备。

本发明实施例包括以下优点：

本发明实施例中，可以在录音设备录音过程中，接收图像采集指令；然后依据所述图像采集指令进行图像采集，并将采集得到的图像数据与录音得到的音频数据进行关联；从而实现将从多个维度记录数据的关联。

后续，在接收到针对采用录音设备录制的音频数据的播放指令后，可以播放所述音频数据和与所述音频数据关联的图像数据；进而实现将音频数据与图像数据联动播放的效果，不仅方便用户同时使用记录的多个维度的数据，还能够提高使用体验。

此外，本发明实施例中，还可以获取录制的音频数据的语音识别文本信息；进而在播放音频数据和与所述音频数据关联的图像数据的同时，播放该音频数据的语音识别文本信息；进而实现将音频数据、图像数据和语音识别文本联动播放的效果，便于用户同时使用录音、图像和语音识别文本信息等多个维度的数据，进一步提高用户使用体验。

附图说明

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种数据处理方法可选实施例的步骤流程图；

图3是本发明的又一种数据处理方法实施例的步骤流程图；

图4是本发明的又一种数据处理方法可选实施例的步骤流程图；

图5a是本发明的另一种数据处理方法实施例的步骤流程图；

图5b是本发明实施例的一种录音设备的播放界面示意图；

图6是本发明的另一种数据处理方法可选实施例的步骤流程图；

图7是本发明的一种数据处理装置实施例的结构框图；

图8是本发明的一种数据处理装置可选实施例的结构框图；

图9是本发明的又一种数据处理装置实施例的结构框图；

图10是本发明的又一种数据处理装置可选实施例的结构框图；

图11根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种数据处理方法，应用于所述录音设备中，所述录音设备可以是指具有录音功能的设备，如录音笔、翻译设备如翻译笔、翻译机等等；本发明实施例对此不作限制。

其中，所述录音设备设置有图像采集模块。进而本发明实施例能够在采用录音设备录音的同时，采用录音设备进行图像采集，并将音频数据和图像数据进行关联存储；从而实现将从多个维度记录数据的关联。后续在播放音频数据时，可以将音频数据和与音频数据关联的图像数据进行联动播放，方便用户同时使用记录的多个维度的数据，提高了用户体验。

以下如何将从多个维度的数据进行关联进行说明。

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、在录音设备录音过程中，接收图像采集指令。

本发明实施例中，当用户需要录音时，可以开启录音设备的录音功能，采用录音设备进行录音。在录音过程中，用户在需要记录其它维度的数据如图像资料，例如印刷资料、投屏图像等时，可以执行图像采集操作。待用户执行图像采集操作后，对应的录音设备可以接收到该图像采集操作对应的图像采集指令。

本发明的一个示例中，用户可以在录音设备中执行图像采集操作，对应的，录音设备可以根据接收到用户执行的图像采集操作，生成图像采集指令。

本发明的一个示例中，当录音设备与其它设备连接时，用户也可以在其他设备的与该录音设备对应的应用程序中，执行图像采集设备。此时，可以由其他设备根据用户的图像采集操作，生成图像采集指令；然后将图像采集指令发送给录音设备。所述其他设备可以是指除录音设备之外的设备，如终端设备等，本发明实施例对此不作限制。

步骤104、依据所述图像采集指令进行图像采集。

然后录音设备可以根据图像采集指令，调用其中的图像采集模块进行图像采集，得到图像数据。

步骤106、将采集得到的图像数据与录音得到的音频数据进行关联。

本发明实施例中，为了便于用户后续同时使用记录的多个维度的数据，在采集得到图像数据后，可以将采集得到的图像数据与录音得到的音频数据进行关联，并存储在录音设备中。

其中，可以基于采集得到的图像数据的时间和录音得到的音频数据对应的时间，将图像数据和音频数据进行关联，本发明实施例对此不作限制。

综上，本发明实施例中，可以在录音设备录音过程中，接收图像采集指令；然后依据所述图像采集指令进行图像采集，并将采集得到的图像数据与录音得到的音频数据进行关联；从而实现将从多个维度记录数据的关联，便于用户后续同时使用记录的多个维度的数据，提高了用户体验。

参照图2，示出了本发明的一种数据处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202、在录音设备录音过程中，接收图像采集指令。

本发明实施例中，所述录音设备中可以设置有显示组件，所述显示组件可以包括显示屏；录音设备的录音功能开启后，可以在显示屏中显示录音界面；其中，所述录音界面中展示有拍照界面的功能入口。在录音过程中，用户触发该功能入口后，可以进入拍照预览界面；所述拍照预览界面中设置有拍照按钮，用户可以通过触发该拍照按钮实现执行图像采集操作。当然，所述录音设备还可以设置有用于拍照的物理按键；录音过程中，用户第一次按压该用于拍照的物理按键后，可以在显示屏中显示拍照预览界面；用户可以通过第二次按压该用于拍照的物理按键，实现执行图像采集操作。

待用户执行图像采集操作后，录音设备可以接收到对应的图像采集指令；所述图像采集指令可以包括拍照指令。

步骤204、依据所述图像采集指令进行图像采集。

本发明实施例中，所述图像采集模块可以包括摄像头；录音设备在接收到拍照指令后，可以调用摄像头进行拍照，得到对应的图像数据。

在录音过程中，用户可以执行多次图像采集操作，对应的，录音设备可以接收到多次图像采集指令。录音设备可以在每接收到一次图像采集指令时，进行一次图像采集，得到对应的图像帧。

一个示例中，录音设备可以在每采集一个图像帧后，将该图像帧与录音过程中得到的与该图像帧对应的音频帧进行关联；进而实现将采集得到的图像数据与录音得到的音频数据进行关联。另一个示例中，录音设备可以将在每采集一个图像帧后存储该图像帧；并在录音结束后，将图像数据的每个图像帧与录音得到的音频数据中对应的音频帧进行关联。可以参照步骤206-步骤210。

步骤206、针对所述图像数据中的目标图像帧，确定所述目标图像帧对应的目标时间戳。

步骤208、确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧。

步骤210、将所述目标图像帧和目标音频帧进行关联。

其中，若录音设备是在每采集一个图像帧后，将该图像帧与录音过程中得到的与该图像帧对应的音频帧进行关联，则可以将每次采集的一个图像帧作为目标图像帧。若录音设备是在录音结束后，将图像数据的每个图像帧与录音得到的音频数据中对应的音频帧进行关联，则每次可以任意从图像数据中选取一图像帧作为目标图像帧，直到将图像数据中所有的图像帧与音频数据中对应的音频帧关联为止。

本发明实施例中，针对一个目标图像帧，可以确定所述目标图像帧对应的目标时间戳，并从录音得到的音频数据中时间戳与所述目标时间戳相同的目标音频帧；然后将所述目标图像帧和目标音频帧进行关联并存储。

综上，本发明实施例中，可以针对所述图像数据中的目标图像帧，确定所述目标图像帧对应的目标时间戳，以及确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧；然后将所述目标图像帧和目标音频帧进行关联；从而实现将采集得到的图像数据与录音得到的音频数据进行准确的关联。

本发明实施例中，接收针对录音得到的音频数据的传输指令；将所述音频数据和与所述音频数据关联的图像数据发送至其他设备。所述传输指令包括以下至少一种：分享指令、转发指令和转存指令等，本发明实施例对此不作限制。

当用户需要将录音设备中存储录音得到的音频数据，发送至其他设备时；可以针对所需发送至其他设备的音频数据，执行传输操作。对应的，录音设备可以接收到传输指令，然后可以将录音得到的音频数据以及与音频数据关联的图像数据，均发送给其他设备。其他设备接收到音频数据以及与音频数据关联的图像数据后，可以存储该音频数据，以及与音频数据关联的图像数据。进而后续用户也可以在其他设备中，同时使用记录的多个维度的数据。其中，用户可以针对本次录音得到的音频数据，执行传输操作，以将本次录音得到的音频数据发送至其他设备；也可以针对本次之前录音得到的音频数据执行传输操作，以将本次录音得到的音频数据发送至其他设备；本发明实施例对此不作限制。

本发明的一个可选实施例中，可以对录音得到的音频数据进行语音识别，得到对应的语音文本识别信息；将所述语音文本识别信息与所述音频数据进行关联。进而便于后续用户在播放音频数据的同时，播放与该音频数据关联的图像数据和语音文本识别信息。

本发明实施例中，所述对录音得到的音频数据进行语音识别，得到对应的语音文本识别信息，包括：依据采集得到的图像数据对录音得到的音频数据进行语音识别，确定对应的语音识别文本信息。进而通过结合与目标音频数据关联的信息，对所述目标音频数据进行语音识别，来提高语音识别的准确率。

其中，所述依据采集得到的图像数据对录音得到的音频数据进行语音识别，确定对应的语音识别文本信息，包括：对采集得到的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明的一个示例中，可以先采用OCR((Optical Character Recognition，光学字符识别)技术，对图像数据进行识别，确定对应的图像文本信息。再结合图像文本信息，对所述音频数据进行语音识别，确定对应的语音识别文本信息。

其中，可以在每对一段音频数据进行语音识别得到语音识别文本信息后，将该语音识别文本信息与该段音频数据进行关联。也可以在对每段音频数据进行语音识别得到语音识别文本信息后，为该语音识别文本标识该段音频数据对应的时间区间；待对完整的音频数据进行语音识别后，再基于各语音识别文本的时间区域，与音频数据中各音频帧的时间，将各语音识别文本与对应的音频数据片段关联；本发明实施例对此不作限制。以及可以将图像文本信息与对应的图像数据进行关联。

本发明实施例中，接收针对录音得到的音频数据的传输指令；将所述音频数据和与所述音频数据关联的语音识别文本信息发送至其他设备。

本发明的一个可选实施例中，可以对录音得到的音频数据进行翻译，得到对应的翻译文本信息；将所述翻译文本信息与所述音频数据进行关联。其中，可以先对音频数据进行语音识别，得到对应的语音文本识别信息；然后在基于语音文本识别信息进行翻译，得到对应的翻译文本信息。也可以直接对音频数据进行翻译，得到对应的翻译文本信息。进而便于后续用户在播放音频数据时，同时播放与该音频数据关联的图像数据和翻译文本信息。

本发明实施例中，接收针对录音得到的音频数据的传输指令；将所述音频数据和与所述音频数据关联的翻译文本信息发送至其他设备。

当然，本发明实施例中，接收针对录音得到的音频数据的传输指令；将所述音频数据，和，与所述音频数据关联的图像数据和/或语音识别文本信息和/或翻译文本信息，发送至其他设备。

本发明实施例中，可以在录音过程中，实时的对得到的音频数据进行语音识别/翻译；也可以在录音结束后，对得到的音频数据进行语音识别/翻译，本发明实施例对此不作限制。

此外，本发明实施例中，还可以接收针对以下至少一种数据的传输指令：图像数据、语音识别文本信息、图像文本信息和翻译文本信息；将所述传输指令对应的数据，传输至其他设备。进而用户能够将图像数据、语音识别文本信息、图像文本信息和翻译文本信息中的一种或多种，传输至其他设备中；便于用户在其他设备中使用将图像数据、语音识别文本信息、图像文本信息和翻译文本信息。所述传输指令可以包括分享指令、转发指令、转存指令等等。

对用户如何同时使用记录的多个维度的数据进行说明。

参照图3，示出了本发明的又一种数据处理方法实施例的步骤流程图。

步骤302、接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的。

步骤304、播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

本发明实施例中，当用户需要播放采用录音设备录制的音频数据时，可以在对应的电子设备中针对该音频数据执行播放操作；对应的，电子设备可以接收到播放指令。

其中，用户所需播放的音频数据，可以是存储在录音设备中的音频数据；进而用户可以在录音设备中执行播放操作，播放预先采用录音设备录制的音频数据。用户所需播放的音频数据，也可以是存储在录音设备中的音频数据；进而用户可以在其他设备中执行播放操作，播放预先采用录音设备录制的音频数据，本发明实施例对此不作限制。

由于录音设备录制音频数据的过程中采集了图像数据，并将采集得到的图像数据与录制得到的音频数据进行了关联；进而本发明实施例可以在播放录音设备录制的音频数据同时，基于该音频数据与对应关联的图像数据之间的关联，播放与所述音频数据关联的图像数据。从而用户无需手动查找与播放的音频数据相关的图像数据，即可以同时使用记录的多个维度的数据。

综上，本发明实施例中，录音设备在录制音频数据的过程中采集了图像数据，并将采集的图像数据和录制的音频数据进行关联；进而在接收针对采用录音设备录制的音频数据的播放指令后，可以播放所述音频数据和与所述音频数据关联的图像数据；进而用户无需手动查找与播放的音频数据相关的图像数据，即可以同时使用记录的多个维度的数据，从而提高用户同时使用记录的多个维度的数据的效率，提高了用户体验；

参照图4，示出了本发明的又一种数据处理方法可选实施例的步骤流程图。

步骤402、接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的。

步骤404、播放所述音频数据，并在播放所述音频数据中的目标音频帧时，判断是否存在与所述目标音频帧关联的目标图像帧；若存在与所述目标音频帧关联的目标图像帧，则展示所述目标图像帧。

本发明实施例中，可以按照音频数据中每个音频帧对应的时间戳，依次播放所述音频数据中包含的每一个音频帧；其中，可以将当前正在播放的音频帧作为目标音频帧。在播放每一个目标音频帧时，可以根据预先建立的音频数据与图像数据之间的关联，判断与音频数据关联的图像数据中，是否存在与所述目标音频帧关联的目标图像帧；当确定存在与所述目标音频帧关联的目标图像帧时，则可以展示所述目标图像帧。进而实现在播放目标音频帧的同时，展示与该目标音频帧关联的目标图像帧。

本发明的一个示例中，可以在录音设备中播放所述音频数据和与所述音频数据关联的图像数据。其中，可以在录音设备的显示屏中显示该音频数据关联的图像数据。进而实现用户在录音设备上使用从多个维度记录的数据。

参照图5a，示出了本发明的另一种数据处理方法实施例的步骤流程图。

步骤502、接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的。

步骤504、对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明实施例中，可以是在接收到播放指令之后，且在播放该音频数据之前，对所述音频数据进行语音识别，确定对应的语音识别文本信息；也可以是在播放录制的音频数据的过程中，对所述音频数据进行语音识别，确定对应的语音识别文本信息；本发明实施例对此不作限制。

步骤506、播放所述音频数据和与所述音频数据关联的图像数据，以及展示所述语音识别文本信息。

进而可以播放该音频数据，并在播放所述音频数据的同时，展示与所述音频数据关联的图像数据和展示所述语音识别文本信息。

其中，本发明实施例中，不限制步骤504和步骤506的执行顺序；可以是先执行步骤504，再执行步骤506；也可以是同时执行步骤504和步骤506。

可参照图5b，示出了本发明实施例的一种录音设备的播放界面示意图。图5b中示出了在播放音频数据时，同时展示该音频数据对应的图像数据和语音识别得到的语音识别文本信息。

本发明的一个可选实施例中，可以将该音频数据和该音频数据的语音识别文本信息进行关联；便于后续在需要再次使用该音频数据的语音识别文本信息时，直接基于音频数据与对应语音识别文本信息的关联，获取该音频数据的语音识别文本信息即可，无需对该音频数据进行语音识别，效率高。

本发明的一个可选实施例中，若预先已经将音频数据与该音频数据对应的语音识别文本信息进行了关联，则可以无需执行步骤504，在执行完步骤502后，可以执行如下步骤：播放所述音频数据和与所述音频数据关联的图像数据，以及展示与所述音频数据关联的语音识别文本信息。

综上，本发明实施例中，可以在接收到针对采用录音设备录制的音频数据的播放指令后，播放该音频数据，并在播放所述音频数据的同时，展示与所述音频数据关联的图像数据和展示所述语音识别文本信息；进而便于用户对音频数据内容的理解与使用，进一步提高用户体验。

参照图6，示出了本发明的另一种数据处理方法可选实施例的步骤流程图。

步骤602、接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的。

步骤604、对所述音频数据进行翻译，得到翻译文本信息。

本发明实施例中，可以是在接收到播放指令之后，且在播放该音频数据之前，对所述音频数据进行翻译，得到翻译文本信息。还可以是在播放录制的音频数据的过程中，对所述音频数据进行翻译，得到翻译文本信息；本发明实施例对此不作限制。

其中，可以先对音频数据进行语音识别，得到对应的语音文本识别信息；然后在基于语音文本识别信息进行翻译，得到对应的翻译文本信息。也可以直接对音频数据进行翻译，得到对应的翻译文本信息。进而便于后续用户在播放音频数据时，同时播放与该音频数据关联的图像数据和翻译文本信息。

步骤606、播放所述音频数据和与所述音频数据关联的图像数据，以及展示所述翻译文本信息。

进而可以在接收到播放指令时，播放该音频数据，并在播放所述音频数据的同时，展示与所述音频数据关联的图像数据和展示所述翻译文本信息。当然，若翻译文本信息是基于对语音识别文本信息进行翻译得到的，则还可以在播放所述音频数据的同时，展示与所述音频数据关联的图像数据和展示所述语音识别文本信息和翻译文本信息。

其中，本发明实施例中，不限制步骤604和步骤606的执行顺序；可以是先执行步骤604，再执行步骤606；也可以是同时执行步骤604和步骤606。

本发明的一个可选实施例中，可以将该音频数据和该音频数据的翻译文本信息进行关联；便于后续在再次需要使用该音频数据的翻译文本信息时，直接基于音频数据与对应翻译文本信息的关联，获取该音频数据的翻译文本信息即可，无需对该音频数据进行翻译，效率高。

本发明的一个可选实施例中，若预先已经将音频数据与该音频数据对应的翻译文本信息进行了关联，则可以无需执行步骤604，在执行完步骤602后，可以执行如下步骤：播放所述音频数据和与所述音频数据关联的图像数据，以及展示与所述音频数据关联的翻译文本信息。

综上，本发明实施例中，可以在接收到针对采用录音设备录制的音频数据的播放指令后，播放该音频数据，并在播放所述音频数据的同时，展示与所述音频数据关联的图像数据和展示所述语音识别文本信息和/或翻译文本信息；进而便于用户对音频数据内容的理解与使用，进一步提高用户体验。

其中，上述实施例中，所述对音频数据进行语音识别，确定对应的语音识别文本信息可以包括：依据与所述音频数据关联的图像数据对所述音频数据进行语音识别，确定对应的语音识别文本信息。进而当用户需要对音频数据进行语音识别时，可以结合与该音频数据关联的图像数据对该音频数据进行语音识别；从而通过结合与音频数据关联的信息，对所述音频数据进行语音识别，来提高语音识别的准确率。

本发明实施例中，可以在录音设备录制音频数据的过程中，实时的对音频数据进行语音识别。其中，在录制音频数据的过程中，若录音设备获取到调用其中的图像采集模块采集的图像数据，则可以依据对图像数据识别出的图像文本信息，对在采集图像数据之后录制的音频数据进行语音识别，确定对应的语音识别文本信息。

本发明实施例中，也可以是在录音设备录制音频数据后，对音频数据(即非实时的音频数据)进行语音识别。其中，可以依据在录制音频数据过程中，调用其中的图像采集模块采集的所有图像数据的图像文本信息，对音频数据进行语音识别，确定对应的语音识别文本信息；本发明实施例对此不作限制。

其中，所述依据与所述音频数据关联的图像数据对所述音频数据进行语音识别，确定对应的语音识别文本信息，可以包括：对与所述音频数据关联的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明的一个示例中，可以先采用OCR((Optical Character Recognition，光学字符识别)技术，对与所述音频数据关联的图像数据进行识别，确定对应的图像文本信息。再结合图像文本信息，对所述音频数据进行语音识别，确定对应的语音识别文本信息。

其中，可以将图像文本信息，利用到对音频数据的语音识别过程中，来提高对音频数据的语音识别的准确率。

其中，对音频数据进行语音识别以及翻译，可以是由录音设备执行，也可以是由其他设备执行，如终端设备、服务器等，本发明实施例对此不作限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

本发明实施例提供了一种数据处理装置，应用于录音设备中。

参照图7，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括如下模块：

第一指令接收模块702，用于在录音设备录音过程中，接收图像采集指令；

图像采集模块704，用于依据所述图像采集指令进行图像采集；

第一关联模块706，用于将采集得到的图像数据与录音得到的音频数据进行关联。

参照图8，示出了本发明的一种数据处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述图像数据包括至少一个图像帧，所述音频数据包括至少一个音频帧；

所述第一关联模块706，用于针对所述图像数据中的目标图像帧，确定所述目标图像帧对应的目标时间戳；确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧；将所述目标图像帧和目标音频帧进行关联。

本发明一个可选的实施例中，所述的装置还包括：

数据传输模块708，用于接收针对录音得到的音频数据的传输指令；将所述音频数据和与所述音频数据关联的图像数据发送至其他设备。

本发明一个可选的实施例中，所述的装置还包括：

第二关联模块710，用于对录音得到的音频数据进行语音识别，得到对应的语音文本识别信息；将所述语音文本识别信息与所述音频数据进行关联。

本发明一个可选的实施例中，所述的装置还包括：

第三关联模块712，用于对录音得到的音频数据进行翻译，得到对应的翻译文本信息；将所述翻译文本信息与所述音频数据进行关联。

本发明一个可选的实施例中，所述第二关联模块712，用于依据采集得到的图像数据对录音得到的音频数据进行语音识别，确定对应的语音识别文本信息。

本发明一个可选的实施例中，所述第二关联模块712，用于对采集得到的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

综上，本发明实施例中，可以在录音设备录音过程中，接收图像采集指令；然后依据所述图像采集指令进行图像采集，并将采集得到的图像数据与录音得到的音频数据进行关联；从而实现将从多个维度记录数据的关联。

本发明实施例还提供了一种数据处理方法，应用于电子设备中，所述电子设备可以包括录音设备和其他设备。

参照图9，示出了本发明的又一种数据处理装置实施例的结构框图，具体可以包括如下模块：

第二指令接收模块902，用于接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的；

播放模块904，用于播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

参照图10，示出了本发明的又一种数据处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述的装置还包括：

第一展示模块906，用于对所述音频数据进行语音识别，确定对应的语音识别文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述语音识别文本信息。

本发明一个可选的实施例中，所述的装置还包括：

第二展示模块908，用于在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的语音识别文本信息。

本发明一个可选的实施例中，所述的装置还包括：

第三展示模块910，用于对所述音频数据进行翻译，得到翻译文本信息；在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述翻译文本信息。

本发明一个可选的实施例中，所述的装置还包括：

第四展示模块912，用于在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示与所述音频数据关联的翻译文本信息。

本发明一个可选的实施例中，所述图像数据包括至少一个图像帧，所述音频数据包括至少一个音频帧；所述播放模块904，用于播放所述音频数据，并在播放所述音频数据中的目标音频帧时，判断是否存在与所述目标音频帧关联的目标图像帧；若存在与所述目标音频帧关联的目标图像帧，则展示所述目标图像帧。

本发明一个可选的实施例中，所述播放模块904，用于调用录音设备播放所述音频数据和与所述音频数据关联的图像数据。

本发明一个可选的实施例中，所述第一展示模块906，用于依据与所述音频数据关联的图像数据对所述音频数据进行语音识别，确定对应的语音识别文本信息。

本发明一个可选的实施例中，所述第一展示模块906，用于对与所述音频数据关联的图像数据进行文本识别，确定对应的图像文本信息；依据所述图像文本信息对所述音频数据进行语音识别，确定对应的语音识别文本信息。

综上，本发明实施例中，在接收到针对采用录音设备录制的音频数据的播放指令后，可以播放所述音频数据和与所述音频数据关联的图像数据；进而实现将音频数据与图像数据联动播放的效果，不仅方便用户同时使用记录的多个维度的数据，还能够提高使用体验。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图11是根据一示例性实施例示出的一种用于数据处理的电子设备1100的结构框图。例如，电子设备1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，电子设备1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电力组件1106，多媒体组件1108，音频组件1110，输入/输出(I/O)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制电子设备1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理部件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在电子设备1100的操作。这些数据的示例包括用于在电子设备1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1106为电子设备1100的各种组件提供电力。电力组件1106可以包括电源管理系统，一个或多个电源，及其他与为电子设备1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述电子设备1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当电子设备1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(MIC)，当电子设备1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

I/O接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为电子设备1100提供各个方面的状态评估。例如，传感器组件1114可以检测到电子设备1100的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1100的显示器和小键盘，传感器组件1114还可以检测电子设备1100或电子设备1100一个组件的位置改变，用户与电子设备1100接触的存在或不存在，电子设备1100方位或加速/减速和电子设备1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于电子设备1100和其他设备之间有线或无线方式的通信。电子设备1100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1114经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1114还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由电子设备1100的处理器1120执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种数据处理方法，所述方法包括：接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的；播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

本发明的一个可选实施例中，所述电子设备1100可以为录音设备，所述录音设备可以是录音笔、翻译笔、翻译机等。一种非临时性计算机可读存储介质，当所述存储介质中的指令由录音设备的处理器执行时，使得录音设备能够执行一种数据处理方法，所述方法包括：在录音设备录音过程中，接收图像采集指令；依据所述图像采集指令进行图像采集；将采集得到的图像数据与录音得到的音频数据进行关联。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，应用于录音设备中，包括：

在录音设备录音过程中，接收图像采集指令；

依据所述图像采集指令进行图像采集；

将采集得到的图像数据与录音得到的音频数据进行关联。

2.根据权利要求1所述的方法，其特征在于，所述图像数据包括至少一个图像帧，所述音频数据包括至少一个音频帧；

所述将采集得到的图像数据与录音得到的音频数据进行关联，包括：

针对所述图像数据中的目标图像帧，确定所述目标图像帧对应的目标时间戳；

确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧；

将所述目标图像帧和目标音频帧进行关联。

3.一种数据处理方法，其特征在于，包括：

接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的；

播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

4.根据权利要求3所述的方法，其特征在于，所述的方法还包括：

对所述音频数据进行语音识别，确定对应的语音识别文本信息；

在播放所述音频数据和与所述音频数据关联的图像数据的同时，展示所述语音识别文本信息。

5.一种数据处理装置，其特征在于，应用于录音设备中，包括：

第一指令接收模块，用于在录音设备录音过程中，接收图像采集指令；

图像采集模块，用于依据所述图像采集指令进行图像采集；

第一关联模块，用于将采集得到的图像数据与录音得到的音频数据进行关联。

6.一种数据处理装置，其特征在于，包括：

第二指令接收模块，用于接收播放指令，所述播放指令是针对采用录音设备录制的音频数据的；

播放模块，用于播放所述音频数据和与所述音频数据关联的图像数据，所述图像数据是录音设备录制所述音频数据过程中采集的。

7.一种录音设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

在录音设备录音过程中，接收图像采集指令；

依据所述图像采集指令进行图像采集；

将采集得到的图像数据与录音得到的音频数据进行关联。

8.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由录音设备的处理器执行时，使得录音设备能够执行如方法权利要求1-2任一所述的数据处理方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求3-4任一所述的数据处理方法。