CN106067310A

CN106067310A - 录音数据处理方法及装置

Info

Publication number: CN106067310A
Application number: CN201610480467.XA
Authority: CN
Inventors: 蔡竹沁; 张月川
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-11-02

Abstract

本发明实施例提供了一种录音数据处理方法及装置，涉及数据处理技术领域。其中，所述录音数据处理方法，包括：在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；接收对显示的所述文字文件的内容进行的编辑操作，并保存进行了所述编辑操作后的文字文件。通过本发明实施例，满足了用户对音频录制文件的实际使用需求，减轻了操作负担，提高了操作效率。

Description

录音数据处理方法及装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种录音数据处理方法及装置。

背景技术

随着电子技术的迅速发展，各种具有实现多种不同功能的电子设备应运而生，例如，智能手机、或者平板电脑、或者其它终端设备等。这些电子设备的产生，为用户的生产和生活提供了极大的便利。例如，用户可以通过设置于这些设备中的应用实现录音等功能。

使用这些终端设备进行录音虽然使得用户不必再携带另外的录音装备，但用户通常需要将录音转换为文字，以满足实际需求。目前，一种常见的方式是，用户首先使用终端设备进行录音，然后，通过后续人工手动操作将录音文件整理成文字文档。

然而，在实现本发明的过程中，发明人发现现有技术中存在以下的问题：一方面，这种方式耗时耗力，效率低下；另一方面，也不方便录音和文字的整体处理。

发明内容

本发明实施例的目的在于提供一种录音数据处理方法及装置，以解决现有终端设备的录音方式耗时耗力、效率低下，不便于录音和文字的整体处理的问题。

根据本发明实施例的一方面，提供了一种录音数据处理方法，包括：在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；接收对显示的所述文字文件的内容进行的编辑操作，并保存进行了所述编辑操作后的文字文件。

根据本发明实施例的另一方面，还提供了一种录音数据处理装置，包括：调用显示模块，用于在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；第一接收模块，用于接收对显示的所述文字文件的内容进行的编辑操作，并保存进行了所述编辑操作后的文字文件。

通过本发明实施例提供的录音数据处理方案，可以在终端设备的音频录制文件中对音频文件进行语音识别，在对音频文件进行语音识别后通过文字编辑应用显示文字文件的内容，并且，可对文字文件的内容进行进一步的编辑和保存。由此，用户不仅能够收听音频文件，还能查看和编辑修改文字文件，从而大大满足了用户对音频录制文件的实际使用需求，减轻了操作负担，提高了操作效率。并且，在收听音频文件时可同步显示和编辑修改文字文件，以对文字文件进行相应的整理和编辑，方便了对音频文件和文字文件的整体处理。

附图说明

图1是根据本发明实施例一的一种录音数据处理方法的步骤流程图；

图2是根据本发明实施例二的一种录音数据处理方法的步骤流程图；

图3是根据本发明实施例三的一种录音数据处理装置的结构框图；

图4是根据本发明实施例四的一种录音数据处理装置的结构框图；

图5是根据本发明实施例五的一种终端设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明的示例性实施例。

实施例一

参照图1，示出了根据本发明实施例一的一种录音数据处理方法的步骤流程图。

本实施例的录音数据处理方法包括以下步骤：

步骤S102：在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容。

其中，音频录制应用可以实现为终端设备如移动终端中安装的APP(应用程序)。本发明实施例中，在音频录制应用中设置有语音识别选项，如展示在音频录制应用中的语音识别按钮，供用户通过音频录制应用输入相应的语音识别指令，对音频文件进行语音识别。对音频文件的语音识别可以借助于独立于终端设备的第三方的语音识别程序，如通过访问服务器，借助于服务器端的语音识别程序实现；也可以在音频录制应用内部实现；还可以通过调用同样设置于终端设备中的语音识别程序实现。具体的语音识别的实现方法可以参照相关技术，本发明实施例在此不再赘述。

在将音频内容识别为文字后，通过文字编辑应用(如“便签”应用)显示该文字内容。例如，用户通过展示在音频录制应用(如“录音机”应用)中的文字编辑应用选项(如文字编辑应用图标或操作按钮等)，调用文字编辑应用，从而查看相应的文字文件的内容。当然，也可以在收听音频文件的同时查看文字文件的内容。进一步地，还可以通过文字编辑应用对显示的文字内容进行编辑，以校对语音识别结果。

步骤S104：接收对显示的文字文件的内容进行的编辑操作，并保存进行了编辑操作后的文字文件。

一种在收听音频文件的同时查看和编辑文字文件的内容的界面可以设置为：在同一个显示界面中，在显示区域的中部以较大面积显示文字文件的内容，以供用户查看和编辑，音频文件以适当形式如控件形式显示在该区域的上部或下部，在具体展示时，音频文件可以展现为如播放条或播放按钮等，对该播放条或播放按钮可以设置播放、暂停和停止等多种功能。界面的其它部分可显示其它相关信息，如菜单选项和/或操作选项等等。

通过本实施例提供的录音数据处理方法，可以在终端设备的音频录制文件中对音频文件进行语音识别，在对音频文件进行语音识别后通过文字编辑应用显示文字文件的内容，并且，可对文字文件的内容进行进一步的编辑和保存。由此，用户不仅能够收听音频文件，还能查看和编辑修改文字文件，从而大大满足了用户对音频录制文件的实际使用需求，减轻了操作负担，提高了操作效率。并且，在收听音频文件时可同步显示和编辑修改文字文件，以对文字文件进行相应的整理和编辑，方便了对音频文件和文字文件的整体处理。

实施例二

参照图2，示出了根据本发明实施例二的一种录音数据处理方法的步骤流程图。

本实施例以终端设备为移动终端为例，对本发明实施例的录音数据处理方法进行说明。但本领域技术人员应当明了，其它的终端设备，如平板电脑、个人计算机等也可参照本实施例实现本发明实施例的图片处理方案。

本实施例的录音数据处理方法包括以下步骤：

步骤S202：用户打开移动终端中的音频录制应用，通过音频录制应用输入针对某个音频文件的语音识别指令。

音频录制应用的界面中提供有相应的语音识别指令，如，在选择某个音频文件后，在该音频文件的界面中显示语音识别按钮；或者，在音频录制应用的音频文件列表中，针对每一个音频文件对应设置语音识别按钮，当用户点击该按钮后，对该音频文件进行语音识别。

步骤S204：移动终端通过音频录制应用接收到语音识别指令。

步骤S206：移动终端根据语音识别指令获取待识别的音频文件，对音频文件进行语音识别。

语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术的实现可以由本领域技术人员根据实际需求采用相关技术中任意适当的方式实现，本发明实施例对此不作限制。例如，将机器学习领域深度学习研究引入到语音识别声学模型训练，使用带RBM(受限玻尔兹曼机，restricted Boltzmann machine)预训练的多层神经网络进行语音识别；再例如，采用基于有限状态机(WFST)的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，通过该解码网络进行语音识别等。

步骤S208：移动终端根据对音频文件的语音识别，在音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记。

在对音频文件进行语音识别过程中，可以一边进行语音识别，一边在生成的文字的相应位置打标记，即对文字内容进行节点标记。与此同时，音频文件的相应时间点或音频帧上也同样进行节点标记。由此，建立起音频文件相应节点和文字文件相应节点之间的对应关系。

在实际使用中，一种可行的根据对音频文件的语音识别，在音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记的方式包括：在音频文件的语音识别过程中，确定每一个完整的语义段；在每一个完整的语义段的段尾设置音频节点标记；在每一个完整的语义段的段尾对应的文字文件的内容处设置文字节点标记；保存音频节点标记和文字节点标记的对应关系。其中，在一种可行方式中，移动终端将音频节点标记和文字节点标记的对应关系保存至文字编辑应用的配置文件中。

例如，假设有一个包含有10个完整语义段(可以理解为10句话)的时长为3分钟的音频文件，在进行语音识别的过程中，识别到第1句话结束，形成第一个完整的语义段，此时，在对该音频对应的时间点(如00：00：10处，即0分10秒处)或者在对应的音频帧(如第5帧)上打上相应的音频标记的同时，在这句话对应的文字的末尾也打上一个设定的文字标记(如回车符或其它设定字符)；接着继续识别第2句话，然后在音频对应的时间点或者在对应的音频帧上打上相应的音频标记的同时，也在第2句话对应的文字的末尾再打上设定的文字标记。以此类推，直到10句话全部语音识别完成，在各句话对应的语义段末尾打上音频标记，并且，在各句话对应的文字的末尾均打上设定的文字标记。

通过对音频文件和文字文件进行节点标记，可以将音频文件和文字文件有效关联起来，以进行后续的同步播放或显示。

步骤S210：移动终端通过文字编辑应用接收对显示的文字文件的内容中的光标的移动操作；检测与移动后的光标最接近的文字节点标记。

在查看文字文件的内容的过程中，或者，在对文字文件的内容进行编辑的过程中，用户有可能需要将光标跳转至某处文字，此时，用户希望音频文件也能跳转至对应的音频位置，以进一步对文字进行校正和编辑。

步骤S212：移动终端根据音频节点标记和文字节点标记的对应关系，确定与检测到的文字节点标记对应的音频节点标记。

例如，当前光标被移动至第2个设定的文字标记后的设定个字符处，如第二个字符处，移动终端确定与当前光标最接近的文字节点标记即为第2个文字节点标记，该第2个文字节点标记对应于音频文件中第2个音频节点标记，本实施例中为第2句话的结尾，则此时，音频将被跳转至第2个音频节点标记处进行播放。

步骤S214：移动终端从音频节点标记所标记的位置处播放音频，并接收对显示的文字文件的内容进行的编辑操作。

由此，用户可以根据需求自由编辑和校对所需要的文字部分，而不必逐字逐句编辑和校对，也不会在无音频的情况下编辑和校对文字，或者手工调整音频播放位置。

步骤S216：移动终端保存进行了编辑操作后的文字文件。

在播放音频文件内容的同时，移动终端通过文字编辑应用提供的编辑功能，对显示的文字文件内容进行编辑，并保存编辑后的结果。通过该功能，用户可以及时根据音频文件内容对文字文件内容进行纠错和整理，更好地满足了用户的需求。

此外，在对文字文件进行编辑后，移动终端还可以在音频录制应用和/或文字编辑应用中，保存音频文件与文字文件的对应关系，进而将该对应关系显示在录音文件列表和/或文字文件列表中。

例如，在每一个音频文件之后显示与该音频文件对应的文字文件的图标。由此，用户可以确定该音频文件具有对应的语音识别后的文字文件，若用户点击该文字文件的图标，还可以通过调用文字编辑应用查看该文字文件的内容。

进一步地，移动终端在将所述对应关系显示在录音文件列表中之后，还可以在接收到对录音文件列表中的音频文件的播放指令或文字文件的显示指令之后，根据播放指令或显示指令，在播放音频文件的同时，调用文字编辑应用显示文字文件的内容。

在显示有音频文件和文字文件对应关系的录音文件列表中，无论用户点击音频文件以请求播放音频文件，还是用户点击文字文件，以请求查看文字文件的内容，都会执行相同的操作，即，在播放音频文件的同时，调用文字编辑应用显示文字文件的内容，以便用户对音频文件和文字文件进行整体处理。当然，在实际应用中，如果需要，音频文件的播放和文字文件的显示也可以分别执行。

通过本实施例的录音数据处理方法，用户可以在收听音频文件的同时，还能查看和编辑文字文件，从而大大满足了用户对音频录制文件的实际使用需求，减轻了操作负担，提高了操作效率。并且，在收听音频文件时可同步显示和编辑文字文件，以对文字文件进行相应的整理和编辑，方便了对音频文件和文字文件的整体处理。

实施例三

参照图3，示出了根据本发明实施例三的一种录音数据处理装置的结构框图。

本发明实施例的录音数据处理装置包括：调用显示模块302，用于在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；第一接收模块304，用于接收对显示的文字文件的内容进行的编辑操作，并保存进行了编辑操作后的文字文件。

本实施例的录音数据处理装置可以以任意适当的方式实现，设置于终端设备中，如移动终端中，用于实现前述实施例中相应的录音数据处理方法。

通过本实施例，可以在终端设备的音频录制文件中对音频文件进行语音识别，在对音频文件进行语音识别后通过文字编辑应用显示文字文件的内容，并且，可对文字文件的内容进行进一步的编辑和保存。由此，用户不仅能够收听音频文件，还能查看和编辑修改文字文件，从而大大满足了用户对音频录制文件的实际使用需求，减轻了操作负担，提高了操作效率。并且，在收听音频文件时可同步显示和编辑修改文字文件，以对文字文件进行相应的整理和编辑，方便了对音频文件和文字文件的整体处理。

实施例四

参照图4，示出了根据本发明实施例四的一种录音数据处理装置的结构框图。

本实施例的录音数据处理装置包括：调用显示模块402，用于在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；第一接收模块404，用于接收对显示的文字文件的内容进行的编辑操作，并保存进行了编辑操作后的文字文件。

可选地，本实施例的录音数据处理装置还包括：第二接收模块406，用于在调用显示模块402调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容之前，通过音频录制应用接收语音识别指令；语音识别模块408，用于根据语音识别指令获取待识别的音频文件，对音频文件进行语音识别；节点标记模块410，用于根据对音频文件的语音识别，在音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记。

可选地，节点标记模块410包括：语义确定模块4102，用于在音频文件的语音识别过程中，确定每一个完整的语义段；音频标记模块4104，用于在每一个完整的语义段的段尾设置音频节点标记；文字标记模块4106，用于在每一个完整的语义段的段尾对应的文字文件的内容处设置文字节点标记；对应保存模块4108，用于保存音频节点标记和文字节点标记的对应关系。

可选地，本实施例的录音数据处理装置还包括：第三接收模块412，用于在对应保存模块4108保存音频节点标记和文字节点标记的对应关系之后，通过文字编辑应用接收对显示的文字文件的内容中的光标的移动操作；检测模块414，用于检测与移动后的光标最接近的文字节点标记；确定模块，用于根据音频节点标记和文字节点标记的对应关系，确定与检测到的文字节点标记对应的音频节点标记；播放模块416，用于从音频节点标记所标记的位置处播放音频。

可选地，对应保存模块4108，用于将音频节点标记和文字节点标记的对应关系保存至文字编辑应用的配置文件中。

本实施例的录音数据处理装置用于实现前述多个方法实施例中相应的录音数据处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例五

本发明实施例还提供了一种终端设备，其硬件结构示意图如图5所示。

终端设备包括处理器502、存储器504和总线506。其中，处理器502、存储器504通过总线506通信。

终端设备中，处理器502用于在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；接收对显示的文字文件的内容进行的编辑操作，并保存进行了编辑操作后的文字文件至存储器504中。

在一种可选的实施方式中，处理器502还在调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容之前，通过音频录制应用接收语音识别指令；根据语音识别指令获取待识别的音频文件，对音频文件进行语音识别；根据对音频文件的语音识别，在音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记。

在另一种可选的实施方式中，处理器502在根据对音频文件的语音识别，在音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记时：在音频文件的语音识别过程中，确定每一个完整的语义段；在每一个完整的语义段的段尾设置音频节点标记；在每一个完整的语义段的段尾对应的文字文件的内容处设置文字节点标记；保存音频节点标记和文字节点标记的对应关系。

在另一种可选的实施方式中，处理器502还在保存音频节点标记和文字节点标记的对应关系之后，通过文字编辑应用接收对显示的文字文件的内容中的光标的移动操作；检测与移动后的光标最接近的文字节点标记；根据音频节点标记和文字节点标记的对应关系，确定与检测到的文字节点标记对应的音频节点标记；从音频节点标记所标记的位置处播放音频。

在另一种可选的实施方式中，处理器502在保存所述音频节点标记和所述文字节点标记的对应关系时，将音频节点标记和文字节点标记的对应关系保存至文字编辑应用的配置文件中。

应当理解，根据本发明实施例提供的终端设备可实现图1至图2中的各个方法的相应流程，为了简洁，在此不再赘述，上述方法实施例中的相关描述也适用于本实施例。

通过本发明实施例提供的终端设备，可以在终端设备的音频录制文件中对音频文件进行语音识别，在对音频文件进行语音识别后通过文字编辑应用显示文字文件的内容，并且，可对文字文件的内容进行进一步的编辑和保存。由此，用户不仅能够收听音频文件，还能查看和编辑修改文字文件，从而大大满足了用户对音频录制文件的实际使用需求，减轻了操作负担，提高了操作效率。并且，在收听音频文件时可同步显示和编辑修改文字文件，以对文字文件进行相应的整理和编辑，方便了对音频文件和文字文件的整体处理。

此外，本发明实施例还提供了一种计算机程序，该计算机程序包括计算机可读代码，当该计算机可读代码在终端设备上运行时，导致终端设备执行前述多个方法实施例中任一个的录音数据处理方法。

并且，本发明实施例还提供了一种计算机可读介质，其中存储了上述的计算机程序。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种录音数据处理方法，包括：

在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；

接收对显示的所述文字文件的内容进行的编辑操作，并保存进行了所述编辑操作后的文字文件。

2.根据权利要求1所述的方法，其中，在所述调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容的步骤之前，所述方法还包括：

通过音频录制应用接收语音识别指令；

根据所述语音识别指令获取待识别的音频文件，对所述音频文件进行语音识别；

根据对所述音频文件的语音识别，在所述音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记。

3.根据权利要求2所述的方法，其中，根据对所述音频文件的语音识别，在所述音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记的步骤包括：

在所述音频文件的语音识别过程中，确定每一个完整的语义段；

在每一个完整的语义段的段尾设置音频节点标记；

在每一个完整的语义段的段尾对应的文字文件的内容处设置文字节点标记；

保存所述音频节点标记和所述文字节点标记的对应关系。

4.根据权利要求3所述的方法，其中，在保存所述音频节点标记和所述文字节点标记的对应关系的步骤之后，所述方法还包括：

通过所述文字编辑应用接收对显示的文字文件的内容中的光标的移动操作；

检测与移动后的所述光标最接近的文字节点标记；

根据所述音频节点标记和所述文字节点标记的对应关系，确定与检测到的所述文字节点标记对应的音频节点标记；

从所述音频节点标记所标记的位置处播放音频。

5.根据权利要求3或4所述的方法，其中，保存所述音频节点标记和所述文字节点标记的对应关系的步骤包括：

将所述音频节点标记和所述文字节点标记的对应关系保存至所述文字编辑应用的配置文件中。

6.一种录音数据处理装置，包括：

调用显示模块，用于在音频录制应用中，调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容；

第一接收模块，用于接收对显示的所述文字文件的内容进行的编辑操作，并保存进行了所述编辑操作后的文字文件。

7.根据权利要求6所述的装置，其中，所述装置还包括：

第二接收模块，用于在所述调用显示模块调用文字编辑应用显示对音频文件进行语音识别后形成的文字文件的内容之前，通过音频录制应用接收语音识别指令；

语音识别模块，用于根据所述语音识别指令获取待识别的音频文件，对所述音频文件进行语音识别；

节点标记模块，用于根据对所述音频文件的语音识别，在所述音频文件的相应位置和生成的文字文件的内容的相应位置均进行节点标记。

8.根据权利要求7所述的装置，其中，所述节点标记模块包括：

语义确定模块，用于在所述音频文件的语音识别过程中，确定每一个完整的语义段；

音频标记模块，用于在每一个完整的语义段的段尾设置音频节点标记；

文字标记模块，用于在每一个完整的语义段的段尾对应的文字文件的内容处设置文字节点标记；

对应保存模块，用于保存所述音频节点标记和所述文字节点标记的对应关系。

9.根据权利要求8所述的装置，其中，所述装置还包括：

第三接收模块，用于在所述对应保存模块保存所述音频节点标记和所述文字节点标记的对应关系之后，通过所述文字编辑应用接收对显示的文字文件的内容中的光标的移动操作；

检测模块，用于检测与移动后的所述光标最接近的文字节点标记；

确定模块，用于根据所述音频节点标记和所述文字节点标记的对应关系，确定与检测到的所述文字节点标记对应的音频节点标记；

播放模块，用于从所述音频节点标记所标记的位置处播放音频。

10.根据权利要求8或9所述的装置，其中，对应保存模块，用于将所述音频节点标记和所述文字节点标记的对应关系保存至所述文字编辑应用的配置文件中。