CN111696550A

CN111696550A - 语音处理方法和装置、用于语音处理的装置

Info

Publication number: CN111696550A
Application number: CN202010502297.7A
Authority: CN
Inventors: 韩秦; 辜海玻; 魏爽; 栾兵强; 刘壮; 杨宜杭
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-22
Anticipated expiration: 2040-06-04
Also published as: CN111696550B

Abstract

本发明实施例提供了一种语音处理方法和装置、以及一种用于语音处理的装置，其中的方法具体包括：显示录音转写接口；在接收到针对所述录音转写接口的触发操作后，显示用户的语音、以及所述语音对应的转写文本。本发明实施例可以提高终端的运行速度，以及能够提高语音的处理效率。

Description

语音处理方法和装置、用于语音处理的装置

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音处理方法和装置、以及一种用于语音处理的装置。

背景技术

作为最自然的交流沟通方式之一，语音被广泛应用于语音录制和语音转写等语音处理场景。

目前的语音录制功能和语音转写功能通常由不同的APP(应用程序，Application)实现。例如，语音备忘录APP负责语音录制功能，语音转写APP负责语音转写功能等。

发明人在实施本发明实施例的过程中发现，用户在终端上分别安装语音备忘录APP和语音转写APP，将需要耗费终端的存储空间，拖慢终端的运行速度。并且，用户通常在利用语音备忘录APP录制得到音频后，跳转至语音转写APP，并利用语音转写APP将音频转写为文本；应用程序的跳转将耗费用户的操作成本，影响语音的处理效率。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置、及用于语音处理的装置，本发明实施例可以提高终端的运行速度，以及能够提高语音的处理效率。

为了解决上述问题，本发明公开了一种语音处理方法，包括：

显示录音转写接口；

在接收到针对所述录音转写接口的触发操作后，显示用户的语音、以及所述语音对应的转写文本。

再一方面，本发明公开了一种语音处理装置，包括：

第一接口显示模块，用于显示录音转写接口；

语音和文本显示模块，用于在接收到针对所述录音转写接口的触发操作后，显示用户的语音、以及所述语音对应的转写文本。

再一方面，本发明公开了一种用于处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

显示录音转写接口；

本发明实施例包括以下优点：

本发明实施例提供录音转写接口，在接收到针对上述录音转写接口的触发操作后，提供录音功能和语音转写功能。

由于本发明实施例可以经由一种应用环境，提供录音功能和语音转写功能，因此能够降低在终端上分别安装语音备忘录APP和语音转写APP所耗费存储空间，提高终端的运行速度。

并且，由于可以在不进行APP的跳转的情况下，向用户提供录音功能和语音转写功能；因此，能够节省应用程序的跳转所耗费的操作成本，提高语音的处理效率。

附图说明

图1是本发明的一种语音处理方法的应用环境的示意图；

图2是本发明的一种语音处理方法实施例一的步骤流程图；

图3是本发明的一种语音处理方法实施例二的步骤流程图；

图4是本发明的一种语音处理方法实施例三的步骤流程图；

图5是本发明的一种语音处理方法实施例四的步骤流程图；

图6是本发明的一种语音处理方法实施例五的步骤流程图；

图7是本发明的一种语音处理装置实施例的结构框图；

图8是根据一示例性实施例示出的一种用于语音处理的装置作为终端时的框图；及

图9是根据一示例性实施例示出的一种用于语音处理的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种语音处理方案，该方案可以显示录音转写接口；在接收到针对上述录音转写接口的触发操作后，显示用户的语音、以及所述语音对应的转写文本。

本发明实施例可以应用于语音处理场景。语音处理场景的例子可以包括：个人创作场景、访谈录音场景和语音记事场景等。其中，个人创作场景可用于文章、小说等长篇创作，具体地，可以将用户口述的语音转化为文本信息。访谈录音场景可用于在采访、会议或者上课场景下，记录讲话用户的语音并转化为文本信息。语音记事场景可用于备忘和随笔分享，具体地，可以将讲话用户口述的语音转化为文本信息。可以理解，本领域技术人员可以根据实际应用需求，采用需要语音转写的其他场景，如将客服的语音转化为文本信息的场景、或者语音输入场景等，本发明实施例对于具体的应用场景不加以限制。

本发明实施例提供的语音处理方法可应用于图1所示的应用环境中，如图1所示，客户端100与服务端200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务端200进行数据交互。

在实际应用中，客户端100可以运行在终端上，上述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、录音设备、MP3(动态影像专家压缩标准音频层面3，MovingPicture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

客户端100可以与目标APP相应，如输入法APP、搜索APP等。可选地，可以在目标APP中加载语音处理插件，并利用语音处理插件，执行本发明实施例的方法所包括的至少一个步骤。

目标APP可以为使用频率较高的APP，在目标APP中加载语音处理插件，以实现对应的语音处理功能，能够节省终端的存储空间。

客户端100可以在提供的界面中显示录音转写接口，以供用户触发。例如，录音转写接口可以呈现为控件的形式，控件对应的外观参数可由本领域技术人员根据实际应用需求确定。例如，控件对应的外观参数可以包括：控件对应的名称如“录音转写”，或者，控件对应的外观参数可以包括：控件对应的图标，如语音相关的图标等。

当然客户端100也可以通过网站的形式提供服务，此种情况下，客户端100可以应用于目标网站环境，可以理解，本发明实施例对于客户端100的具体服务形式不加以限制。

在本发明的一种实施例中，客户端100通过麦克风或其他语音采集器件接收讲话用户的语音，并按照流式传输方式向服务端200发送该语音；为了方便起见，本发明实施例采用语音流表示按照流式传输方式传输的连续语音，其中，可以将单位的语音流分成若干个语音数据包传输，也即，客户端100向服务端200发送语音流中语音数据包。作为一个示例，单位的语音流的时间长度可以为2分钟，语音数据包的时间长度可以为500毫秒，则单位的语音流可以包含240个语音数据包，其中，每个语音数据包可以对应有数据包ID(标识，Identity)，该数据包ID可以作为语音数据包的唯一标识；可以理解，本发明实施例对于语音流所包含语音数据包的具体数量不加以限制。

服务端200可以接收客户端100发送的语音流中语音数据包，并进行所述语音数据包的处理，以得到对应的语音识别结果，也即转写文本。

可选地，服务端200可以进行所述语音数据包对应语音的分割，以得到所述语音包括的语音片段；对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果。其中，上述语音数据包对应语音的分割可用于确定语音片段的起始点和结束点，可以利用VAD(语音活动检测，Voice Activity Detection)技术进行语音的分割。VAD可以在平稳或者非平稳噪声下准确检测有效的语音和无效的语音(如静音和/或噪音等)，并依据检测结果进行语音的分割，上述分割可以实现语音的断句，并将分割得到的语音片段识别为一个独立的句子。

在本发明的一种应用示例中，服务端200在判断所述语音数据包对应语音的起始点后，可以将语音输入至解码器，解码器可以针对有效的语音进行语音特征提取，并在声学模型、语言模型的指导下，基于语音特征寻找最优的语音识别结果，当检测到语音的结束点后，解码器重置继续接收后续的语音进行新的解码，已解码完成的语音识别结果可由服务端200发送至客户端100以实现语音识别结果的实时上屏。

在本发明的一种优选实施例中，在将语音输入至解码器之前，还可以包括：对语音进行预处理，预处理可以包括：低频去噪，和/或，信号增强。

讲话用户的语音输入环境可能存在各种各样的噪声，例如用户在办公室中可能存在空调发出的噪音，在路上使用智能终端进行语音输入时，存在汽车的发动机低频噪音，还可以是语音采集设备，例如麦克风处理信号时产生的信号噪音等，如果将语音直接送入到解码器中，有可能会影响到解码结果的准确性，所以在将语音输入至解码器之前，首先对语音进行低频去噪以消除各种低频噪声，同时由于用户环境因素造成用户声音较小或者语音采集设备等硬件性能影响，造成语音的强度较弱，可以通过幅度增强技术对语音信号强度进行增强，通过对语音信号进行预处理后，可以提高语音信号的抗噪性，可以提高解码结果也即语音识别结果的准确率。

可以理解，上述服务端200确定语音对应的转写文本的过程只是作为可选实施例，实际上，客户端100可以确定语音对应的转写文本的过程，本发明实施例对于确定语音对应的转写文本的过程的具体执行主体不加以限制。

方法实施例一

参照图2，示出了本发明的一种语音处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤201、显示录音转写接口；

步骤202、在接收到针对上述录音转写接口的触发操作后，显示用户的语音、以及上述语音对应的转写文本。

本发明实施例可由智能终端上运行的客户端执行，其中，该客户端可以为APP和/或网页对应的客户端，该客户端可以提供UI(用户界面，User Interface)，该UI可以提供录音转写接口供用户操作，进而可以实现例如录音和语音转写的语音处理功能。

录音转写接口可以包括：录音转写控件，这样，针对上述录音转写接口的触发操作可以包括：针对录音转写控件的点击操作。

或者，录音转写接口可以包括：语音口令，如预设关键词“录音转写”、“录音加转写”等。此种情况下，可以将用户输入的语音与语音口令对应的预设关键词进行匹配，若匹配成功，可以认为接收到针对上述录音转写接口的触发操作。

上述触发操作可以触发录音功能和录音转写功能。步骤202中，在接收到触发操作后，可以显示录音转写界面，该录音转写界面可以包括：语音区和文本区，语音区可用于显示用户的语音，转写文本可用于显示语音对应的转写文本。

可选地，录音转写界面可以包括：语音的播放控件，用于触发语音的播放、或者播放后的暂停。播放控件的状态可以包括：播放状态或暂停状态，播放控件的默认状态可以为暂停状态，当然本发明实施例对于播放控件的具体状态不加以限制。

可选地，录音转写界面可以包括：语音的转写控件，用于触发语音的转写、或者转写停止。转写控件可以包括：转写状态、或转写停止状态，转写控件的默认状态可以为转写状态，可以理解，本发明实施例对于转写控件的具体状态不加以限制。

根据一种实施例，可以对用户的语音、以及上述语音对应的转写文本进行同步显示。例如，在进入录音转写界面后，可以显示采集得到的语音，如波形信息；假设转写控件的默认状态可以为转写状态，则可以将语音实时转换为转写文本，并对转写文本进行显示。

根据另一种实施例，可以对用户的语音、以及上述语音对应的转写文本进行非同步显示。例如，在进入录音转写界面后，可以显示采集得到的语音，如波形信息；假设转写控件的默认状态可以为转写停止状态，则可以响应于用户针对转写控件的触发操作，将语音转换为转写文本，并对转写文本进行显示。

在本发明的一种可选实施例中，上述方法还可以包括：显示如下接口中的至少一种：音频列表接口、音频导入接口和转写记录接口。

音频列表接口可用于显示用户操作过的音频，如用户录制的音频、用户导入的音频等。

音频导入接口可用于导入第三方APP或第三方设备的音频，并针对导入音频提供转写接口，以实现导入音频对应的转写功能。

转写记录接口用于记录用户的转写文本。例如，音频1对应的转写文本1、音频2对应的转写文本2等。其中，音频1或音频2可以为用户录制的音频，也可以为用户导入的音频。

本发明实施例中，可选的是，可以利用加载的语音处理插件，执行上述方法包括的至少一个步骤。本发明实施例可以在目标APP中加载语音处理插件，以实现对应的语音处理功能，能够节省终端的存储空间。

综上，本发明实施例的语音处理方法，提供录音转写接口，在接收到针对上述录音转写接口的触发操作后，提供录音功能和语音转写功能。

方法实施例二

参照图3，示出了本发明的一种语音处理方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤301、显示录音转写接口；

步骤302、在接收到针对上述录音转写接口的触发操作后，显示用户的语音、以及上述语音对应的转写文本；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤303、接收针对音频分享链接的触发请求；

步骤304、若检测到语音处理插件，则利用上述语音处理插件，对上述音频分享链接对应的音频进行处理。

本发明实施例中，音频分享链接可用于分享音频，该音频分享链接中可以包括：音频的存储地址等信息。在实际应用中，可以利用第三方APP的分享功能，生成音频分享链接。例如，第三方APP可以提供分享渠道，分享渠道可以包括：目标APP，则可以针对目标APP生成对应的音频分享链接。

本发明实施例中，针对音频分享链接的触发请求，可以表征在目标APP或在目标网站的环境下，触发音频分享链接。例如，目标APP为输入法APP，用户将音频分享至输入法APP，则可以跳转至输入法APP，并在输入法APP中显示音频分享链接。

本发明实施例在接收到针对音频分享链接的触发请求的情况下，可以在目标APP中进行语音处理插件的检测，若检测到语音处理插件，则利用上述语音处理插件，对上述音频分享链接对应的音频进行处理。例如，可以利用音频导入接口，导入分享的音频，并对分享的音频进行语音转写。

方法实施例三

参照图4，示出了本发明的一种语音处理方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤401、显示录音转写接口；

步骤402、在接收到针对上述录音转写接口的触发操作后，显示用户的语音、以及上述语音对应的转写文本；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤403、接收针对音频分享链接的触发请求；

步骤404、若未检测到语音处理插件，则判断终端使用的网络是否为预设网络，若否，则输出下载提示信息。

本发明实施例在接收到针对音频分享链接的触发请求的情况下，可以在目标APP中进行语音处理插件的检测，若未检测到语音处理插件，则可以执行语音处理插件的下载流程。

本发明实施例的下载流程中，可以首先判断终端使用的网络是否为预设网络。预设网络可以为不耗费额外流量的网络，如WIFI(无线保真，Wireless Fidelity)；不同于预设网络的网络可以为耗费额外流量的网络，如移动数据网络等。

在终端使用的网络不为预设网络的情况下，输出下载提示信息，可以提示用户语音处理插件的下载将消耗第一预设数值的流量，并给出是否下载的选项。若用户选择下载选项，则利用终端使用的网络进行语音处理插件的下载；或者，若用户选择取消选项，则可以不进行语音处理插件的下载。第一预设数值可以与语音处理插件的安装包的大小相应，可以理解，本发明实施例对于具体的第一预设数值不加以限制。

本发明实施例输出下载提示信息，可以帮助用户对移动数据网络的流量使用进行控制，进而提升用户体验。

需要说明的是，除了依据针对音频分享链接的触发请求，触发下载流程之外，还可以依据其他触发请求，触发下载流程，例如，可以在目标APP中提供语音处理插件的下载接口，则可以依据用户针对下载接口的触发请求，触发下载流程。

方法实施例四

参照图5，示出了本发明的一种语音处理方法实施例四的步骤流程图，具体可以包括如下步骤：

步骤501、显示录音转写接口；

步骤502、在接收到针对上述录音转写接口的触发操作后，显示用户的语音、以及上述语音对应的转写文本；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤503、接收针对语音处理插件的更新请求；

步骤504、判断终端使用的网络是否为预设网络，若否，则输出更新提示信息。

更新请求用于对语音处理插件进行更新。在接收到更新请求后，可以执行语音处理插件的更新流程。

根据一种实施例，服务端可以向客户端发送升级提示信息，客户端可以向用户提供升级提示信息，则可以依据用户针对升级提示信息的触发操作，得到更新请求。当然，客户端可以依据更新控件或更新检测控件，则可以依据用户对更新控件或更新检测控件的触发操作，得到更新请求。

本发明实施例的更新流程中，可以首先判断终端使用的网络是否为预设网络。在终端使用的网络不为预设网络的情况下，输出更新提示信息，可以提示用户语音处理插件的更新将消耗第二预设数值的流量，并给出是否更新的选项。若用户选择更新选项，则利用终端使用的网络进行语音处理插件的更新；或者，若用户选择取消选项，则可以不进行语音处理插件的更新。第二预设数值可以与语音处理插件的更新包或升级包的大小相应，可以理解，本发明实施例对于具体的第二预设数值不加以限制。

本发明实施例输出更新提示信息，可以帮助用户对移动数据网络的流量使用进行控制，进而提升用户体验。

需要说明的是，在对利用终端使用的网络进行语音处理插件的更新的过程中，可以显示对应的更新进度，更新进度可以按照10％、20％的顺序增加。更新进度可以包括：更新下载进度、或者安装进度。在安装进度为100％后，可以显示更新成功的提示信息。

在本发明的一种可选实施例中，存储空间不足、终端使用的网络不为预设网络、或网络连接异常等原因，可能导致出现更新失败的问题。此种情况下，可以在语音处理插件对应的界面区域上，显示更新失败点击重试的第一状态信息，以供用户触发更新流程。

可选地，在接收到用户通过第一状态信息触发的更新请求的情况下，可以不判断终端使用的网络是否为预设网络，而是直接利用终端使用的网络进行语音处理插件的更新。换言之，在接收到用户通过第一状态信息触发的更新请求的情况下，可以利用移动数据网络，进行语音处理插件的更新，以满足用户的实时更新需求。

方法实施例五

参照图6，示出了本发明的一种语音处理方法实施例五的步骤流程图，具体可以包括如下步骤：

步骤601、显示录音转写接口；

步骤602、在接收到针对上述录音转写接口的触发操作后，显示用户的语音、以及上述语音对应的转写文本；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤603、在语音处理插件的下载或更新过程中，若终端的剩余存储空间小于下载或更新对应的目标存储空间，则输出存储空间不足的提示信息。

本发明实施例在语音处理插件的下载或更新过程中，会比较终端的剩余存储空间与目标存储空间之间的关系，若终端的剩余存储空间大于或等于下载或更新对应的目标存储空间，则说明终端的剩余存储空间能够承载下载后或更新后的语音处理插件，因此，可以执行语音处理插件的下载流程或更新流程。

若终端的剩余存储空间小于下载或更新对应的目标存储空间，则说明终端的剩余存储空间不能承载下载后或更新后的语音处理插件，因此可以输出存储空间不足的提示信息，以使用户通过清理存储空间增加存储空间。

本发明实施例中，可选的是，上述方法还可以包括：在语音处理插件对应的界面区域上，显示存储空间不足操作失败的第二状态信息；响应于针对上述第二状态信息的触发操作，执行上述语音处理插件对应的下载流程或更新流程。

本发明实施例的第二状态信息可供用户触发，以触发语音处理插件对应的下载流程或更新流程。

例如，在语音处理插件的第i次更新过程中，若终端的剩余存储空间小于下载或更新对应的目标存储空间，则可以展示或播放存储空间不足的提示信息，并在语音处理插件对应的界面区域上，显示存储空间不足操作失败的第二状态信息，如第二状态信息可以为文本“存储空间不足，更新失败”。后续若用户通过清理存储空间增加了存储空间，则可以依据界面上显示的第二状态信息，触发第(i+1)次更新；其中，i可以为大于0的自然数。

综上，本发明实施例的语音处理方法，在存储空间不足导致下载或更新失败的情况下，可以输出存储空间不足的提示信息，以使用户对存储空间进行清理克服存储空间不足的问题。

并且，本发明实施例在语音处理插件对应的界面区域上，显示存储空间不足操作失败的状态信息，可以便于用户触发后续的下载流程或更新流程。

需要说明的是，本发明实施例可以对图4和图6所示实施例进行组合，相应地，语音处理插件的下载流程包括：

步骤A1、比较终端的剩余存储空间与目标存储空间之间的关系，若终端的剩余存储空间小于下载或更新对应的目标存储空间，则执行步骤A2，否则，执行步骤A3；

步骤A2、输出存储空间不足的提示信息；

步骤A3、判断终端使用的网络是否为预设网络，若是，则对语音处理插件进行下载，否则输出下载提示信息。

需要说明的是，本发明实施例可以对图5和图6所示实施例进行组合，相应地，语音处理插件的下载流程包括：

步骤B1、比较终端的剩余存储空间与目标存储空间之间的关系，若终端的剩余存储空间小于下载或更新对应的目标存储空间，则执行步骤B2，否则，执行步骤B3；

步骤B2、输出存储空间不足的提示信息；

步骤B3、判断终端使用的网络是否为预设网络，若是，则对语音处理插件进行更新，否则输出更新提示信息。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图7，示出了本发明的一种语音处理装置实施例一的结构框图，具体可以包括：

第一接口显示模块701，用于显示录音转写接口；

语音和文本显示模块702，用于在接收到针对上述录音转写接口的触发操作后，显示用户的语音、以及上述语音对应的转写文本。

可选地，上述装置还可以包括：

第二接口显示模块，用于显示如下接口中的至少一种：音频列表接口、音频导入接口和转写记录接口。

可选地，上述装置与加载的语音处理插件相应。语音处理插件用于执行所述装置所包括模块对应的操作。

可选地，上述装置还可以包括：

第一接收模块，用于接收针对音频分享链接的触发请求；

音频处理模块，用于若检测到语音处理插件，则利用上述语音处理插件，对上述音频分享链接对应的音频进行处理。

可选地，上述装置还可以包括：

第二接收模块，用于接收针对音频分享链接的触发请求；

第一提示模块，用于若未检测到语音处理插件，则判断终端使用的网络是否为预设网络，若否，则输出下载提示信息。

可选地，上述装置还可以包括：

第三接收模块，用于接收针对语音处理插件的更新请求；

第二提示模块，用于判断终端使用的网络是否为预设网络，若否，则输出更新提示信息。

可选地，上述装置还可以包括：

第三提示模块，用于在语音处理插件的下载或更新过程中，若终端的剩余存储空间小于下载或更新对应的目标存储空间，则输出存储空间不足的提示信息。

可选地，上述装置还可以包括：

状态显示模块，用于在语音处理插件对应的界面区域上，显示存储空间不足操作失败的状态信息；

流程执行模块，用于响应于针对上述状态信息的触发操作，执行上述语音处理插件对应的下载流程或更新流程。

对于图7所示装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于语音处理的装置作为终端时的框图。例如，该终端900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在上述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频流。例如，音频组件910包括一个麦克风(MIC)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频流。所接收的音频流可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频流。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如上述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，上述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图9是根据一示例性实施例示出的一种用于语音处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由服务器1900的处理器1922执行以完成上述方法。例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当上述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种语音处理方法，上述方法包括：显示录音转写接口；在接收到针对所述录音转写接口的触发操作后，显示用户的语音、以及所述语音对应的转写文本。

本发明实施例公开了A1、一种语音处理方法，包括：

显示录音转写接口；

A2、根据A1所述的方法，其特征在于，所述方法还包括：

显示如下接口中的至少一种：音频列表接口、音频导入接口和转写记录接口。

A3、根据A1所述的方法，其特征在于，利用加载的语音处理插件，执行所述方法包括的至少一个步骤。

A4、根据A1至A3中任一所述的方法，其特征在于，所述方法还包括：

接收针对音频分享链接的触发请求；

若检测到语音处理插件，则利用所述语音处理插件，对所述音频分享链接对应的音频进行处理。

A5、根据A1至A3中任一所述的方法，其特征在于，所述方法还包括：

接收针对音频分享链接的触发请求；

若未检测到语音处理插件，则判断终端使用的网络是否为预设网络，若否，则输出下载提示信息。

A6、根据A1至A3中任一所述的方法，其特征在于，所述方法还包括：

接收针对语音处理插件的更新请求；

判断终端使用的网络是否为预设网络，若否，则输出更新提示信息。

A7、根据A1至A3中任一所述的方法，其特征在于，所述方法还包括：

在语音处理插件的下载或更新过程中，若终端的剩余存储空间小于下载或更新对应的目标存储空间，则输出存储空间不足的提示信息。

A8、根据A7所述的方法，其特征在于，所述方法还包括：

在语音处理插件对应的界面区域上，显示存储空间不足操作失败的状态信息；

响应于针对所述状态信息的触发操作，执行所述语音处理插件对应的下载流程或更新流程。

本发明实施例公开了B9、一种语音处理装置，其特征在于，包括：

第一接口显示模块，用于显示录音转写接口；

B10、根据B9所述的装置，其特征在于，所述装置还包括：

B11、根据B9所述的装置，其特征在于，所述装置与加载的语音处理插件相应。

B12、根据B9至B11中任一所述的装置，其特征在于，所述装置还包括：

第一接收模块，用于接收针对音频分享链接的触发请求；

音频处理模块，用于若检测到语音处理插件，则利用所述语音处理插件，对所述音频分享链接对应的音频进行处理。

B13、根据B9至B11中任一所述的装置，其特征在于，所述装置还包括：

第二接收模块，用于接收针对音频分享链接的触发请求；

B14、根据B9至B11中任一所述的装置，其特征在于，所述装置还包括：

第三接收模块，用于接收针对语音处理插件的更新请求；

B15、根据B9至B11中任一所述的装置，其特征在于，所述装置还包括：

B16、根据B15所述的装置，其特征在于，所述装置还包括：

流程执行模块，用于响应于针对所述状态信息的触发操作，执行所述语音处理插件对应的下载流程或更新流程。

本发明实施例公开了C17、一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

显示录音转写接口；

C18、根据C17所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C19、根据C17所述的装置，其特征在于，利用加载的语音处理插件，执行所述操作对应的指令。

C20、根据C17至C19中任一所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收针对音频分享链接的触发请求；

C21、根据C17至C19中任一所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收针对音频分享链接的触发请求；

C22、根据C17至C19中任一所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收针对语音处理插件的更新请求；

C23、根据C17至C19中任一所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C24、根据C23所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例公开了C25、一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A8中一个或多个所述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音处理方法、一种语音处理装置、以及一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上上述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

显示录音转写接口；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，利用加载的语音处理插件，执行所述方法包括的至少一个步骤。

4.根据权利要求1至3中任一所述的方法，其特征在于，所述方法还包括：

接收针对音频分享链接的触发请求；

5.根据权利要求1至3中任一所述的方法，其特征在于，所述方法还包括：

接收针对音频分享链接的触发请求；

6.根据权利要求1至3中任一所述的方法，其特征在于，所述方法还包括：

接收针对语音处理插件的更新请求；

7.根据权利要求1至3中任一所述的方法，其特征在于，所述方法还包括：

8.一种语音处理装置，其特征在于，包括：

第一接口显示模块，用于显示录音转写接口；

9.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

显示录音转写接口；

10.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的方法。