CN113593568A

CN113593568A - 将语音转换成文本的方法、系统、装置、设备及存储介质

Info

Publication number: CN113593568A
Application number: CN202110745204.8A
Authority: CN
Inventors: 孙得心
Original assignee: Soyoung Technology Beijing Co Ltd
Current assignee: Soyoung Technology Beijing Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-11-02

Abstract

本申请提出一种将语音转换成文本的方法、系统、装置、设备及存储介质，该方法包括：从客户端包括的数据转换接口获得待转换的语音数据；通过预设声学服务模块和预设编解码脚本将语音数据转换为对应的文本数据。本申请在用户终端本地设置预设声学服务模块及预设编解码脚本，或用户终端设置预设编解码脚本，且服务器配置预设声学服务模块。客户端中设置数据转换接口，通过数据转换接口即可访问语音识别服务。任意客户端中都可设置数据转换接口，任意能安装客户端的设备都可使用语音识别服务，不用购买任何特定设备，也无需安装额外应用程序，不会增加用户终端上安装的应用程序数量，节省用户终端的存储资源和计算资源，降低语音识别服务的使用成本。

Description

将语音转换成文本的方法、系统、装置、设备及存储介质

技术领域

本申请属于数据处理技术领域，具体涉及一种将语音转换成文本的方法、系统、装置、设备及存储介质。

背景技术

随着语音技术的发展，自动语音识别技术已经被广泛地应用于生活的各个领域，实现将语音转换为文本，大大方便了人们的生活，如将会议录音转成文本作为会议纪要发送给参会人员；将记者采访的录音转成文本，在此基础上编辑成新闻稿等。

相关技术中通常采用特定的语音识别软件进行语音与文本之间的转换，用户需要下载并安装这些语音识别软件，增加了用户终端中安装的软件数量，占用用户终端的大量存储空间和计算资源。而且不同厂商提供的语音识别软件还可能基于特定的硬件才能运行，导致产品的价格昂贵，不方便携带。

发明内容

本申请提出一种将语音转换成文本的方法、系统、装置、设备及存储介质，客户端中设置有数据转换接口，通过数据转换接口访问预设声学服务模块及预设编解码脚本提供的语音识别服务。任意客户端中都可以设置数据转换接口，任意能够安装客户端的设备都可以使用该语音识别服务，不用购买任何特定设备，也无需下载并安装额外的应用程序，不会增加用户终端上安装的应用程序的数量，节省了用户终端的存储资源和计算资源，降低了用户使用语音识别服务的成本。

本申请第一方面实施例提出了一种将语音转换成文本的方法，应用于用户终端，包括：

从客户端包括的数据转换接口获得待转换的语音数据；

通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据，所述预设声学服务模块用于将所述语音数据转换为对应的语音编码，所述预设编解码脚本用于将所述语音编码转换为对应的文本数据。

在本申请的一些实施例中，所述通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据，包括：

建立与所述服务器之间的全双工通信连接，所述服务器中配置有所述预设声学服务模块；

基于所述全双工通信连接，发送所述语音数据给所述服务器，以使所述服务器通过所述预设声学服务模块将所述语音数据转换为对应的语音编码；

接收所述服务器返回的所述语音编码，通过本地的所述预设编解码脚本将所述语音编码转换为对应的文本数据。

调用本地插件库中包括的预设声学服务模块，将所述语音数据转换为对应的语音编码；

调用所述本地插件库中包括的预设编解码脚本，将所述语音编码转换为文本数据。

在本申请的一些实施例中，所述将所述语音数据转换为对应的语音编码，包括：

按照预设分帧规则将所述语音数据划分为多个音频帧；

并行提取每个音频帧对应的声学特征信息；

根据每个音频帧对应的声学特征信息，从预设语音库中分别匹配每个音频帧对应的语音编码。

在本申请的一些实施例中，所述将所述语音编码转换为文本数据，包括：

从所述预设语音库中分别匹配出每个音频帧的语音编码对应的文本信息；

获取对所述语音数据进行划分操作产生的划分记录信息；

根据所述划分记录信息，将每个音频帧对应的文本信息拼接为所述语音数据对应的文本数据。

在本申请的一些实施例中，所述方法还包括：

通过录音设备录制所述语音数据的过程中，若通过所述预设编解码脚本判断出所述语音数据不符合预设转换条件，则控制所述录音设备停止录音，和/或，显示提示信息，所述提示信息用于提示所述语音数据不符合所述预设转换条件。

在本申请的一些实施例中，所述将所述语音数据转换为对应的文本数据之后，还包括：

通过脚本引擎获取所述客户端的当前界面的文档对象模型DOM结构，根据所述DOM结构将所述文本数据显示在所述当前界面的预设位置处；或者，

将所述文本数据存储为预设文件格式的文档。

在本申请的一些实施例中，所述从所述客户端包括的数据转换接口获得待转换的语音数据，包括：

检测到所述客户端包括的数据转换接口的触发事件，通过录音设备录制待转换的语音数据；或者，通过所述数据转换接口接收用户上传的音频文件，将所述音频文件确定为待转换的语音数据。

本申请第二方面的实施例提供了一种将语音转换成文本的方法，应用于服务器，包括：

接收用户终端发送的待转换的语音数据，所述语音数据是通过所述用户终端中的客户端包括的数据转换接口获得的；

通过预设声学服务模块将所述语音数据转换为对应的语音编码；

发送所述语音编码给所述用户终端，以使所述用户终端通过本地的预设编解码脚本将所述语音编码转换为对应的文本数据。

在本申请的一些实施例中，所述通过预设声学服务模块将所述语音数据转换为对应的语音编码，包括：

通过预设声学服务模块按照预设分帧规则将所述语音数据划分为多个音频帧；

并行提取每个音频帧对应的声学特征信息；

在本申请的一些实施例中，所述接收用户终端发送的待转换的语音数据之前，还包括：

接收用户终端的连接请求，建立与所述用户终端之间的全双工通信连接，基于所述全双工通信连接与所述用户终端进行数据交互。

本申请第三方面的实施例提供了一种将语音转换成文本的系统，所述系统包括用户终端和服务器；所述用户终端的本地插件库中包括预设声学服务模块和预设编解码脚本，和/或，所述用户终端本地配置有所述预设编解码脚本且所述服务器中配置有所述预设声学服务模块；

所述用户终端，用于从客户端包括的数据转换接口获得待转换的语音数据；通过本地的预设声学服务模块或者通过所述服务器中的所述预设声学服务模块将所述语音数据转换为对应的语音编码，通过本地的预设编解码脚本将所述语音编码转换为对应的文本数据；

所述服务器，用于接收所述用户终端发送的所述语音数据；通过预设声学服务模块将所述语音数据转换为对应的语音编码；发送所述语音编码给所述用户终端。

本申请第四方面的实施例提供了一种将语音转换成文本的装置，应用于用户终端，包括：

获取模块，用于从客户端包括的数据转换接口获得待转换的语音数据；

转换模块，用于通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据，所述预设声学服务模块用于将所述语音数据转换为对应的语音编码，所述预设编解码脚本用于将所述语音编码转换为对应的文本数据。

本申请第五方面的实施例提供了一种将语音转换成文本的装置，应用于服务器，包括：

接收模块，用于接收用户终端发送的待转换的语音数据，所述语音数据是通过所述用户终端中的客户端包括的数据转换接口获得的；

转换模块，用于通过预设声学服务模块将所述语音数据转换为对应的语音编码；

发送模块，用于发送所述语音编码给所述用户终端，以使所述用户终端通过本地的预设编解码脚本将所述语音编码转换为对应的文本数据。

本申请第六方面的实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述第一方面或第二方面所述的方法。

本申请第七方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述第一方面或第二方面所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，在用户终端本地设置预设声学服务模块及预设编解码脚本，和/或，在用户终端本地设置预设编解码脚本，且在服务器中配置预设声学服务模块。在客户端中设置数据转换接口，通过该数据转换接口即可访问预设声学服务模块及预设编解码脚本提供的语音识别服务。任意客户端中都可以设置数据转换接口，任意能够安装客户端的设备都可以使用该语音识别服务，不用购买任何特定设备，也无需下载并安装额外的应用程序，不会增加用户终端上安装的应用程序的数量，节省了用户终端的存储资源和计算资源，降低了用户使用语音识别服务的成本。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1示出了本申请一实施例所提供的一种将语音转换成文本的方法的流程图；

图2示出了本申请一实施例所提供的语音输入界面的示意图；

图3示出了本申请一实施例所提供的一种将语音转换成文本的方法的另一流程图；

图4示出了本申请一实施例所提供的一种将语音转换成文本的方法的又一流程图；

图5示出了本申请一实施例所提供的一种将语音转换成文本的系统的结构示意图；

图6示出了本申请一实施例所提供的一种将语音转换成文本的装置的结构示意图；

图7示出了本申请一实施例所提供的另一种将语音转换成文本的装置的结构示意图；

图8示出了本申请一实施例所提供的一种电子设备的结构示意图；

图9示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

下面结合附图来描述根据本申请实施例提出的一种将语音转换成文本的方法、系统、装置、设备及存储介质。

目前相关技术中通常采用特定的语音识别软件来将语音转换成文本，用户需要下载这些语音识别软件，并将这些语音识别软件安装在自己的手机或电脑等用户终端中，增加了用户终端中安装的软件数量，占用用户终端的大量存储空间和计算资源。而且不同厂商提供的语音识别软件还可能基于特定的硬件才能运行，导致产品的价格昂贵，不方便携带，限制了语音识别的应用场景。

基于相关技术中存在的上述问题，本申请实施例提供了一种将语音转换成文本的方法，该方法通过预设声学服务模块和预设编解码脚本来将语音转换成文本，预设编解码脚本可以为node.js脚本，预设编解码脚本配置在用户的手机或电脑等用户终端本地，用于对数据进行编解码操作，如将语音编码转换成文本数据。预设编解码脚本还可以配置在服务器中，配置在服务器中的预设编解码脚本仅用于对收发数据，如接收用户终端发送的文本数据，或者将语音编码发送给用户终端。预设声学服务模块可以配置在服务器中，也可以配置在用户终端中。

用户终端配置预设声学服务模块和预设编解码脚本，和/或，用户终端中配置用于编解码操作的预设编解码脚本，以及服务器中配置预设声学服务模块和用于收发数据的预设编解码脚本后，通过任意客户端中设置的数据转换接口均可以访问预设声学服务模块和预设编解码脚本提供的语音识别服务。其中，浏览器、即时通讯软件、游戏软件、多媒体播放软件等任意客户端中均可以设置上述数据转换接口。通过用户终端上原有的客户端即可访问语音识别服务，无需额外安装应用程序，不会增加用户终端安装的软件数量，节省用户终端的存储空间和计算资源，降低了将语音转换成文本的成本，在任意需要语音识别的应用场景中都可以使用客户端中的数据转换接口进行转换，更加方便、快捷、高效。

参见图1，该方法具体包括以下步骤：

步骤101：用户终端从客户端包括的数据转换接口获得待转换的语音数据。

用户终端上安装有至少一个客户端，如浏览器、即时通讯软件、游戏软件等。用户终端安装的任意一个客户端中均可以设置有上述数据转换接口，数据转换接口可以为用于触发访问语音识别功能的链接或按键等。用户点击客户端界面中的数据转换接口，用户终端检测到该数据转换接口的点击事件，显示语音输入界面，该语音输入界面中可以包括录音按键和/或用于提交音频文件的文件上传接口，如图2所示。用户可以按住录音按键来录制待转换的语音数据，或者，用户可以点击该录音按键开始录制，录制结束时再次点击该录音按键来结束待转换的语音数据的录制。用户也可以通过文件上传接口上传mp3、mp4等音频文件。

若用户终端检测到语音输入界面中的录音按键触发的录音请求，首先确定当前客户端是否具有调用录音设备的权限，录音设备可以为用户终端自带的录音机、麦克风等设备。若用户终端确定出当前客户端不具有调用录音设备的权限，则提示用户为当前客户端设置调用录音设备的权限。当前客户端具有该权限后，调用录音设备开始录音，用户可以对着用户终端说话，或者将用户终端放置在距离声源较近的位置，以使得录制的语音数据更加清晰。

若用户终端检测到语音输入界面中的文件上传接口触发的上传请求，则可以显示本地文件夹浏览组件，使用户通过浏览本地文件夹目录，选择需要上传的音频文件，用户终端从该文件上传接口获取用户选择的音频文件，将该音频文件作为待转换的语音数据。或者，用户可以直接将需要上传的音频文件拖拽至该文件上传接口处，用户终端从该文件上传接口处获取用户拖拽的音频文件，并将其作为待转换的语音数据。

通过上述任一方式获得待转换的语音数据后，通过如下步骤102的操作来将待转换的语音数据转换为文本数据。

步骤102：用户终端通过预设声学服务模块和预设编解码脚本将语音数据转换为对应的文本数据，预设声学服务模块用于将语音数据转换为对应的语音编码，预设编解码脚本用于将语音数据对应的语音编码转换为文本数据。

用户终端的本地插件库中配置了预设声学服务模块和预设编解码脚本时，可以通过本地插件库来将待转换的语音数据转换为文本数据。当用户终端中配置了用于进行编解码操作的预设编解码脚本，且服务器中配置了预设声学服务模块和用于收发数据的预设编解码脚本，且用户终端能够连接到网络时，可以通过用户终端与服务器相配合来将待转换的语音数据转换为文本数据。下面分别详细说明这两种方案的具体过程。

在通过本地插件库来进行语音识别的应用场景中，由于若用户录制的语音或上传的音频文件的音量过低，或者噪音很大，会严重影响语音识别效果，甚至导致识别失败。为了避免出现这种情况，本申请实施例在本地插件包中预先配置了预设转换条件，该预设转换条件可以规定待转换的语音数据的音量需要大于预设音量，和/或，还可以规定待转换的语音数据中噪音量小于预设阈值，等等。本申请实施例并不限制预设转换条件的具体内容，实际应用中可根据实际需求进行设置。

用户终端通过步骤101获得待转换的语音数据时，调用本地插件库中的预设编解码脚本判断接收到的语音数据是否符合预设转换条件，若判断出语音数据不符合预设转换条件，则控制录音设备停止录音。和/或，还可以显示提示信息，该提示信息用于提示用户当前的语音数据不符预设转换条件，如提示信息用于提示用户语音数据的音量太小，或者提示信息用于提示用户语音数据中噪音太大，或者提示用户重新录制语音数据，或者提示用户重新上传音频文件，等等。用户看到停止录音或者看到该提示信息后，可以调大音量来录制待转换的语音数据，或者到更加安静的环境中录制语音数据。若待转换的语音数据为用户上传的mp3或 mp4等音频文件，且用户终端显示用于提示该音频文件不符合预设转换条件时，用户可以重新上传一个新的音频文件。

如图3所示，用户终端通过步骤101获得待转换的语音数据，通过上述方式判断出待转换的语音数据符合预设转换条件后，通过如下步骤1021和1022的操作来进行语音识别。

步骤1021：用户终端通过当前客户端调用本地插件库中包括的预设声学服务模块，将语音数据转换为对应的语音编码。

用户终端调用本地插件库中的预设声学服务模块将待转换的语音数据由模拟信号转换为对应的数字信号，切除转换后的语音数据的开始和结尾处的静音段，以及去除语音数据中的噪音。其中，切除静音段以及去除噪音的操作可采用相关技术中的操作进行处理，在此不再赘述。

通过上述方式对待转换的语音数据进行模电转换、切除静音、去除噪音等预处理操作后，按照预设分帧规则将语音数据划分为多个音频帧。预设分帧规则中可以规定划分音频帧的预设单位时长，即根据待转换的语音数据的时长，每隔预设单位时长划分为一个音频帧。预设单位时长可以为5s或10s等。本申请实施例并不限制预设单位时长的具体取值，实际应用中可根据需求进行设定。

在本申请的另一些实施例中，预设分帧规则中也可以规定按照语音数据中语速的停顿状态来划分音频帧，即将相邻的两次停顿之间的语音划分成一个音频帧。

通过上述方式将待转换的语音数据划分为一个或多个音频帧后，还记录划分过程中产生的划分记录信息，该划分记录信息中可以包括每个音频帧的开始时刻和结束时刻。

划分出多个音频帧后，通过预设声学服务模块并行提取每个音频帧对应的声学特征信息。预设声学服务模块可以同时并行处理所有的音频帧，也可以同时并行处理预设数目个音频帧，预设数目可以为4或5等。预设声学服务模块通过多个进程来并行处理多个音频帧，进程的数目与并行处理的音频帧的数目相等。

具体地，预设声学服务模块通过进程预加载需要处理的音频帧的数字信号。预加载完成后，对音频帧的数字信号进行加窗处理，以减少频谱能量泄露。对加窗后音频帧的数字信号进行FFT(Fast Fourier Transform，快速傅里叶变换)变换，然后对变换后音频帧的数字信号进行滤波处理，最后通过预设特征提取算法从上述处理得到的音频帧的数字信号中提取该音频帧的声学特征信息。预设特征提取算法可以为梅尔频率倒谱系数、线性预测分析算法、基于深度学习的特征提取算法(如主成分分析算法)等。其中，通过梅尔频率倒谱系数提取的声学特征信息包括音频帧的频谱特征，是基于人耳听觉特性的、鲁棒性较好的频域语音特征参数。

对于需要并行处理的每个音频帧，通过多个进程分别按照上述方式并行提取每个音频帧的声学特征信息，通过并行提取特征，大大缩短提取整个待转换的语音数据的声学特征的时长，提高语音识别效率。

预设声学服务模块中预先配置有预设语音库，预设语音库中存储有不同语音对应的语音编码与声学特征信息的映射关系。获得每个音频帧对应的声学特征信息后，根据每个音频帧对应的声学特征信息，从预设语音库中分别匹配每个音频帧对应的语音编码。每个音频帧对应的语音编码即为待转换的语音数据对应的语音编码。

上述语音编码相当于待转换的语音数据对应的文本帧和音频数据帧的组合，其中文本帧包括待转换的语音数据对应的第一个开始参数帧和最后一个结束帧，文本帧的格式为json格式。音频数据帧为开始参数帧与结束帧之间的音频数据帧，音频数据帧为二进制帧。

步骤1022：用户终端调用本地插件库中包括的预设编解码脚本，将语音编码转换为文本数据。

预设声学服务模块将获得的每个音频帧的语音编码传输给本地插件库中包括的预设编解码脚本。该预设编解码脚本用于对接收到的语音编码进行解码处理，从而获得对应的文本数据。

上述预设语音库中还包括不同语音对应的语音编码与文本信息的对应关系。预设声学服务模块提供有供预设编解码脚本使用的调用接口，预设编解码脚本通过该调用接口访问预设语音库，从预设语音库中分别匹配出每个音频帧的语音编码对应的文本信息。然后获取步骤1021中对待转换的语音数据进行划分操作时产生的划分记录信息。

根据划分记录信息，将每个音频帧对应的文本信息拼接为语音数据对应的文本数据。具体地，根据划分记录信息中包括的每个音频帧的开始时刻和结束时刻，将每个音频帧对应的文本信息按照时间的先后顺序排序，将排序后得到的文本序列确定为待转换的语音数据对应的文本数据。

通过上述方式获得待转换的语音数据对应的文本数据后，用户终端可以通过脚本引擎获取当前客户端的当前界面的DOM(Document Object Model，文档对象模型)结构，根据获取的DOM结构将转换得到的文本数据显示在当前界面的预设位置处，预设位置可以为预先配置任意位置，如可以为当前界面的左侧、右侧、上侧、下侧等位置处。

自动将转换的文本数据显示在当前界面的预设位置处，可以使用户方便地看到语音识别的内容，提高了语音识别的实时性。语音输入准确高效，说话内容实时展示在屏幕上，聊天顺畅。在演讲或视频会议等应用场景中，可通过该方式实时识别发言者所说的话，并将识别的文本数据实时显示在当前界面中。

作为另一种实现方式，用户终端还可以将转换得到的文本数据存储为预设文件格式的文档，并将该文档存储到用户终端的相册或文件夹等应用中。预设文件格式可以为word、txt或PDF等。将转换的文本数据存储为预设文件格式的文档，有利于用户通过预设文件格式的文档对之前语音数据包括的内容进行二次编辑。在新闻采访，可以通过该方式将记者或被采访者所说的话识别为预设文件格式的文档，后续对该文档进行二次编辑即可得到新闻稿。在开会过程中通过该方式将与会人员的发言识别为预设文件格式的文档，后续对该文档进行二次编辑即可得到会议纪要文件。

用户终端可以连接服务器，确保本地插件库中预设声学服务模块和预设编解码脚本的及时更新，通过最新版本的预设声学服务模块和预设编解码脚本为用户提供最优的语音识别服务。

下面简要介绍本申请的几种应用场景，实际应用中并不限制于以下的应用场景，本申请实施例可以应用到任何需要进行语音识别的应用场景中。

场景一，在平时工作中的产品需求评审后，通过本申请实施例提供的方法录入产品需求的语音数据，自动识别出产品需求文档。

场景二，测试人员在测试时，有漏洞信息要提给开发人员时，也可以通过本申请实施例的方式用语音录入漏洞信息，并将其识别为文档。如此既不耽误测试人员太多时间，又能及时记录漏洞信息，提高开发效率。

场景三，对于身体不便无法自己编辑文本的特殊人员，可以通过本申请实施例的方法及时有效的识别用户的语音、或者识别用户上传的音频文件。

场景四，在视频直播的场景中主播说话可以直接将说话内容实时转换为字幕展示在屏幕上，还可以通过语音对之前所说的话对应的字幕进行修改或替换等二次字幕编辑。

场景五，演讲过程中可以在屏幕上实时展示演讲人的字幕，逐字展示并智能纠错。

场景六，会议场景中，每个说话人的语音可以实时记录，并转换成文档，提升会议记录效率。

场景七，老师上课的场景中，通过本申请实施例提供的方法对老师课堂讲解的内容进行实时记录，并转换为文档，该文档可以作为学生的复习资料，也可以方便校方对老师的教学内容进行记录以及进行教学质量评估。

本申请实施例中，通过调用本地插件库中预设声学服务模块和预设编解码脚本来进行语音识别，无需进行数据的网络传输，节省带宽，且避免了网络传输所占用的时间，缩短了语音识别的响应时间，提高了响应速度。且只要在用户终端本地配置预设声学服务模块及预设编解码脚本，并在任意客户端中设置访问语音识别服务的数据转换接口即可，任意能够安装客户端的设备都可以使用该语音识别服务，且不用购买任何特定设备，也无需额外下载并安装额外的应用程序，不会增加用户终端上安装的应用程序的数量，节省了用户终端的存储资源和计算资源，降低了用户使用语音识别服务的成本。

下面介绍通过用户终端中配置的用于进行编解码操作的预设编解码脚本，以及服务器中配置的预设声学服务模块来提供语音识别服务的过程。其中与上述实施例中通过本地插件库的实现过程中相同的部分，在本实施例中不再重复，仅介绍二者的不同之处。

其中，服务器中也配置有预设编解码脚本，该预设编解码脚本仅用于接收或发送数据。预设声学服务模块和该预设编解码脚本可以部署在同一台服务器上，也可以部署在不同的服务器上。在服务器上通过编程创建预设编解码脚本，该预设编解码脚本可以为node.js脚本，并确定可访问到语音识别服务的地址信息，该地址信息包括服务器的域名和/或IP地址。

如图4所示，用户终端通过步骤101获得待转换的语音数据后，具体通过以下步骤来实现语音识别功能，包括：

步骤103：用户终端建立与服务器之间的全双工通信连接。

客户端中包括的数据转换接口与服务器的地址信息相关联，该服务器中配置有预设声学服务模块和用于收发数据的预设编解码脚本。服务器的地址信息可以包括服务器的域名或IP地址等。

用户终端从客户端包括的数据转换接口获取服务器的地址信息。根据该地址信息，建立与服务器之间的全双工通信连接。该全双工通信连接采用的通信协议可以为websocket协议。

若该地址信息包括服务器的IP地址，则可以根据该IP地址，发送连接请求给服务器。服务器响应该连接请求，建立起用户终端与服务器之间的全双工通信连接。

若该地址信息不包括服务器的IP地址，而包括服务器的域名。则用户终端先发送域名解析请求给域名服务器，该域名解析请求中包括服务器的域名。域名服务器根据服务器的域名，解析得到服务器的IP地址，反馈该IP地址给用户终端。用户终端获得该IP地址，再按照上述方式根据该IP地址建立起与服务器之间的全双工通信连接。

步骤104：基于该全双工通信连接，用户终端发送语音数据给服务器。

用户终端基于与服务器之间的全双工通信连接，将待转换的语音数据发送给服务器，以使服务器通过如下步骤105的操作将语音数据转换为对应的语音编码。

步骤105：服务器接收用户终端发送的待转换的语音数据，通过预设声学服务模块将语音数据转换为对应的语音编码。

通过预设声学服务模块将语音数据转换为对应的语音编码的具体操作细节，与上述实施例中步骤1021中的具体操作相同，在此不再赘述。

步骤106：服务器发送语音编码给用户终端。

服务器通过与用户终端之间的全双工通信连接，将该语音编码发送给用户终端。

步骤107：用户终端接收服务器返回的语音编码，通过本地的预设编解码脚本将语音编码转换为对应的文本数据。

用户终端接收服务器返回的语音编码，然后通过上述步骤1022中的方式通过本地的预设编解码脚本将语音编码转换为对应的文本数据，具体操作过程在此不再赘述。

获得待转换的语音数据对应的文本数据后，通过脚本引擎获取当前客户端的当前界面的DOM结构，根据获取的DOM结构将转换得到的文本数据显示在当前界面的预设位置处。或者，将转换得到的文本数据存储为预设文件格式的文档，并将该文档存储到用户终端的相册或文件夹等应用中。

用户终端获得文本数据后的操作，均与上述使用本地插件库进行语音识别的实施例中相应的操作相同，在此不再赘述。

在本申请实施例中，用户终端将待转换的语音数据发送给服务器，服务器将转换后的语音编码发送给用户终端。所有这些数据在网络中传输之前都可以先通过预设加密算法对需传输的数据进行加密，然后传输加密后的密文数据，以提高数据传输过程中的数据安全性，确保用户的隐私安全。预设加密算法可以包括哈希算法、MD5(Message-DigestAlgorithm，信息摘要算法)等。

例如，用户终端将待转换的语音数据发送给服务器之前，通过MD5算法计算语音数据对应的签名，将该签名插入http请求的请求头中，然后将该http请求发送给服务器。服务器接收到该请求后，从请求头中获取该签名，解密后得到待转换的语音数据。

本申请实施例中，用户终端将待转换的语音数据发送给服务器，由服务器通过预设声学服务模块将语音数据转换为语音编码，服务器发送语音编码给用户终端。用户终端再通过预设编解码脚本将语音变换转换为对应的文本数据，将语音数据转换为语音编码的操作由服务器完成，节省了用户终端的计算资源和存储资源。且通过任意客户端中设置的访问语音识别服务的数据转换接口即可访问语音识别功能，无需额外下载并安装应用程序，不会增加用户终端上安装的应用程序的数量，节省了用户终端的存储资源和计算资源，降低了用户使用语音识别服务的成本。

本申请实施例还提供一种将语音转换成文本的系统，该系统用于执行上述任一实施例提供的将语音转换成文本的方法。如图5所示，该系统包括用户终端和服务器；用户终端的本地插件库中包括预设声学服务模块和预设编解码脚本，和/ 或，用户终端本地配置有所述预设编解码脚本且服务器中配置有预设声学服务模块和预设编解码脚本；

用户终端，用于从客户端包括的数据转换接口获得待转换的语音数据；通过本地预设声学服务模块或通过服务器中的预设声学服务模块将语音数据转换为对应的语音编码，通过本地的预设编解码脚本将语音数据转换为对应的文本数据；

服务器，用于接收用户终端发送的待转换的语音数据；通过预设声学服务模块本将语音数据转换为对应的语音编码；发送该语音编码给用户终端。

本申请的上述实施例提供的将语音转换成文本的系统与本申请实施例提供的将语音转换成文本的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例还提供一种将语音转换成文本的装置，该装置用于执行上述任一实施例提供的将语音转换成文本的方法中用户终端所执行的操作。参见图6，该装置包括：

获取模块201，用于从客户端包括的数据转换接口获得待转换的语音数据；

转换模块202，用于通过预设声学服务模块和预设编解码脚本将语音数据转换为对应的文本数据，预设声学服务模块用于将语音数据转换为对应的语音编码，预设编解码脚本用于将语音数据对应的语音编码转换为文本数据。

转换模块202，用于建立与所述服务器之间的全双工通信连接，服务器中配置有预设声学服务模块；基于全双工通信连接，发送语音数据给服务器，以使服务器通过预设声学服务模块将语音数据转换为对应的语音编码；接收服务器返回的语音编码，通过本地的预设编解码脚本将语音编码转换为对应的文本数据。

转换模块202，用于调用本地插件库中包括的预设声学服务模块，将语音数据转换为对应的语音编码；调用本地插件库中包括的预设编解码脚本，将语音编码转换为文本数据。

转换模块202，用于按照预设分帧规则将语音数据划分为多个音频帧；并行提取每个音频帧对应的声学特征信息；根据每个音频帧对应的声学特征信息，从预设语音库中分别匹配每个音频帧对应的语音编码。

转换模块202，用于从预设语音库中分别匹配出每个音频帧的语音编码对应的文本信息；获取对语音数据进行划分操作产生的划分记录信息；根据划分记录信息，将每个音频帧对应的文本信息拼接为语音数据对应的文本数据。

该装置还包括：判断模块，用于通过录音设备录制语音数据的过程中，若通过预设编解码脚本判断出语音数据不符合预设转换条件，则控制录音设备停止录音，和/或，显示提示信息，提示信息用于提示语音数据不符合预设转换条件。

该装置还包括：显示模块，用于通过脚本引擎获取客户端的当前界面的文档对象模型DOM结构，根据DOM结构将文本数据显示在当前界面的预设位置处；或者，

存储模块，用于将文本数据存储为预设文件格式的文档。

获取模块201，用于检测到客户端包括的数据转换接口的触发事件，通过录音设备录制待转换的语音数据；或者，通过数据转换接口接收用户上传的音频文件，将音频文件确定为待转换的语音数据。

本申请的上述实施例提供的将语音转换成文本的装置与本申请实施例提供的将语音转换成文本的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例还提供一种将语音转换成文本的装置，该装置用于执行上述任一实施例提供的将语音转换成文本的方法中服务器所执行的操作。参见图7，该装置包括：

接收模块301，用于接收用户终端发送的待转换的语音数据，语音数据是通过用户终端中的客户端包括的数据转换接口获得的；

转换模块302，用于通过预设声学服务模块将语音数据转换为对应的语音编码；

发送模块303，用于发送语音编码给用户终端，以使用户终端通过本地的预设编解码脚本将语音编码转换为对应的文本数据。

转换模块302，用于通过预设声学服务模块按照预设分帧规则将语音数据划分为多个音频帧，并行提取每个音频帧对应的声学特征信息；根据每个音频帧对应的声学特征信息，从预设语音库中分别匹配每个音频帧对应的语音编码。

该装置还包括：通信连接建立模块，用于接收用户终端的连接请求，建立与用户终端之间的全双工通信连接，基于全双工通信连接与用户终端进行数据交互。

本申请实施方式还提供一种电子设备，以执行上述将语音转换成文本的方法。请参考图8，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图8所示，电子设备8包括：处理器800，存储器801，总线802和通信接口803，所述处理器800、通信接口803和存储器801通过总线802连接；所述存储器801 中存储有可在所述处理器800上运行的计算机程序，所述处理器800运行所述计算机程序时执行本申请前述任一实施方式所提供的将语音转换成文本的方法。

其中，存储器801可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口803(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线802可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器801用于存储程序，所述处理器800 在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述将语音转换成文本的方法可以应用于处理器800中，或者由处理器800实现。

处理器800可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器800中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器800可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器800读取存储器801中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的将语音转换成文本的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的将语音转换成文本的方法对应的计算机可读存储介质，请参考图9，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的将语音转换成文本的方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的将语音转换成文本的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下示意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种将语音转换成文本的方法，其特征在于，应用于用户终端，包括：

从客户端包括的数据转换接口获得待转换的语音数据；

2.根据权利要求1所述的方法，其特征在于，所述通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述语音数据转换为对应的语音编码，包括：

按照预设分帧规则将所述语音数据划分为多个音频帧；

并行提取每个音频帧对应的声学特征信息；

5.根据权利要求4所述的方法，其特征在于，所述将所述语音编码转换为文本数据，包括：

获取对所述语音数据进行划分操作产生的划分记录信息；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述语音数据转换为对应的文本数据之后，还包括：

将所述文本数据存储为预设文件格式的文档。

8.根据权利要求1-5任一项所述的方法，其特征在于，所述从所述客户端包括的数据转换接口获得待转换的语音数据，包括：

9.一种将语音转换成文本的方法，其特征在于，应用于服务器，包括：

10.根据权利要求9所述的方法，其特征在于，所述通过预设声学服务模块将所述语音数据转换为对应的语音编码，包括：

并行提取每个音频帧对应的声学特征信息；

11.根据权利要求9或10所述的方法，其特征在于，所述接收用户终端发送的待转换的语音数据之前，还包括：

12.一种将语音转换成文本的系统，其特征在于，所述系统包括用户终端和服务器；所述用户终端的本地插件库中包括预设声学服务模块和预设编解码脚本，和/或，所述用户终端本地配置有所述预设编解码脚本且所述服务器中配置有所述预设声学服务模块；

所述用户终端，用于从客户端包括的数据转换接口获得待转换的语音数据；通过本地的预设声学服务模块或通过所述服务器中的所述预设声学服务模块将所述语音数据转换为对应的语音编码，通过本地的预设编解码脚本将所述语音编码转换为对应的文本数据；

13.一种将语音转换成文本的装置，其特征在于，应用于用户终端，包括：

14.一种将语音转换成文本的装置，其特征在于，应用于服务器，包括：

15.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-11任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-11中任一项所述的方法。