CN113707151A

CN113707151A - 语音转写方法、装置、录音设备、系统与存储介质

Info

Publication number: CN113707151A
Application number: CN202110963357.XA
Authority: CN
Inventors: 王志军; 常玉翠; 张硕; 陈睿
Original assignee: Tianjin Xunfeiji Technology Co ltd
Current assignee: Tianjin Xunfeiji Technology Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-26

Abstract

本发明提供一种语音转写方法、装置、录音设备、系统与存储介质，所述方法包括：接收录音设备实时录制并传输的语音数据流；将所述语音数据流上传至云端，以请求所述云端对所述语音数据流进行实时语音转写；接收所述云端返回的实时转写结果。本发明提供的方法、装置、录音设备、系统与存储介质，将用户终端作为录音设备与云端之间的数据中转，以更低成本的方式实现了语音数据流从录音设备到云端的实时传输；借助云端强大的语音处理能力，对语音数据流进行实时语音转写，并将实时转写结果返回给用户终端，从而提高了语音转写的效率和准确性，可以满足用户在录音过程中实时查看转写结果的需求，有助于优化用户体验。

Description

语音转写方法、装置、录音设备、系统与存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音转写方法、装置、录音设备、系统与存储介质。

背景技术

目前市面上的主流录音笔应用场景较少，主要适用于会议、培训和采访等比较正式的场合，但是针对紧急事务记录、紧急会议等突发的或者要求无感知的录音场景，市面上的主流录音笔并不适用。

现有的穿戴式录音笔，虽然保证了录音场景的便捷性，但在语音转写过程中，需要手动上传录音文件进行转写，不能满足用户快速查看转写内容的需求。

发明内容

本发明提供一种语音转写方法、装置、录音设备、系统与存储介质，用以解决现有技术中无法满足突发或者要求无感知的录音场景下用户快速查看转写内容的需求的缺陷，实现满足用户在录音过程中实时查看转写结果的需求。

第一方面，本发明提供一种语音转写方法，所述方法应用于用户终端，所述方法包括：

接收录音设备实时录制并传输的语音数据流；

将所述语音数据流上传至云端，以请求所述云端对所述语音数据流进行实时语音转写；

接收所述云端返回的实时转写结果。

根据本发明提供的一种语音转写方法，所述接收录音设备实时录制并传输的语音数据流，之后还包括：

将所述语音数据流存储为语音文件；

确定所述语音数据流传输结束，则将所述语音文件的整体上传至所述云端，以请求所述云端对所述语音文件的整体进行语音转写；

接收所述云端返回的整体转写结果。

根据本发明提供的一种语音转写方法，所述将所述语音数据流存储为语音文件，包括：

将所述语音数据流存储为第一语音文件，对所述第一语音文件进行降噪，得到第二语音文件；

对所述第二语音文件进行音频压缩，得到所述语音文件。

根据本发明提供的一种语音转写方法，所述将所述语音数据流存储为第一语音文件，包括：

基于所述语音数据流进行音频解码并存储，得到所述第一语音文件，所述语音数据流的编码格式基于所述录音设备与所述用户终端之间的无线连接类型确定。

根据本发明提供的一种语音转写方法，还包括：

确定用户转写需求，所述用户转写需求是用户通过所述用户终端输入的，和/或通过所述录音设备输入并传输的；

将所述用户转写需求上传至云端，以请求所述云端基于所述用户转写需求进行语音转写。

第二方面，本发明还提供一种语音转写方法，所述方法应用于录音设备，所述方法包括：

获取实时录制的语音数据流；

将所述语音数据流实时传输至用户终端，以请求所述用户终端将所述语音数据流转发至云端进行实时语音转写，并接收所述云端返回的实时转写结果。

根据本发明提供的一种语音转写方法，所述将所述语音数据流实时传输至用户终端，包括：

对所述语音数据流进行音频压缩，并将音频压缩后的语音数据流实时传输至所述用户终端，所述音频压缩的目标编码格式基于所述录音设备与所述用户终端之间的无线连接类型确定。

第三方面，本发明还提供一种语音转写装置，所述装置应用于用户终端，所述装置包括：

语音接收模块，用于接收录音设备实时录制并传输的语音数据流；

语音上传模块，用于将所述语音数据流上传至云端，以请求所述云端对所述语音数据流进行实时语音转写；

转写接收模块，用于接收所述云端返回的实时转写结果。

第四方面，本发明还提供一种语音转写装置，所述装置应用于录音设备，所述装置包括：

获取模块，用于获取实时录制的语音数据流；

传输模块，用于将所述语音数据流实时传输至用户终端，以请求所述用户终端将所述语音数据流转发至云端进行实时语音转写，并接收所述云端返回的实时转写结果。

第五方面，本发明还提供一种用户终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第六方面，本发明还提供一种录音设备，包括拾音器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第二方面所提供的方法的步骤。

第七方面，本发明还提供一种语音转写系统，包括如第五方面所提供的用户终端、如第六方面所提供的录音设备，以及云端，所述云端用于语音转写。

第八方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。

本发明提供的语音转写方法、装置、录音设备、系统与存储介质，将用户终端作为录音设备与云端之间的数据中转，以更低成本的方式实现了语音数据流从录音设备到云端的实时传输；借助云端强大的语音处理能力，对语音数据流进行实时语音转写，并将实时转写结果返回给用户终端，从而提高了语音转写的效率和准确性，可以满足用户在录音过程中实时查看转写结果的需求，有助于优化用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音转写方法的流程示意图之一；

图2是本发明提供的语音转写方法的流程示意图之二；

图3是本发明提供的语音文件确定方法的流程示意图；

图4是本发明提供的语音转写方法的流程示意图之三；

图5是本发明提供的语音转写方法的流程示意图之四；

图6是本发明提供的语音转写方法的流程示意图之五；

图7是本发明提供的语音转写装置的结构示意图之一；

图8是本发明提供的语音转写装置的结构示意图之二；

图9是本发明提供的用户终端的结构示意图；

图10是本发明提供的录音设备的结构示意图；

图11是本发明提供的语音转写系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于具有重量轻、体积小、可连续录音几个小时等特点，录音笔受到了越来越多人的青睐。目前市面上的主流录音笔应用场景较少，主要适用于会议、培训和采访等比较正式的场合，但是针对紧急事务记录或紧急会议等突发的录音场景或者无感知的录音场景，市面上的主流录音笔并不适用。

现有的穿戴式录音笔，虽然保证了录音场景的便捷性，但在语音转写过程中，需要在录音完成后手动上传录音文件进行转写。显然，此种穿戴式录音笔不能满足用户在录音过程中快速查看转写内容的需求，不仅会导致使用效率低下，还会为用户带来额外的重复性工作，大量耗费用户的时间和精力，造成用户体验不佳。

对此，本发明实施例提供了一种语音转写方法。图1是本发明提供的语音转写方法的流程示意图之一，如图1所示，该方法的执行主体是用户终端，此处的用户终端可以是智能手机、平板电脑、PC (Personal Computer，个人电脑)等具备与云端通信功能的智能设备。该方法包括：

步骤110，接收录音设备实时录制并传输的语音数据流；

步骤120，将语音数据流上传至云端，以请求云端对语音数据流进行实时语音转写；

步骤130，接收云端返回的实时转写结果。

步骤110中的录音设备，即具有录音功能的智能设备，此处的智能设备可以是录音笔，录音笔可以包括穿戴式录音笔，例如腕式录音笔、悬挂式录音笔等，也可以包括传统笔式录音笔。

考虑到现有的穿戴式录音笔在语音转写过程中，需要手动上传录音文件进行转写，不能满足用户快速查看转写内容的需求。针对这一问题，本发明实施例中的录音设备自身携带有通信模块，通信模块可以支持录音设备与用户终端之间进行数据传输。此处的通信模块可以是蓝牙模块、WIFI(Wireless Fidelity)模块、红外模块等可用于近距离数据传输的无线通信模块，录音设备可以同时装载上述通信模块中的一种或者多种，并且根据用户终端支持的近距离数据传输方式，应用自身装在的通信模块，与用户终端之间建立通信连接。

录音设备可以在实时录制语音数据流的过程中，将录制得到的语音数据流，通过预先建立的通信连接实时传输给用户终端，从而借助用户终端本身具备的与云端通信的功能，由用户终端将接收到的语音数据流实时上传至云端，再由云端对上传的语音数据流进行实时语音转写，得到实时转写结果，从而实现实时语音转写功能，提升语音转写效率。

具体在执行语音转写功能时，可以通过云端部署的ASR (Automatic SpeechRecognition，自动语音识别)算法实现，此处的 ASR算法可以是调用对于所有语种语音数据流都通用的识别模型实现语音识别，也可以是调用多个不同语种对应的识别子模型实现语音识别，在实际应用中，可以针对不同语种的语音数据流，分配对应的识别子模型进行语音转写。

需要说明的是，受限于录音设备的存储空间和计算能力，录音设备内部难以布设能够执行语音转写功能的模块，即便勉强将该模块直接布设在录音设备内部，基于该模块得到的转写结果的准确性也无法保证，而直接在录音设备内部布设能够直接与云端通信的通信模块，很大程度上会增加录音设备的制造成本。针对这一问题，本发明实施例充分利用了用户终端本身具备的与云端通信的功能，通过在录音设备上设置可用于近距离数据传输的无线通信模块，耗费更低的成本构建了录音设备与用户终端之间的数据传输通道，从而使得人手必备的用户终端可以作为录音设备与云端之间的数据中转，承接语音数据流的实时传输，并且充分应用云端服务器的强大计算能力、大容量的存储空间等优势，由云端调用高复杂度、高精准性的语音识别算法，实现对语音数据流进行语音转写，在保证语音转写的实时性的同时，以低廉的成本实现了语音转写的准确性、可靠性的提升。

为了进一步响应用户实时查看转写结果的需求，云端在对语音数据流进行实时语音转写之后，可以将实时转写结果实时下发给用户终端，在此基础上，用户终端即可对接收到的实时转写结果进行存储、展示等操作，以方便用户实时查看和编辑。例如，用户终端可以直接在自带的屏幕上展示实时转写结果，也可以将实时转写结果回传到录音设备，在录音设备自带的屏幕上进行展示，还可以将实时转写结果结合语音数据流的时间戳整理成字幕的形式，以便于后续用户在通过用户终端播放语音数据流时能够达到边播放语音边显示字幕的效果。可以理解的是，在整个拾音转写过程，只需要用户开启和保持录音，传输至用户终端、上传至云端、云端完成实时语音转写以及云端下发实时转写结果均是自动完成的，从而可以节省用户操作成本，提升用户体验。此外，当用户需要播放录音文件时，可以直接通过用户终端播放预先接收并存储的语音数据流实现，从而可以满足用户随时播放录音文件的需求。

本发明实施例提供的方法，将用户终端作为录音设备与云端之间的数据中转，以更低成本的方式实现了语音数据流从录音设备到云端的实时传输；借助云端强大的语音处理能力，对语音数据流进行实时语音转写，并将实时转写结果返回给用户终端，从而提高了语音转写的效率和准确性，可以满足用户在录音过程中实时查看转写结果的需求，有助于优化用户体验。

基于上述任一实施例，图2是本发明提供的语音转写方法的流程示意图之二，如图2所示，步骤110之后还包括：

步骤111，将语音数据流存储为语音文件；

步骤112，确定语音数据流传输结束，则将语音文件的整体上传至云端，以请求云端对语音文件的整体进行语音转写；

步骤113，接收云端返回的整体转写结果。

具体地，在用户终端接收到语音数据流之后，可以将实时传输的语音数据流存储为语音文件，以方便用户查找和播放。此处，语音文件可以是对语音数据流进行直接存储得到的，也可以是对语音数据流进行解码、压缩、降噪等处理之后，再对处理后的语音数据流进行存储得到的，本发明实施例对此不作具体限定。

考虑到实时语音转写过程没有考虑到上下文的语义信息，实时转写结果可能缺乏整体上的连贯性，对此，本发明实施例在确定语音数据流传输结束之后，可以将所存储的语音文件的整体上传至云端，由云端应用语音识别算法，结合语音文件整体的上下文信息，对语音文件的整体进行语音转写，由此即可得到整体转写结果，从而保证语音转写的准确性以及语音转写结果整体上的连贯性。

此处，由于语音数据流的传输时间可以忽略不计，语音数据流传输结束的时间即为用户进行语音输入的结束时间，用户终端对于语音输入的结束时间的确定可以通过语音端点检测(Voice Activity Detection，VAD)实现，也可以根据用户与用户终端之间的交互确定，还可以根据录音设备发送的录制结束消息确定，本发明实施例对此不作具体限定。

在云端获取到整体转写结果之后，云端可以向用户终端返回整体转写结果，用户终端接收到整体转写结果之后，可以对该整体转写结果进行存储、展示等操作，以方便用户获取更为准确的转写结果。进一步地，云端也可以将语音文件的整体以及整体转写结果保存在云端服务器中，以方便用户在任一设备终端登录自己的账号，播放录音或者查看转写结果。

基于上述任一实施例，图3是本发明提供的语音文件确定方法的流程示意图，如图3所示，步骤111包括：

步骤1110，将语音数据流存储为第一语音文件，对第一语音文件进行降噪，得到第二语音文件；

步骤1111，对第二语音文件进行音频压缩，得到语音文件。

具体地，在用户终端接收到语音数据流之后，可以先将语音数据流存储为第一语音文件，此处，具体的存储方式可以根据语音数据流的格式确定，例如，语音数据流为原始的录音数据，则可以直接将该语音数据流存储为第一语音文件，又例如，语音数据流为经过录音设备压缩编码后的录音数据，则可以先将该语音数据流先进行解码，再将解码后的语音数据流存储为第一语音文件。

考虑到现有的穿戴式录音设备在拾音时只通过DSP(Digital SignalProcessing，数字信号处理)声学处理器简单过滤背景杂音，对于噪音复杂的环境，录音质量较差，直接采用录制所得的语音数据流进行语音转写，导致转写效果差强人意。针对这一问题，本发明实施例在用户终端接收到语音数据流之后，可以先将语音数据流存储为第一语音文件，接着利用用户终端上布设的降噪算法对第一语音文件进行降噪，得到第二语音文件，从而可以降低环境的噪声，有效增强人声，进而可以极大程度上提高转写准确度，拓宽用户使用场景。

需要说明的是，用户终端相较于录音设备，具备更加强劲的处理能力，因此在用户终端上执行降噪算法，相对于直接在录音设备上执行降噪算法，效率和准确性均可得到提升。且考虑到降噪算法对于设备电量和计算资源的消耗，将降噪算法布设在续航能力和散热更强的用户终端上，也能更好地缓解录音设备的续航和散热问题。

当然云端同样具备强劲的处理能力，将降噪算法转移到云端执行，同样可以达到提高转写准确度的目的。但是相较于在云端布设降噪算法，在用户终端布设降噪算法，使得用户终端在执行降噪算法之后，可以直接获取并存储降噪之后的第一语音文件，以便于后续用户通过用户终端播放语音时，能够得到更加清晰的语音播放体验。

随即，为了提高录音文件上传云端的速度，用户终端可以对第二语音文件进行音频压缩，最终即可得到语音文件，以实现后续快速上传至云端。

进一步地，用户终端对于第二语音文件进行的音频压缩，具体可以通过将第二语音文件转码为目标编码格式的语音文件实现。

在用户终端，可以针对音频压缩预先设置不同的编码格式，此处的编码格式可以包括Speex格式、Opus格式等。当确定出用户终端与云端之间的当前网络状态之后，可以基于该网络状态从用户终端设置的编码格式中选取出当前最合适的编码格式，并将其作为对第二语音文件执行音频压缩的目标编码格式，从而可以针对用户终端与云端之间的不同网络状态实现个性化音频压缩和传输，在保证语音文件传输可靠性的同时，尽量提升语音文件的数据质量和传输效率。此处的网络状态，可以包括用户终端的信号强度、上下行速率、网络类型等，也可以直接指示为强弱优劣等，本发明实施例对此不作具体限定。

例如，用户终端针对音频压缩预先设置了三种编码格式，分别是 Raw格式、Speex格式、Opus格式，其中，Raw格式即原始录制的音频格式；Speex格式是针对语音的开源的音频压缩格式，基本保证在2G-4G场景下可用；Opus格式是一个完全开放的多功能的音频编解码格式，与Speex相比，压缩比可以提升20％，在丢包率较高的弱网环境下，有较好的识别效果。当确定出用户终端与云端之间的当前网络状态为网络不稳定，信号不佳时，可以将Opus格式作为音频压缩的目标编码格式。

基于上述任一实施例，步骤1110中，将语音数据流存储为第一语音文件，包括：

基于语音数据流进行音频解码并存储，得到第一语音文件，语音数据流的编码格式基于录音设备与用户终端之间的无线连接类型确定。

具体地，考虑到录音设备与用户终端之间可能通过蓝牙、WIFI (WirelessFidelity)、红外等无线连接方式进行连接，不同的无线连接类型对应的传输速率不同，因此，可以针对录音设备与用户终端之间的无线连接类型确定对应的语音数据流的编码格式，由录音设备根据确定出的编码格式对语音数据流进行音频压缩，再将音频压缩后的语音数据流传输给用户终端。此处，对应的语音数据流的编码格式可以是Raw格式、Speex格式或Opus格式等。

例如，录音设备与用户终端之间的无线连接类型为蓝牙连接，由于蓝牙的传输效率较低，可以将Opus格式作为蓝牙连接对应的语音数据流的编码格式，从而可以提高语音数据流的传输速率；又例如，录音设备与用户终端之间的无线连接类型为WIFI连接，由于WIFI 的传输效率较高，可以将Raw格式作为WIFI连接对应的语音数据流的编码格式，从而可以保证高保真的语音数据流。

随即，考虑到用户终端上安装的降噪算法需要使用原始的录音数据，用户终端在接收到编码后的语音数据流之后，可以首先对该语音数据流进行音频解码，使其还原为原始的语音数据流，再对原始的语音数据流进行存储，由此得到第一语音文件，用于后续的降噪处理。

基于上述任一实施例，图4是本发明提供的语音转写方法的流程示意图之三，如图4所示，该方法还包括：

步骤410，确定用户转写需求，用户转写需求是用户通过用户终端输入的，和/或通过录音设备输入并传输的；

步骤420，将用户转写需求上传至云端，以请求云端基于用户转写需求进行语音转写。

具体地，用户转写需求可以反映用户对当前转写效果的需求，具体可以是用户通过用户终端输入的第一转写需求，也可以是用户通过录音设备输入并传输给用户终端的第二转写需求，还可以是第一转写需求和第二转写需求二者结合的第三转写需求。

此处，本发明实施例对于用户转写需求的具体类型不作具体限定，例如，可以是待转写的语音所属的语种或者行业，也可以是语音转写时是否需要存在长短句偏好等。其中，语种的类型可以是中文、英文、韩文等，也可以进一步细分普通话、粤语、闽南语等。行业的类型可以是法律行业、教育行业、金融行业等。

当确定了用户转写需求之后，用户终端可以将用户转写需求上传至云端，云端接收到用户转写需求之后，可以根据用户转写需求进行语音转写，从而实现定制化的语音转写功能，提高用户体验。例如，用户转写需求为转写时更偏向于采用短句，则云端在得到转写结果之后，可以将转写结果中的长句进一步调整为多个短句，得到最终的转写结果，以满足用户转写需求。

基于上述任一实施例，考虑到在实际应用中，特定用户对于转写的语言和行业需求专一，对此，用户可以根据自己的使用场景，通过用户终端和/或录音设备预先输入语音转写时需要针对的语种、行业等信息，由此即可得到用户转写需求，随即，用户终端将该用户转写需求上传至云端，以供云端对语音数据流进行语音转写时参考语种、行业等信息，从而保证转写过程更加针对性，转写结果更加准确。

针对用户转写需求中包含的语种或行业，云端可以选取对应的识别子模型来执行语音转写功能。例如，当用户转写需求中仅存在一种语种时，可以直接选取该语种对应的识别子模型来执行语音转写功能；又例如，当用户转写需求中存在中文和英文两种语种时，对应的识别子模型可以是中文和英文通用的识别子模型，也可以既包括中文的识别子模型，也包括英文的识别子模型，需要说明的是，语音数据流中一段时间内的语音仅对应一种语种，例如语音数据流中前一段时间对应中文，后一段时间对应英文，则对其中前一段时间的语音数据进行语音转写时应用中文的识别子模型，对其中后一段时间的语音数据进行语音转写时应用英文的识别子模型；又例如，当用户转写需求中存在法律和金融两种行业时，对应的识别子模型可以是法律和金融通用的识别子模型，也可以既包括法律行业对应的识别子模型，也包括金融行业对应的识别子模型。

基于上述任一实施例，本发明还提供一种语音转写方法。图5是本发明提供的语音转写方法的流程示意图之四，如图5所示，该方法的执行主体是录音设备，即具有录音功能的智能设备，此处的智能设备可以是录音笔，录音笔可以包括穿戴式录音笔，例如腕式录音笔、悬挂式录音笔等，也可以包括传统笔式录音笔。该方法包括：

步骤510，获取实时录制的语音数据流；

步骤520，将语音数据流实时传输至用户终端，以请求用户终端将语音数据流转发至云端进行实时语音转写，并接收云端返回的实时转写结果。

具体地，考虑到现有的穿戴式录音笔在语音转写过程中，需要手动上传录音文件进行转写，不能满足用户快速查看转写内容的需求。针对这一问题，本发明实施例中的录音设备自身携带有通信模块，通信模块可以支持录音设备与用户终端之间进行数据传输。此处的通信模块可以是蓝牙模块、WIFI(Wireless Fidelity)模块、红外模块等可用于近距离数据传输的无线通信模块，录音设备可以同时装载上述通信模块中的一种或者多种，并且根据用户终端支持的近距离数据传输方式，应用自身装在的通信模块，与用户终端之间建立通信连接。

录音设备可以在实时录制语音数据流的过程中，将录制得到的语音数据流，通过预先建立的通信连接实时传输给用户终端，从而借助用户终端本身具备的与云端通信的功能，由用户终端将接收到的语音数据流实时转发至云端，由云端对语音数据流进行实时语音转写，得到实时转写结果，从而实现实时语音转写功能，提升语音转写效率。

具体在执行语音转写功能时，可以通过云端部署的ASR算法实现，此处的ASR算法可以是调用对于所有语种语音数据流都通用的识别模型实现语音识别，也可以是调用多个不同语种对应的识别子模型实现语音识别，在实际应用中，可以针对不同语种的语音数据流，分配对应的识别子模型进行语音转写。

需要说明的是，受限于录音设备的存储空间和计算能力，录音设备内部难以布设能够执行语音转写功能的模块，即便勉强将该模块直接布设在录音设备内部，基于该模块得到的转写结果的准确性也无法保证，而直接在录音设备内部布设能够直接与云端通信的通信模块，很大程度上会增加录音设备的制造成本。针对这一问题，本发明实施例充分利用了用户终端本身具备的与云端通信的功能，通过在录音设备上设置可用于近距离数据传输的无线通信模块，耗费更低的成本构建了录音设备与用户终端之间的数据传输通道，从而使得人手必备的用户终端可以作为录音设备与云端之间的数据中转，承接语音数据流的实时传输，并且充分应用云端服务器的强大计算能力、大容量的存储空间等优势，由云端调用高复杂度、高精准性的语音识别算法，实现对语音数据流进行语音转写，在保证语音转写的实时性的同时以低廉的成本实现了语音转写的准确性、可靠性的提升。

本发明实施例提供的方法，将录音设备实时录制的语音数据流传到手机终端，将用户终端作为录音设备与云端之间的数据中转，以更低成本的方式实现了语音数据流从录音设备到云端的实时传输；借助云端强大的语音处理能力，对语音数据流进行实时语音转写，并将实时转写结果返回给用户终端，从而提高了语音转写的效率和准确性，可以满足用户在录音过程中实时查看转写结果的需求，有助于优化用户体验。

基于上述任一实施例，步骤520中，将语音数据流实时传输至用户终端，包括：

对语音数据流进行音频压缩，并将音频压缩后的语音数据流实时传输至用户终端，音频压缩的目标编码格式基于录音设备与用户终端之间的无线连接类型确定。

具体地，考虑到录音设备与用户终端之间可能通过蓝牙、WIFI、红外等无线连接方式进行连接，不同的无线连接类型对应的传输速率不同，因此，可以针对录音设备与用户终端之间的无线连接类型确定对应的语音数据流的编码格式，即目标编码格式，由录音设备根据目标编码格式对语音数据流进行音频压缩，再将音频压缩后的语音数据流实时传输给用户终端。此处，目标编码格式可以是Raw格式、Speex 格式或Opus格式等。

例如，录音设备与用户终端之间的无线连接类型为蓝牙连接，由于蓝牙的传输效率较低，可以将Opus格式作为蓝牙连接对应的目标编码格式，从而可以提高语音数据流的传输速率；又例如，录音设备与用户终端之间的无线连接类型为WIFI连接，由于WIFI的传输效率较高，可以将Raw格式作为WIFI连接对应的目标编码格式，从而可以保证高保真的语音数据流。

基于上述任一实施例，由于穿戴式录音笔具有隐秘便捷的优势，本发明中的录音设备可以采用穿戴式录音笔，因此，本发明提供的语音转写方法，既可以满足用户会议、培训和采访等比较正式的场合，也可以满足用户紧急会议或电话记录等无感、便捷的录音场景。

以腕式录音笔为例，语音数据流的实时录制具体可以通过腕式录音笔内置的拾音器来完成。此处，拾音器可以由两个数字麦克风组成，两个数字麦克风分别分布在腕式录音笔的顶部和底部，其中一个可以采用定向麦克风，另一个采用全向麦克风。可以利用定向麦克风和全向麦克风分别进行录音，然后对定向麦克风录制的语音数据和全向麦克风录制的语音数据进行智能降噪算法处理，得到双路语音数据流。

进一步地，由于PCM是模拟信号转成数字信号时的原始编码，代表着数字音频最佳保真水平，属于无损编码，为了保证原始音频数据的最佳保真水平，录音笔可以将录制的语音数据流保存为PCM音频格式，由此即可得到双路PCM文件，从而可以提供高保真的录音存储数据，还原更真实更清晰的录音现场。

另外，腕式录音笔上还可以设置侧边键，在此基础上，腕式录音笔的录音方法可以设置如下：在灭屏状态下双击侧边键，屏幕不亮但是振动提醒用户开始录音，实现无感便捷录音；双击侧边键可以暂停录音，有效记录重点录音；长按侧边键保存录音文件。

基于上述任一实施例，本发明实施例提供了一种语音转写方法。图6是本发明提供的语音转写方法的流程示意图之五，如图6所示，该方法的执行主体包括腕式录音笔、用户终端和云端。语音转写方法的流程具体如下：

1、腕式录音笔实时录制并保存为PCM音频格式的语音数据流 (即图6中的双路PCM文件)，随即，为保证蓝牙传输速率，将双路 PCM文件压缩为质量相对较好的Opus音频格式的语音数据流(即图 6中的Opus录音文件)，从而可以在提高传输速率的同时，保证录音文件的质量；

2、将音频压缩后的语音数据流通过蓝牙实时传输至用户终端；

a、实时语音转写阶段

2.1、用户终端将语音数据流上传至云端，由云端对语音数据流进行实时语音转写，得到实时转写结果，为用户提供实时转写、准确转写的服务；

2.2、云端向用户终端下发实时转写结果，以供用户终端对实时转写结果进行展示，方便用户实时查看实时转写结果。

b、整体语音转写阶段

3、录音文件需要经过前端降噪算法时，需要使用原始无损的 PCM文件，因此需要在用户终端对语音数据流进行音频解码并存储，得到第一语音文件(即图中的双路PCM文件)；

4、用户终端应用前端降噪算法，对第一语音文件进行降噪，得到第二语音文件(即图中的降噪后的PCM)，实现更精准的转写；

5、将第二语音文件音频压缩为Opus文件，并封装为ogg格式，得到语音文件(即图中的封装ogg.Opus文件)，这样既保证录音文件可以播放，方便用户在用户终端播放降噪后的录音文件，又可以保证对云端的适用性；

6、将语音文件的整体上传至云端，云端将该语音文件的整体保存在云端服务器，方便用户可以在用户终端的云空间查看；

7、云端采用ASR技术，对语音文件的整体进行语音转写，得到整体转写结果；

8、云端下发整体转写结果至用户终端，并且通过用户终端的消息告知用户转写完成状态，用户可以及时查看整体转写结果。

另外，在执行步骤7之前，可以将用户转写需求上传至云端，此处的用户转写需求可以是用户预先针对转写的语言和行业进行的设置。在此基础上，云端即可基于用户转写需求进行语音转写，从而保证转写过程更加针对性，转写结果更加准确。实验表明，经过降噪算法的录音文件，以及特定的转写语言和行业的设置，语音转写的精确度可达98％。

此处，云端提供的语音转写服务，可支持中文普通话、多种中文方言(四川话、粤语、重庆话、贵州话、河南话、天津话、河北话、太原话、云南话、甘肃话、山东话、东北话等)，以及多种外国语(英语、日语、韩语、俄语、法语、西语、越南语等)的语音转写；另外，还可支持通用行业、法律、教育、金融、医疗、科技、体育、运营商等多种行业的语音数据的转写。

此外，上述实施例中用户终端执行的具体操作，均可由预先装设在用户终端上的用于语音转写的APP(应用程序，Application)控制实现。

本发明提供了一种穿戴式快捷录音并支持录音转文本的语音转写方法，该方法包括腕式录音笔的双麦克风组合拾音，在交互上可以实现无感录音，极大扩展了用户使用场景；腕式录音笔的双路PCM 文件通过蓝牙自动传输到手机终端，可以在手机终端播放录音；在语音转写过程中，手机终端将音频数据经过自研的降噪算法进行处理，并将降噪后的音频数据封装成ogg格式上传至云端；云端应用ASR 技术得到转写结果，并将转写结果保存在云空间；云端转写完成后下发转写结果至用户终端，用户可以用户终端上查看录音文件及转写结果，从而实现整个拾音转写功能，极大提高了拾音转写的效率，提升用户体验。

下面对本发明提供的语音转写装置进行描述，下文描述的语音转写装置与上文描述的语音转写方法可相互对应参照。

基于上述任一实施例，本发明实施例提供一种语音转写装置。图 7是本发明提供的语音转写装置的结构示意图之一，如图7所示，该装置应用于用户终端，该装置包括：

语音接收模块710，用于接收录音设备实时录制并传输的语音数据流；

语音上传模块720，用于将语音数据流上传至云端，以请求云端对语音数据流进行实时语音转写；

转写接收模块730，用于接收云端返回的实时转写结果。

本发明实施例提供的装置，将用户终端作为录音设备与云端之间的数据中转，以更低成本的方式实现了语音数据流从录音设备到云端的实时传输；借助云端强大的语音处理能力，对语音数据流进行实时语音转写，并将实时转写结果返回给用户终端，从而提高了语音转写的效率和准确性，可以满足用户在录音过程中实时查看转写结果的需求，有助于优化用户体验。

基于上述任一实施例，该装置还包括：

语音存储模块，用于将语音数据流存储为语音文件；

整体上传模块，用于确定语音数据流传输结束，则将语音文件的整体上传至云端，以请求云端对语音文件的整体进行语音转写；

整体接收模块，用于接收云端返回的整体转写结果。

基于上述任一实施例，语音存储模块包括：

存储单元，用于将语音数据流存储为第一语音文件，对第一语音文件进行降噪，得到第二语音文件；

压缩单元，用于对第二语音文件进行音频压缩，得到语音文件。

基于上述任一实施例，存储单元用于：

基于上述任一实施例，该装置还包括：

需求确定模块，用于确定用户转写需求，用户转写需求是用户通过用户终端输入的，和/或通过录音设备输入并传输的；

需求上传模块，用于将用户转写需求上传至云端，以请求云端基于用户转写需求进行语音转写。

基于上述任一实施例，本发明实施例提供一种语音转写装置。图 8是本发明提供的语音转写装置的结构示意图之二，如图8所示，该装置应用于录音设备，该装置包括：

获取模块810，用于获取实时录制的语音数据流；

传输模块820，用于将语音数据流实时传输至用户终端，以请求用户终端将语音数据流转发至云端进行实时语音转写，并接收云端返回的实时转写结果。

基于上述任一实施例，传输模块820用于：

图9示例了一种用户终端的实体结构示意图，如图9所示，该用户终端可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行上述各方法所提供的语音转写方法，该方法应用于用户终端，该方法包括：接收录音设备实时录制并传输的语音数据流；将语音数据流上传至云端，以请求云端对语音数据流进行实时语音转写；接收云端返回的实时转写结果。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

图10示例了一种录音设备的实体结构示意图，如图10所示，该录音设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030、通信总线1040和拾音器1050，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040 完成相互间的通信。拾音器1050用于实时录制语音数据流，处理器 1010可以调用存储器1030中的逻辑指令，以执行上述各方法所提供的语音转写方法，该方法应用于录音设备，该方法包括：获取实时录制的语音数据流；将语音数据流实时传输至用户终端，以请求用户终端将语音数据流转发至云端进行实时语音转写，并接收云端返回的实时转写结果。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供一种语音转写系统。图11是本发明提供的语音转写系统的结构示意图，如图11所示，该系统包括上述的用户终端100、录音设备200，以及云端300，云端300用于语音转写。

本发明实施例提供的系统，将用户终端作为录音设备与云端之间的数据中转，以更低成本的方式实现了语音数据流从录音设备到云端的实时传输；借助云端强大的语音处理能力，对语音数据流进行实时语音转写，并将实时转写结果返回给用户终端，从而提高了语音转写的效率和准确性，可以满足用户在录音过程中实时查看转写结果的需求，有助于优化用户体验。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音转写方法，该方法应用于用户终端，该方法包括：接收录音设备实时录制并传输的语音数据流；将语音数据流上传至云端，以请求云端对语音数据流进行实时语音转写；接收云端返回的实时转写结果；

或者，执行上述各方法所提供的语音转写方法，该方法应用于录音设备，该方法包括：获取实时录制的语音数据流；将语音数据流实时传输至用户终端，以请求用户终端将语音数据流转发至云端进行实时语音转写，并接收云端返回的实时转写结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音转写方法，该方法应用于用户终端，该方法包括：接收录音设备实时录制并传输的语音数据流；将语音数据流上传至云端，以请求云端对语音数据流进行实时语音转写；接收云端返回的实时转写结果；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音转写方法，其特征在于，所述方法应用于用户终端，所述方法包括：

接收录音设备实时录制并传输的语音数据流；

接收所述云端返回的实时转写结果。

2.根据权利要求1所述的语音转写方法，其特征在于，所述接收录音设备实时录制并传输的语音数据流，之后还包括：

将所述语音数据流存储为语音文件；

接收所述云端返回的整体转写结果。

3.根据权利要求2所述的语音转写方法，其特征在于，所述将所述语音数据流存储为语音文件，包括：

对所述第二语音文件进行音频压缩，得到所述语音文件。

4.根据权利要求3所述的语音转写方法，其特征在于，所述将所述语音数据流存储为第一语音文件，包括：

5.根据权利要求1至4中任一项所述的语音转写方法，其特征在于，还包括：

6.一种语音转写方法，其特征在于，所述方法应用于录音设备，所述方法包括：

获取实时录制的语音数据流；

7.根据权利要求6所述的语音转写方法，其特征在于，所述将所述语音数据流实时传输至用户终端，包括：

8.一种语音转写装置，其特征在于，所述装置应用于用户终端，所述装置包括：

转写接收模块，用于接收所述云端返回的实时转写结果。

9.一种语音转写装置，其特征在于，所述装置应用于录音设备，所述装置包括：

获取模块，用于获取实时录制的语音数据流；

10.一种用户终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述语音转写方法的步骤。

11.一种录音设备，包括：拾音器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述拾音器用于实时录制语音数据流，所述处理器执行所述程序时实现如权利要求6或7所述语音转写方法的步骤。

12.一种语音转写系统，其特征在于，包括如权利要求10所述的用户终端、如权利要求11所述的录音设备，以及云端，所述云端用于语音转写。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音转写方法的步骤。