CN110853639B

CN110853639B - 语音转写方法及相关装置

Info

Publication number: CN110853639B
Application number: CN201911014470.2A
Authority: CN
Inventors: 王志军; 孙立刚; 杨学理
Original assignee: Tianjin Xunfeiji Technology Co ltd
Current assignee: Tianjin Xunfeiji Technology Co ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-09-01
Anticipated expiration: 2039-10-23
Also published as: CN110853639A

Abstract

本申请实施例公开了一种语音转写方法及相关装置，方法包括：在检测到录音请求时，采集语音数据；获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和/或用户针对所述录音设备的操作信息；根据所述预设信息确定本次录音事件的语音转写模式；按照所述语音转写模式对所述语音数据进行语音转写文字操作。本申请不仅能够实现在录音设备上将语音转写成文字，而且能避免任何状态均采用一种转写模式而无法满足用户需求，在进行语音转写时还能够智能管控语音转写进程。

Description

语音转写方法及相关装置

技术领域

本申请涉及录音设备技术领域，具体涉及一种语音转写方法及相关装置。

背景技术

目前市面上的主流录音设备，如录音笔，绝大部分不具备语音转写功能。即使具备语音转写服务的产品，还需要通过手机APP进行转写，设备本身不能转写。这种方式需要手动连接手机，且受制于蓝牙的传输速率，转写需要很长时间，实时转写的时效性很差，延迟很严重。

发明内容

本申请实施例提供了一种语音转写方法及相关装置，可以在录音设备上实现语音转写功能，且能够根据录音设备使用的场景智能管控语音转写模式。

第一方面，本申请实施例提供一种语音转写方法，包括：

在检测到录音请求时，采集语音数据；

获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和/或用户针对所述录音设备的操作信息；

根据所述预设信息确定本次录音事件的语音转写模式；

按照所述语音转写模式对所述语音数据进行语音转写文字操作。

第二方面，本申请实施例提供一种语音转写装置，包括处理单元和通信单元，其中，

所述处理单元，用于在检测到录音请求时，通过所述通信单元采集语音数据；以及获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和/或用户针对所述录音设备的操作信息；以及根据所述预设信息确定本次录音事件的语音转写模式；以及按照所述语音转写模式对所述语音数据进行语音转写文字操作。

第三方面，本申请实施例提供一种录音设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请实施例所描述的录音设备针对采集到的语音数据，能够根据本端设备状态信息和/或用户的操作信息确定对应的语音转写模式，并按照该语音转写模式对语音数据进行语音转写文字操作。避免任何状态均采用一种转写模式而无法满足用户需求，在进行语音转写时还能够智能管控语音转写进程，有利于提高录音设备进行语音转写的灵活性和智能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音转写系统的示意图；

图2a是本申请实施例提供的一种语音转写方法的流程示意图；

图2b是本申请实施例提供的一种语音转写的结果示例界面；

图2c是本申请实施例提供的一种录音设备检测到预设事件后的界面示意图；

图2d是本申请提供的一种录音设备断开网络后的界面示意图；

图2e是本申请实施例提供的一种录音设备上传语音数据的界面示意图；

图3本申请实施例提供的一种录音设备的结构示意图；

图4本申请实施例提供的一种语音转写装置的功能单元组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。根据本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为一个语音转写系统100的示意图，该语音转写系统100包括录音设备110和云转写引擎150，所述录音设备110包括录音模块120、转写控制模块130和显示模块140，所述录音模块120连接所述转写控制模块130，所述转写控制模块130再连接所述显示模块140，录音模块120用于获取语音数据并发给转写控制模块130进行处理，转写控制模块130用于对语音数据进行处理并得到语音数据转写后的文字，显示模块140用于在录音设备上显示所述转写控制模块得到的文字，该录音设备110可以包括集成式单体设备或者多设备。云转写引擎150与录音设备110相连接，具体的，云转写引擎150通过网络与录音设备110中的转写控制模块130和显示模块140连接，用于通过转写控制模块130将录音模块120获取的语音数据上传至云转写引擎150，云转写引擎50再将上传的语音数据转写成文字，之后会将这些文字再传回录音设备110，通过显示模块140在录音设备110的屏幕上显示出语音转写的文字。显然该录音设备110可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

基于上述问题，本申请实施例提出一种语音转写方法以解决上述问题，不仅可以录音，还可以对录制的语音进行转写，为了节省用电或用户流量，录音设备可以根据用户的使用情况，设备所处的状态自动确定是否进行转写操作，下面对本申请实施例进行详细介绍。

请参阅图2a，图2a是本申请实施例提供的一种语音转写方法的流程示意图，应用于如图1所示的录音设备，如图所示，本语音转写方法包括：

S201，在检测到录音请求时，采集语音数据。

其中，本申请实施例中的动作匹配方法的执行主体可以是录音设备，录音设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该语音转写方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

录音设备在检测到录音请求后，可以通过录音模块来实时采集语音数据，并可以对采集到的语音数据进行存储。语音的采集参数可以包括但不限于采样率、采样精度、通道数以及比特率。其中，采样率是指每秒采集数据的次数；采样精度是指每次采集数据的位数；通道数是指存在几路音频；比特率是指针对编码格式，表示压缩编码后每秒的音频数据量大小。

S202，获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和/或用户针对所述录音设备的操作信息。

其中，所述录音设备的状态信息包括但不限于所述录音设备的网络连接状态，屏幕状态，电量状态以及所述录音设备的工作状态，所述的网络连接状态是指录音设备在采集到语音数据之后，所述录音设备是否已经连接到了预设网络，预设网络的网络质量是否达到预设条件，所述的屏幕状态是指所述录音设备的屏幕是否息屏和/或所述录音设备的屏幕是否显示的是转写界面，所述电量状态是指所述录音设备当前的电量水平，例如电量是否低于20％～40％，所述录音设备的工作状态是指录音设备目前正在转写或等待的需转写的语音数据共有多少。所述用户针对所述录音设备的操作信息包括但不限于用户对语音转写模式的选取，用户也可以根据需要随时切换选择的语音转写模式，和用户对语音转写速度的控制操作以及用户对语音转写进程的控制操作，所述语音转写进程是指语音转写的开始或暂停或退出。

S203，根据所述预设信息确定本次录音事件的语音转写模式。

其中，所述语音转写模式可以包括针对的语音转写的实效性，例如实时语音转写和非实时语音转写。

此外，所述语音转写模式还可以进一步包括针对语音转写的语言类型，例如普通话转文字和其他语言转文字，这里的文字不仅包括汉字，还可以包括其他国家通用的文字，例如英文、德文、日文等。当然，语音转写模式还可以包括针对语音转写的进度，例如快速语音转写或降速语音转写或等速语音转写等。

S204，按照所述语音转写模式对所述语音数据进行语音转写文字操作。

其中，所述语音转写文字操作可以使用云转写引擎提供的语音转写文字服务，使用云转写引擎能将语音数据转写成文字数据，而且能够保证转写的文字的稳定性和准确性，当然对于一些短小，常见的语音数据也可以通过本地的转写控制模块进行语音转写操作，转写完成后还可以再次通过云转写引擎对本地转写后的文件进行校正或补充。

举一个例子，如图2b所示，图2b是本申请实施例提供的一种语音转写的结果示例界面，如图所示，图中所示的录音设备的语音转写模式为实时语音转写模式，因此当录音设备的录音模块获取了实时语音数据后，就能通过录音设备的转写控制模块和云转写引擎立刻将获取的语音转写成了文字，并根据现实模块在录音设备的屏幕上显示出来。

可以看出，本申请实施例中，录音设备在采集到语音数据后，会根据录音设备的状态信息和/或用户的操作信息来确定语音转写模式，再按照选择的语音转写模式进行语音转写文字操作，实现了录音设备不仅是录音，还能根据录制的语音转写文字的功能，而且录音设备具有的多种语音转写模式不仅使得转写过程更加灵活智能，而且还能够达到省电和节省流量的目的。

在一个可能的实例中，所述语音转写模式包括实时语音转写和非实时语音转写。

其中，所述实时语音转写包括边录制语音数据边转写文字，并在屏幕上显示出来，也就是说录制语音数据和将语音数据转写成文字是一起进行的，当然，这里的一起也可以有时间差异，例如已经录制了2分钟后再对录制的语音数据进行语音转写文字操作，不管转写的语音数据内容是从之前的2分钟开始的，还是同步当前的语音数据进行转写文字，只要在一次录音未完成时就开始对本次录音的内容进行转写文字操作，都可以看作是在实时语音转写模式下进行的，所述非实时语音转写包括录制完成后再对录制的语音数据进行语音转写文字操作，这里的非实时语音转写不仅包括对刚录制完成的语音数据立即进行语音转写文字操作，还包括对之前保存的语音数据进行语音转写文字操作。

可见，本实例中，语音转写模式是针对的语音转写的实效性，将语音转写模式设定为实时语音转写和非实时语音转写，实时语音转写模式的时效性好，效率高，非实时语音转写模式时间更灵活，文字准确率更高。这样可以使得录音设备能够根据具体的场景条件来实现语音转写文字功能，使得录音设备的使用能够更加灵活和人性化，例如对于不急切需要且对准确率要求高的语音数据，就可以采用非实时语音转写模式对于实效性和效率有较高要求的语音数据，可以采用实时语音转写模式。

在一个可能的实例中，所述语音转写模式包括实时语音转写；所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件。

其中，录音设备连接的预设网络可以是连接的Wi-Fi网络或蜂窝通信网络或蓝牙，保证在进行语音转写文字操作时能够使得录音设备连接上云转写引擎，这里的预设条件是指预设网络的网络质量大于预设网络质量，网络质量的评价指标包括但不限于带宽、传输延时等，录音设备满足该预设条件时本端与云转写引擎直接的信息交互能够流畅进行，若语音转写文字操作是在本地转写控制模块操作时，所述录音设备还可以通过连接的预设网络从其他网站上获取辅助信息。

当在进行实时语音转写时，若突然断开连接的预设网络或网络的质量无法达到预设条件，则语音转写控制模块会通过录音设备提示用户网络不稳定或连接出问题，并且对录制的语音数据进行实时保存，等到再次连接上预设网络或网络质量达到预设条件时，再重新进行语音转写文字操作，可以根据用户的选择或是默认设置选择同步当前的语音数据进行转写文字还是从保存的语音数据开始转写文字。

可见，本实例中，实时语音转写模式需要的条件包括录音设备连接预设网络，且网络质量达到预设条件，这样可以使得在进行语音转写文字操作时，语音设备能够快速的获取相关信息，保障语音转写文字的同步进行。

在一个可能的实例中，所述语音转写模式包括实时语音转写；所述预设信息包括所述录音设备的设备状态信息和用户针对所述录音设备的操作信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件，所述操作信息为针对本端设备显示的实时语音转写模式的选取操作。

其中，这里的实时语音转写模式的选择依据不仅包括设备连接预设网络且网络质量达到预设条件，还包括用户在选择语音转写模式时，选择的是实时语音转写模式。

可见，本实例中，根据客观的网络状态和用户的选择确定语音转写模式为实时语音转写模式，可以使得选取的语音转写模式既能实现相应的功能，又能满足用户需求和意愿。

在一个可能的实例中，在检测到预设事件时，暂停所述语音转写文字操作，所述预设事件包括以下任意一种：息屏事件、退出事件、以及持续转写时长大于预设时长、当前转写应用为非活跃应用；在检测到继续转写请求时，恢复所述语音转写文字操作。

其中，检测预设事件是为了能够在进行实时语音转写时，检测到预设事件发生就暂停语音转写文字操作。所述息屏事件包括在转写文字过程中，录音设备的屏幕黑屏时长达到一定的时间，例如黑屏超过5－10分钟，这里的黑屏可以是检测到用户的息屏操作而黑屏，还可以是录音设备的显示休眠时间到了而黑屏。

其中，所述退出事件包括检测到用户的退出转写文字的操作，也可以包括当前语音转写文字进程出错而造成的强制退出。

其中，所述持续转写时长大于预设时长包括对同一个语音转写文字进程已经持续了一定时间，例如持续转写了5－10分钟，则停止当前的实时转写。

其中，所述当前转写应用为非活跃应用包括语音转写操作从前台切换到了后台运行。

其中，检测到的继续转写请求可以是通过弹出页面的方式获取用户的继续转写请求，若预设事件是息屏事件，还可以仅是用户点亮黑屏的屏幕就认为检测到了继续转写请求，若预设事件是退出事件，则当用户再次回到语音转写界面时就可以认为检测到了继续转写请求，从而继续转写语音数据。

举一个例子，如图2c，图2c是本申请实施例提供的一种录音设备检测到预设事件后的界面示意图，如图所示，预设事件以持续转写时长大于5分钟，语音转写模式以实时语音转写为例，当录音设备110已经持续转写了5分钟时，录音设备就会暂停语音转写，并且会以弹出页面方式在录音设备的屏幕上显示“是否继续转写”的界面，提示用户选择，当用户选择“是”时，录音设备就会继续进行实时语音转写，若用户选择“否”，则退出语音转写操作，录音设备仅会录制语音，而不会对语音数据进行转写。

可见，本实例中，在检测到相应的预设事件时就会暂停语音实时转写，需要在检测到继续转写请求时才会继续转写语音数据，这样不仅可以节省录音设备的电量，还可以节省用户的流量。

在一个可能的实例中，所述语音转写模式包括非实时语音转写；所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备无网络连接，或者，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量不满足预设条件。

其中，本实例的语音转写模式是非实时语音转写，这时候的录音设备的设备状态信息包括录音设备没有连接网络，或者是连接的网络的网络质量不满足预设条件，这里的预设条件可以通过网络速率或网络信号强度来衡量。若在开始进行语音转写时录音设备就没有连接网络或网络质量不满足预设条件，则转写控制模块会通过录音设备提示用户连接网络，若是在语音转写过程中出现的断开网络或网络质量不满足预设条件的情况，录音设备则会提示用户网络连接异常，等到设备连接到预设网络，且网络质量满足预设条件时，再继续进行未完成的语音转写文字的操作。

举一个例子，如图2d所示，图2d是本申请提供的一种录音设备断开网络后的界面示意图，如图所示，在录音设备110在对保存的语音数据进行非实时语音转写模式下的语音转写时，当在转写过程中，录音设备的网络突然断开，则语音转写暂停，在录音设备的屏幕上会出现一个提示界面，提示用户网络连接异常，直到录音设备的网络连接恢复时，语音转写才会继续进行。

可见，本实例中，根据是否连接网络和网络质量来判断是否采用非实时语音转写模式，可以使得语音转写能顺利进行且对转写出来的文字的准确率有较高的保障。

在一个可能的实例中，所述语音转写模式包括非实时语音转写；所述预设信息仅包括用户针对所述录音设备的操作信息，所述操作信息为针对本端设备显示的非实时语音转写功能模式的选取操作。

其中，本实例中的语音转写模式为非实时语音转写的条件包括用户在选择语音转写模式时选择了非实时语音转写模式，只要用户做出了选择，不管设备是否连接网络和设备连接的网络的网络质量如何，都将语音转写模式确定为非实时语音转写模式。

可见，本实例中，根据用户的操作信息确定语音转写模式，可以使得用户的意愿得到最大程度的满足，选择出的语音转写模式也是符合用户预期的。

在一个可能的实例中，所述语音数据包括内容相同的第一路音频数据和第二路音频数据，所述第一路音频数据的数据量小于所述第二路音频数据的数据量；所述按照所述语音转写模式对所述语音数据进行语音转写文字操作，包括：向语音转写服务器发送携带所述第一路音频数据的第一语音转写请求，所述第一语音转写请求用于所述语音转写服务器执行以下操作：针对所述第一路音频数据进行语音转写得到第一文本数据，向所述录音设备发送所述第一文本数据；接收来自所述服务器的所述第一文本数据。

其中，所述第一路音频数据和所述第二路音频数据的语音内容相同是指所述第一路音频数据和所述第二路音频数据是通过采集同一声源得到的语音数据。在具体实现中，第一路音频数据用于边采集边上传的实时语音转写模式，第二路音频数据用于在语音数据采集结束后上传的非实时语音转写模式。所述第一路音频数据的数据量小于所述第二路音频数据的数据量，以使实时语音转写模式可以节省流量，这里的数据量与采样频率、采样位数和声道数有关。例如，可以采用16KHz/16bit进行采集，一分钟的第一路音频数据的数据量大小只有2M。

可见，本实例中，在实时语音转写模式下，转写数据量较小的第一路音频数据，不仅能够准确的将第一路音频数据转写成文字并在屏幕上显示出来，还能节省流量。

在一个可能的实例中，所述按照所述语音转写模式对所述语音数据进行语音转写文字操作之后，所述方法还包括：向所述语音转写服务器发送携带所述第二路音频数据的第二语音转写请求，所述第二语音转写请求用于所述语音转写服务器执行以下操作：针对所述第二路音频数据进行语音转写得到第二文本数据，向所述录音设备发送所述第二文本数据；接收来自所述服务器的所述第二文本数据；根据所述第二文本数据校正所述第一文本数据，得到校正后的目标文本数据。

其中，对第二路音频数据的语音转写是在非实时语音转写模式下进行的，对同一个声源作两次不同语音转写模式下的语音转写，得到第一文本数据和第二文本数据，因为第二路音频数据的数据量要比第一路音频数据的数据量大，所以得到的第二文本数据要比第一文本数据准确和丰富，所以得到的目标文本数据是用第二文本数据对第一文本数据进行校正后的文本数据。

可见，本实例中，在非实时语音转写模式下转写数据量更高的第二路音频数据，可以节省时间，保证第二文本数据的准确率，利用第二文本数据校正第一文本数据以得到目标文本数据，可以使得到的目标文本数据更加准确。

在一个可能的实例中，所述方法还包括：显示当前处理的音频数据的顺序和进度，所述当前处理的音频数据包括所述第一路音频数据或所述第二路音频数据；在检测到针对所述当前处理的音频数据中的目标音频数据的加速转写请求时，调整所述目标音频数据的上传顺序和转写优先级以实现加速转写。

其中，语音转写文字是在云转写引擎中实现的，因此需要先将音频数据上传至云转写引擎，在检测到用户的加速请求时，若需加速的音频数据还未上传至云转写引擎，则将该音频数据的上传顺序提前，以使得该音频数据能快速的上传至云转写引擎进行语音转写，若需要加速的音频数据已经上传至云转写引擎，则将该音频数据的转写优先级设为最高级，使得在云转写引擎中优先处理该音频数据。

举一个例子，如图2e，图2e是本申请实施例提供的一种录音设备上传语音数据的界面示意图，如图所示，录音设备在进行语音转写操作时，需要通过网络将录音设备获取的语音数据上传至云转写引擎，并在云转写引擎中完成语音转写，图中共有三组音频数据需要上传，按照顺序依次本应该第一个上传音频数据1，但当录音设备接收到加速转写请求时，就会将用户选择的音频数据2的上传顺序调整至第一个，以使得音频数据2能够最快上传至云转写引擎。

可见，本实例中，根据用户的操作可以通过调整上传顺序和转写优先级来实现对某一音频数据的语音转写文字的加速，这样可以更加贴近用户需求使得用户的体验感提高。

与上述图2a所示的实施例一致的，请参阅图3，图3是本申请实施例提供的一种录音设备300的结构示意图，如图所示，所述录音设备300包括应用处理器310、存储器320、通信接口330以及一个或多个程序321，其中，所述一个或多个程序321被存储在上述存储器320中，并且被配置由上述应用处理器310执行，所述一个或多个程序321包括用于执行以下步骤的指令；

在检测到录音请求时，采集语音数据；获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和/或用户针对所述录音设备的操作信息；根据所述预设信息确定本次录音事件的语音转写模式；按照所述语音转写模式对所述语音数据进行语音转写文字操作。

可见，本申请实施例，录音设备在采集到语音数据后，会根据录音设备的状态信息和/或用户的操作信息来确定语音转写模式，在按照选择的语音转写模式进行语音转写文字操作，实现了录音设备不仅是录音，还能根据录制的语音转写文字的功能，而且根据用户的选择和设备的状态确定具体的语音转写文字的模式，不仅使得转写过程更加灵和智能，而且还能够达到省电和节省流量的目的。

在一个可能的示例中，所述语音转写模式包括实时语音转写和非实时语音转写。

在一个可能的示例中，所述一个或多个程序321还包括用于执行以下步骤的指令：所述语音转写模式包括实时语音转写；所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件。

在一个可能的示例中，所述一个或多个程序321还包括用于执行以下步骤的指令：所述语音转写模式包括实时语音转写；所述预设信息包括所述录音设备的设备状态信息和用户针对所述录音设备的操作信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件，所述操作信息为针对本端设备显示的实时语音转写功能模式的选取操作。

在一个可能的示例中，所述一个或多个程序321还包括用于执行以下步骤的指令：在检测到预设事件时，暂停所述语音转写文字操作，所述预设事件包括以下任意一种：息屏事件、退出事件、以及持续转写时长大于预设时长、当前转写应用为非活跃应用；在检测到继续转写请求时，恢复所述语音转写文字操作。

在一个可能的示例中，所述一个或多个程序321还包括用于执行以下步骤的指令：所述语音转写模式包括非实时语音转写；所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备无网络连接，或者，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量不满足预设条件。

在一个可能的示例中，所述一个或多个程序321还包括用于执行以下步骤的指令：所述语音转写模式包括非实时语音转写；所述预设信息仅包括用户针对所述录音设备的操作信息，所述操作信息为针对本端设备显示的非实时语音转写功能模式的选取操作。

在一个可能的示例中，所述一个或多个程序321还包括用于执行以下步骤的指令：所述语音数据包括内容相同的第一路音频数据和第二路音频数据，所述第一路音频数据的数据量小于所述第二路音频数据的数据量；所述按照所述语音转写模式对所述语音数据进行语音转写文字操作，包括：向语音转写服务器发送携带所述第一路音频数据的第一语音转写请求，所述第一语音转写请求用于所述语音转写服务器执行以下操作：针对所述第一路音频数据进行语音转写得到第一文本数据，向所述录音设备发送所述第一文本数据；接收来自所述服务器的所述第一文本数据。

在一个可能的示例中，在所述按照所述语音转写模式对所述语音数据进行语音转写文字操作之后，所述一个或多个程序321还包括用于执行以下步骤的指令：向所述语音转写服务器发送携带所述第二路音频数据的第二语音转写请求，所述第二语音转写请求用于所述语音转写服务器执行以下操作：针对所述第二路音频数据进行语音转写得到第二文本数据，向所述录音设备发送所述第二文本数据；接收来自所述服务器的所述第二文本数据；根据所述第二文本数据校正所述第一文本数据，得到校正后的目标文本数据。

在一个可能的示例中，所述一个或多个程序321还包括用于执行以下步骤的指令：显示当前处理的音频数据的顺序和进度，所述当前处理的音频数据包括所述第一路音频数据或所述第二路音频数据；在检测到针对所述当前处理的音频数据中的目标音频数据的加速转写请求时，调整所述目标音频数据的上传顺序和转写优先级以实现加速转写。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，录音设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对录音设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图4是本申请实施例中所涉及的语音转写装置400的功能单元组成框图。该语音转写装置400应用于录音设备，所述录音设备包括处理单元401和通信单元402，其中，

所述处理单元401，用于在检测到录音请求时，通过所述通信单元采集语音数据；以及获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和/或用户针对所述录音设备的操作信息；以及根据所述预设信息确定本次录音事件的语音转写模式；以及按照所述语音转写模式对所述语音数据进行语音转写文字操作。

其中，所述语音转写装置400还可以包括存储单元403，用于存储录音设备的程序代码和数据。所述处理单元401可以是处理器，所述通信单元402可以是内部通信接口，存储单元403可以是存储器。

在一个可能的示例中，所述处理单元401，还用于所述语音转写模式包括实时语音转写；所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件。

在一个可能的示例中，所述处理单元401，还用于所述语音转写模式包括实时语音转写；所述预设信息包括所述录音设备的设备状态信息和用户针对所述录音设备的操作信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件，所述操作信息为针对本端设备显示的实时语音转写功能模式的选取操作。

在一个可能的示例中，所述处理单元401，还用于在检测到预设事件时，暂停所述语音转写文字操作，所述预设事件包括以下任意一种：息屏事件、退出事件、以及持续转写时长大于预设时长、当前转写应用为非活跃应用；在检测到继续转写请求时，恢复所述语音转写文字操作。

在一个可能的示例中，所述处理单元401，还用于所述语音转写模式包括非实时语音转写；所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备无网络连接，或者，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量不满足预设条件。

在一个可能的示例中，所述处理单元401，还用于所述语音转写模式包括非实时语音转写；述预设信息仅包括用户针对所述录音设备的操作信息，所述操作信息为针对本端设备显示的非实时语音转写功能模式的选取操作。

在一个可能的示例中，所述处理单元401，还用于所述语音数据包括内容相同的第一路音频数据和第二路音频数据，所述第一路音频数据的数据量小于所述第二路音频数据的数据量；所述按照所述语音转写模式对所述语音数据进行语音转写文字操作，包括：向语音转写服务器发送携带所述第一路音频数据的第一语音转写请求，所述第一语音转写请求用于所述语音转写服务器执行以下操作：针对所述第一路音频数据进行语音转写得到第一文本数据，向所述录音设备发送所述第一文本数据；接收来自所述服务器的所述第一文本数据。

在一个可能的示例中，在所述按照所述语音转写模式对所述语音数据进行语音转写文字操作之后，所述处理单元401，还用于向所述语音转写服务器发送携带所述第二路音频数据的第二语音转写请求，所述第二语音转写请求用于所述语音转写服务器执行以下操作：针对所述第二路音频数据进行语音转写得到第二文本数据，向所述录音设备发送所述第二文本数据；接收来自所述服务器的所述第二文本数据；根据所述第二文本数据校正所述第一文本数据，得到校正后的目标文本数据。

在一个可能的示例中，所述处理单元401，还用于显示当前处理的音频数据的顺序和进度，所述当前处理的音频数据包括所述第一路音频数据或所述第二路音频数据；在检测到针对所述当前处理的音频数据中的目标音频数据的加速转写请求时，调整所述目标音频数据的上传顺序和转写优先级以实现加速转写。

可以理解的，由于方法实施例与装置实施例为相同技术构思的不同呈现形式，因此，本申请方法实施例部分的内容应同步适配于装置实施例部分，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括录音设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括录音设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。根据这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音转写方法，其特征在于，应用于录音设备，所述方法包括：

在检测到录音请求时，采集语音数据；

获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和用户针对所述录音设备的操作信息，或者，包括所述录音设备的设备状态信息；所述录音设备的设备状态信息包括所述录音设备的网络连接状态；

根据所述预设信息确定本次录音事件的语音转写模式，所述语音转写模式包括实时语音转写和非实时语音转写，所述实时语音转写包括第一录制语音数据操作和第一语音转写文字操作，且所述第一语音转写文字操作的时间起点处于所述第一录制语音数据操作的时间起点和时间终点之间，所述非实时语音转写包括第二录制语音数据操作和第二语音转写文字操作，且所述第二录制语音数据操作的时间终点在所述第二语音转写文字操作的时间起点之前；

按照所述语音转写模式对所述语音数据进行语音转写文字操作，所述语音转写文字操作包括使用云转写引擎提供的语音转写文字服务将语音数据转写成文字数据和/或本地的转写控制模块将常见的语音数据转写成文字数据。

2.根据权利要求1所述的方法，其特征在于，所述语音转写模式包括实时语音转写；

所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件。

3.根据权利要求1所述的方法，其特征在于，所述语音转写模式包括实时语音转写；

所述预设信息包括所述录音设备的设备状态信息和用户针对所述录音设备的操作信息，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量满足预设条件，所述操作信息为针对本端设备显示的实时语音转写功能模式的选取操作。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

在检测到预设事件时，暂停所述语音转写文字操作，所述预设事件包括以下任意一种：息屏事件、退出事件、持续转写时长大于预设时长、当前转写应用为非活跃应用；

在检测到继续转写请求时，恢复所述语音转写文字操作。

5.根据权利要求1所述的方法，其特征在于，所述语音转写模式包括非实时语音转写；

所述预设信息仅包括所述录音设备的设备状态信息，所述设备状态信息为所述录音设备无网络连接，或者，所述设备状态信息为所述录音设备已连接预设网络，且所述预设网络的网络质量不满足预设条件。

6.根据权利要求1所述的方法，其特征在于，所述语音转写模式包括非实时语音转写；

所述预设信息仅包括用户针对所述录音设备的操作信息，所述操作信息为针对本端设备显示的非实时语音转写模式的选取操作。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述语音数据包括内容相同的第一路音频数据和第二路音频数据，所述第一路音频数据的数据量小于所述第二路音频数据的数据量；

所述按照所述语音转写模式对所述语音数据进行语音转写文字操作，包括：

向语音转写服务器发送携带所述第一路音频数据的第一语音转写请求，所述第一语音转写请求用于所述语音转写服务器执行以下操作：针对所述第一路音频数据进行语音转写得到第一文本数据，向所述录音设备发送所述第一文本数据；

接收来自所述服务器的所述第一文本数据。

8.根据权利要求7所述的方法，其特征在于，所述按照所述语音转写模式对所述语音数据进行语音转写文字操作之后，所述方法还包括：

向所述语音转写服务器发送携带所述第二路音频数据的第二语音转写请求，所述第二语音转写请求用于所述语音转写服务器执行以下操作：针对所述第二路音频数据进行语音转写得到第二文本数据，向所述录音设备发送所述第二文本数据；

接收来自所述服务器的所述第二文本数据；

根据所述第二文本数据校正所述第一文本数据，得到校正后的目标文本数据。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

显示当前处理的音频数据的顺序和进度，所述当前处理的音频数据包括所述第一路音频数据或所述第二路音频数据；

在检测到针对所述当前处理的音频数据中的目标音频数据的加速转写请求时，调整所述目标音频数据的上传顺序和转写优先级以实现加速转写。

10.一种语音转写装置，其特征在于，应用于录音设备，所述装置包括处理单元和通信单元，其中，

所述处理单元，用于在检测到录音请求时，通过所述通信单元采集语音数据；以及获取所述录音设备的预设信息，所述预设信息包括所述录音设备的设备状态信息和用户针对所述录音设备的操作信息，或者，包括所述录音设备的设备状态信息；所述录音设备的设备状态信息包括所述录音设备的网络连接状态；以及根据所述预设信息确定本次录音事件的语音转写模式，所述语音转写模式包括实时语音转写和非实时语音转写，所述实时语音转写包括第一录制语音数据操作和第一语音转写文字操作，且所述第一语音转写文字操作的时间起点处于所述第一录制语音数据操作的时间起点和时间终点之间，所述非实时语音转写包括第二录制语音数据操作和第二语音转写文字操作，且所述第二录制语音数据操作的时间终点在所述第二语音转写文字操作的时间起点之前；以及按照所述语音转写模式对所述语音数据进行语音转写文字操作，所述语音转写文字操作包括使用云转写引擎提供的语音转写文字服务将语音数据转写成文字数据和/或本地的转写控制模块将常见的语音数据转写成文字数据。

11.一种录音设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-9任一项所述的方法中的步骤的指令。

12.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-9任一项所述的方法。