CN114898747A

CN114898747A - 语音转写方法、装置、设备以及存储介质

Info

Publication number: CN114898747A
Application number: CN202210468744.0A
Authority: CN
Inventors: 黄伟琦; 夏帅; 江鹏; 唐睿坚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-12

Abstract

本公开提供了一种语音转写方法、装置、设备以及存储介质，涉及数据处理领域，尤其涉及语音技术领域。具体实现方案为：确定在第一网络环境下，上传待转写音频所占用的第一时长；在第一时长大于预设时长的情况下，从接收的转写请求中获取待转写音频的存储地址，其中，存储地址为在第二网络环境下，接收待转写音频并存储待转写音频的存储空间所对应的存储地址，第一网络环境下的第一数据传输速度小于第二网络环境下的第二数据传输速度；从存储地址拉取对应的待转写音频；对待转写音频进行语音转写。本公开解决了在有网络限制的环境下无法实现大音频文件的语音转写的技术问题。

Description

语音转写方法、装置、设备以及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及语音技术领域。具体而言，涉及一种语音转写方法、装置、设备以及存储介质。

背景技术

在内网环境下，对服务间请求的连接时长、请求内容的大小有一定的限制。相关技术中，在这种情况下进行大音频文件的转文字服务时，通过直接上传音频文件进行语音转写，再获取对应的转写结果，在有网络限制的环境下无法实现大音频文件的语音转写。

发明内容

本公开提供了一种用于语音转写方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音转写方法，包括：确定在第一网络环境下，上传待转写音频所占用的第一时长；在第一时长大于预设时长的情况下，从接收的转写请求中获取待转写音频的存储地址，其中，存储地址为在第二网络环境下，接收待转写音频并存储待转写音频的存储空间所对应的存储地址，第一网络环境下的第一数据传输速度小于第二网络环境下的第二数据传输速度；从存储地址拉取对应的待转写音频；对待转写音频进行语音转写。

可选地，从存储地址拉取对应的待转写音频，包括：调用转写请求对应的转写接口，并从转写接口中的存储地址中拉取待转写音频。

可选地，对待转写音频进行语音转写，包括：获取待转写音频的处理状态；在处理状态为全部转写完成的情况下，确定待转写音频转写结束。

可选地，从转写接口中的存储地址中拉取待转写音频之后，方法还包括：接收转写接口返回的事件标识，其中，每次进行语音转写的待转写音频与事件标识一一对应。

可选地，对待转写音频进行语音转写，包括：接收目标对象通过事件标识发起的对转写详情接口的轮询请求；返回转写详情接口中的对待转写音频的处理状态；在处理状态为处理完成的情况下，将转写结果返回至目标对象。

可选地，在处理状态为以下情况之一的情况下，拒绝接收目标对象通过事件标识发起的对转写详情接口的轮询请求，包括：待转写音频处理失败、待转写音频处理成功、轮询请求达到轮询的第一预设条件。

可选地，还包括：在存储地址中的待转写音频为多个音频片段的情况下，分别获取多个音频片段的标识；从存储地址拉取对应的待转写音频包括：依次从存储地址拉取多个音频片段，并在拉取到的音频片段的标识为结束标识的情况下，确定待转写音频已经拉取完毕。

可选地，从存储地址拉取对应的待转写音频，包括：在存储地址中的待转写音频为单个连续音频的情况下，从存储地址拉取待转写音频，并在待转写音频满足以下任一条件的情况下，确定待转写音频读取完毕：已读取的待转写音频的数据量达到预设数据量；待转写音频的读取时长大于预设时长。

可选地，对待转写音频进行语音转写，包括：按照预设方式对待转写音频进行分组，得到多组待转写子音频，其中，预设方式为流式读取中按照单位数据量对待转写音频进行分组，多组待转写子音频之间存在先后顺序；依据先后顺序依次读取多组待转写子音频；对多组待转写子音频进行语音转写，得到与多组待转写子音频对应的多组转写结果。

根据本公开的另一方面，提供了一种用于语音转写的交互方法，包括：展示人机交互界面，其中，人机交互界面中设置有第一区域，第一区域用于展示从存储地址中拉取的待转写音频，存储地址为从接收的转写请求中获取的待转写音频在存储空间的存储地址；响应于对第一区域中的目标控件的触发指令，采用上述语音转写方法对待转写音频进行转写，并展示转写结果。

可选地，人机交互界面中设置有第二区域，第二区域用于展示对待转写音频的转写过程进行配置的配置属性。

根据本公开的另一方面，提供了一种语音转写装置，包括：确定模块，用于确定在第一网络环境下，上传待转写音频所占用的第一时长；获取模块，用于在第一时长大于预设时长的情况下，从接收的转写请求中获取待转写音频的存储地址，其中，存储地址为在第二网络环境下，由存储空间接收待转写音频并存储待转写音频的存储地址，第一网络环境下的第一数据传输速度小于第二网络环境下的第二数据传输速度；拉取模块，用于从存储地址拉取对应的待转写音频；转写模块，用于对待转写音频进行语音转写。

根据本公开的另一方面，提供了一种用于语音转写的交互装置，包括：第一展示模块，用于展示人机交互界面，人机交互界面中设置有第一区域，第一区域用于展示从存储地址中拉取的待转写音频，存储地址为从接收的转写请求中获取的待转写音频在存储空间的存储地址；处理模块，用于响应于对第一区域中的目标控件的触发指令，采用上述语音转写方法对待转写音频进行转写；第二展示模块，用于展示转写结果。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法。

根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述语音转写方法。

根据本公开的再一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的一种语音转写方法的流程图；

图2是根据本公开第二实施例的确定待转写音频转写结束的流程图；

图3是根据本公开第二实施例的获取待转写音频的处理状态的流程图；

图4是根据本公开第二实施例的确定拉取全部的待转写音频的流程图；

图5是根据本公开第二实施例的对多组待转写音频进行语音转写的流程图；

图6是根据本公开第三实施例的一种语音转写装置的结构图；

图7a是根据本公开第四实施例的一种用于语音转写的交互界面示意图；

图7b是根据本公开第四实施例的一种语音转写的流程示意图；

图7c是根据本公开第五实施例的一种用于语音转写的交互装置的结构图；

图8是用来实现本公开实施例的语音转写方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

统一资源定位系统(uniform resource locator，url)：是因特网的万维网服务程序上用于指定信息位置的表示方法。

弱网络环境或网络限制的环境包括但不限于：部署在高速移动的交通工具上的通信网络、部署的各种WIFI热点、部署在远离市区或者特殊地域中的通信网络等等。

在一些公司的内网环境下，对服务间请求的连接时长、请求内容的大小有一定的限制。在这种状况下，将大音频文件以离线形式转写成文字时，若通过直接上传大音频文件直接进行语音转文字，在有网络环境限制的条件下无法实现。而相关技术中的语音转写方案均是直接将音频上传后再获取对应的转写结果。

为了解决上述技术问题，本公开实施例提供了相应的解决方案，以下详细说明。

实施例1

本公开实施例，提供了一种用于语音转写方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本公开实施例的一种语音转写方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，确定在第一网络环境下，上传待转写音频所占用的第一时长；

在本公开的一些实施例中，第一网络环境可以指当前客户端所处的环境为网络受限环境或弱网络环境，客户端为用于实现音频转写服务的客户端，假设第一网络环境下的网速是1M/秒，待转写音频的文件大小如果超过60M，则代表至少需要1分钟才能完成将待转写音频上传至语音转写服务侧进行语音转写服务，这里的1分钟对应步骤S102的第一时长，而很多环境中不一定允许一个接口占用1分钟的时间，则60M以上的音频文件都可认为是大音频文件。在这种情况下，需要获取待转写音频的存储地址，从存储地址中拉取对应的待转写音频，完成音频转文字的操作。

需要说明的是，上述仅为举例说明待转写音频文件可能是大音频文件的情况之一，对于大音频文件的具体数值并不做限定，判断其是否为大音频文件的可根据实际情况而定。

步骤S104，在第一时长大于预设时长的情况下，从接收的转写请求中获取待转写音频的存储地址，其中，存储地址为在第二网络环境下，接收待转写音频并存储待转写音频的存储空间所对应的存储地址，其中，第一网络环境下的第一数据传输速度小于第二网络环境下的第二数据传输速度；

在步骤S104中，假设一个接口允许请求的最大时长为5秒，这里的接口允许请求的最大时长即为预设时长，以上述例子为例，假设第一网络环境下的网速是1M/秒，待转写音频的文件大小为60M，对应的第一时长为1分钟，其远超过预设时长，在这种情况下，需要从接收的转写请求中获取待转写音频的存储地址，从存储地址中拉取对应的待转写音频，完成音频转文字的操作。

需要说明的是，步骤S104中的第二网络环境为无网络限制的环境，在第二网络环境中的网速高于第一网络环境中的网速，即第二数据传输速度高于第一数据传输速度。在从接收的转写请求中获取待转写音频的存储地址之前，用户先把待转写音频在第二网络环境中上传至存储空间，并获取待转写音频在存储空间的存储地址，且该存储空间是可被访问的。

步骤S106，从存储地址拉取对应的待转写音频；

例如，从存储地址对应的存储空间中去拉取对应的音频数据，该存储空间可以为网络侧的存储介质，也可以是虚拟存储空间。

步骤S108，对待转写音频进行语音转写。

在本公开实施例中，通过上述步骤，在第一网络环境下，上传待转写音频所需的第一时长大于预设时长时，确定该待转写音频文件在第一网络环境下为大音频文件，此时语音转写服务侧需从接收的转写请求中获取待转写音频的存储地址，从存储地址中拉取对应的待转写音频，对拉取的待转写音频进行语音转文字的操作，并保存对应的转写结果，从而达到从待转写音频的存储地址中拉取对应的待转写音频的目的，以解决在网络限制的环境中无法实现将大音频转成文字的技术效果。

实施例2

本实施例是对实施例1中的语音转写方法的进一步限定，具体地，在上述语音转写方法中的步骤S106中，从存储地址拉取对应的待转写音频，具体包括如下步骤：调用转写请求对应的转写接口，将存储地址作为参数传入转写接口，并从转写接口中的存储地址中拉取待转写音频。

在本公开实施例中，待转写音频被保存在存储空间中，例如网盘、内网搭建的NAS存储空间、NFS存储空间等，由存储空间提供一个存储地址，即url，用户可通过url下载对应的待转写音频。

需要说明的是，待转写音频在存储空间的存储形式不做限定，该存储形式是由存储空间决定，例如存储在HDFS中时，可能会把音频文件分为多个小块，每块包含多个数据备份，而存储在NFS中时可能只是简单地存储一个完整的音频文件。但无论使用何种存储形式，只需保证用户可通过url获取到待转写音频即可。

在另一种可选的实施例中，由于用户直接向语音转写服务侧发起请求具有请求时长的限制，所以无法直接上传大音频文件，因此，用户在调用转写接口时将url通过接口传给语音转写服务侧，因为语音转写服务侧一般可以允许有更长的请求时长，且来自语音转写服务侧的请求也更为安全，然后语音转写服务侧根据此url可下载对应的音频文件。

需要说明的是，在除语音转写服务之外的其他场景中，在当前网络环境下无法直接上传服务侧请求对应的服务的情况下，均可采用上述方式，此次不做限定。

在用户调用转写接口时，该转写接口将待转写音频的存储地址url在参数中传入，该参数在本方案中为http请求时包含在请求体里的http参数，且在本公开实施例中的请求参数仅包括待转写音频的url。需要说明的是，该请求参数的整体为json格式，放在http的主体(body)里，该参数可以为如下格式：

{

“audioFileUrl”:“https://baidu.com/file/audio/sample.wav”

}

在本公开实施例中，转写接口的本质是一个网络服务接口，可通过http请求输入特定的内容(比如待转写音频的存储地址url)后，得到特定的结果，该结果可以为是否请求成功。需要说明的是，本公开实施例中的转写接口为自定义接口，该接口主要实现的功能是根据待转写音频的存储地址，拉取对应的待转写音频。

在上述语音转写方法中的步骤S108中，对待转写音频进行语音转写，如图2所示的流程图具体包括如下步骤：

步骤S202，获取待转写音频的处理状态；

步骤S204，在处理状态为全部完成的情况下，确定待转写音频转写结束，并保存转写结果。

转写结果可以存储到如网盘、内网搭建的NAS存储空间、NFS存储空间等。在待转写音频的处理状态为全部完成的情况下，可以让用户获取到全部的待转写音频的转写结果。

需要说明的是，在执行实施例1和实施例2的方法之前，用户需先将待转写音频在没有网络限制的环境中上传存储，并处于可访问的状态，具体地，用户通过自己的方式将待转写音频上传到一个存储空间，并可以通过存储空间对应的url访问到对应的待转写音频，这样，在用户请求转写接口时，通过把url传给语音转写服务侧，语音转写服务侧再根据该url拉取下载待转写音频，获得待转写音频之后再开始进行语音转文字的转写工作。

在上述语音转写方法中，从转写接口中的存储地址中拉取待转写音频之后，方法还包括如下步骤：接收转写接口返回的事件标识，其中，每次进行语音转写的待转写音频与事件标识一一对应。在用户轮询待转写音频的处理状态时，可通过事件标识查找对应的语音转写事件，并准确获取对应的处理状态，避免混乱。

在该转写接口接收用户在参数中传入的待转写音频的存储地址url之后，转写接口会返回一个事件标识，即事件id。在本公开实施例中，一个待转写音频对应一个url，一个事件id必然对应一个待转写音频的转写事件，但一个待转写音频可能会对应多个事件id，例如，使用同一个待转写音频进行语音转文字的操作时，在昨天和今天两个不同的时间分别进行语音转文字的操作，会得到事件1和事件2这两个不同的事件id。还需要说明的是，一个待转写音频中可能包含多个音频片段，即多个音频片段中的每个音频片段为待转写音频的一部分，由多个音频片段组成一个完整的待转写音频。这些多个音频片段在存储空间存储时就已按照一定的方式进行划分，因此，在语音转写服务侧拉取对应的待转写音频时，会拉取该待转写音频对应的所有音频片段。或者，一个待转写音频中包含的多个音频片段也可以是无关联的，比如，进行批量上传和转写的多个相互独立的音频片段。

在上述语音转写方法中，待转写音频中包括以下至少之一的参数信息：文件格式、音频时长、声道数、采样率、文件大小。通过获取音频参数信息中的文件大小，可以判断在当前网络环境下是否可以直接将待转写音频上传至服务侧，若当前环境不满足直接将音频上传至服务侧，则用户需要在无网络限制的环境中将音频上传至存储空间，并获取对应的url，用户通过将url作为参数传入接口，从url对应的存储空间中获取对应的音频文件。

由于音频文件会自带相关参数信息，因此不需要额外存储，例如mp3文件可以直接从文件头获取到音频格式与时长，一般的参数信息包括：

文件格式：例如mp3、wav、wma等；

音频时长：总的音频时间，一般单位为“秒”；

声道数：指音频包含几个声道的数据；

采样率：每秒的音频数据点数。

在上述语音转写方法中的步骤S108中，对待转写音频进行语音转写，如图3所示的流程图，具体包括如下步骤：

步骤S302，接收目标对象通过事件标识发起的对转写详情接口的轮询请求；

步骤S304，返回转写详情接口中的对待转写音频的处理状态；

步骤S306，在处理状态为处理完成的情况下，将转写结果返回至目标对象。

由于转写过程为异步实现，为了方便用户及时获取到转写进度，用户可通过事件id请求轮询转写详情接口，获取转写进度及对应的转写结果。

需要说明的是，在进行音频转写请求之后，不会马上得到转写的文字结果，而需要通过异步事件id不断对转写事件进行轮询，确认转写事件处理完成之后，用户才能得到最终的转写结果。

在上述语音转写方法中，在处理状态为以下情况之一的情况下，拒绝接收目标对象通过事件标识发起的对转写详情接口的轮询请求，包括：待转写音频处理失败、待转写音频处理成功、轮询请求达到轮询的第一预设条件，该第一预设条件可以是轮询请求达到轮询的最大时长，也可以是轮询请求达到轮询的最大次数。

在另一种可选实施例中，在处理状态为待转写音频处理失败、待转写音频处理成功、轮询请求达到轮询的第一预设条件的其中之一时，用户不再进行轮询；在处理状态不是上述之一的情况下，用户会一直对转写事件进行轮询。通过确定当前需要轮询的条件，进行轮询可方便用户及时获取转写进度，在不进行轮询时可节约资源。

在上述语音转写方法中，如图4所示的流程图，具体还包括如下步骤：在存储地址中的待转写音频为多个音频片段的情况下，分别获取多个音频片段的标识，其中，多个音频片段为将待转写音频按照第一预设方式划分得到；则从存储地址拉取对应的待转写音频，具体包括如下步骤：

步骤S402，依次从存储地址拉取多个音频片段；

步骤S404，在拉取到的音频片段的标识为结束标识的情况下，确定待转写音频已经拉取完毕。

在上述步骤中，第一预设方式依据在第一网络环境下允许上传待转写音频的最大超时时长和第一数据传输速度确定。具体地，如第一网络环境下允许上传待转写音频的最大超时时长为5秒，第一数据传输速度为1M/s，则可以确定对待转写音频划分的第一预设方式为每次划分不超过5s×1M/s＝5M，即假设在待转写音频的文件大小为60M时，可先将该音频文件按4M大小拆分成15个音频片段，由于这15个音频片段由一个完整的音频文件拆分得到的，因此将这15个音频片段存入一个url中。在将一个待转写音频拆分成多个音频片段上传至存储空间时，可节省上传的时间，同时降低了对网速的要求。

这15个音频片段在存储地址url中分别对应一个标识，如标识1，标识2，……标识15，该标识的分配可以为将60M的音频按播放顺序依次截取4M后分配的，因此，在从存储地址中拉取待转写音频时，需获取多个音频片段的标识，之后需要确定多个音频片段的标识是否为结束标识，在标识为结束标识的情况下，才能确定已拉取全部的待转写音频。在上述例子中，标识15可以认为是结束标识，当识别出一段音频的标识为标识15时，确定此次待转写音频的全部音频文件已拉取结束，当识别出音频片段的标识不是标识15时，则表示此次待转写音频的全部音频文件未拉取结束，因此，在由数字作为标识时，可将标识中数值最大的作为结束标识。也可通过其他的方式表示标识，此次不做限定。通过获取待转写音频对应的多个音频片段的标识，可以准确知道当前拉取的音频是否为最后一个音频，同时也可以确定音频文件是否已全部拉取。

在上述语音转写方法中，从存储地址拉取对应的待转写音频，还包括另一种情况：即在存储地址中的待转写音频为单个连续音频的情况下，直接从存储地址拉取待转写音频，并在待转写音频满足以下任一条件的情况下，确定待转写音频读取完毕：已读取的待转写音频的数据量达到预设数据量；待转写音频的读取时长大于预设时长。

在拉取待转写音频之前，需要先获取待转写音频的数据量，该待转写音频的数据量即为预设数据量，在拉取待转写音频的过程中，实时监测已读取的待转写音频的数据量，当已读取的待转写音频的数据量达到预设数据量时，确定待转写音频读取完毕；在另一种可选的实施例中，可通过读取时长确定待转写音频是否读取完毕，具体地，依据当前环境下的网速和待转写音频的数据量确定读取待转写音频所需的预设时长，并实时获取读取待转写音频的读取时长，当读取时长大于或等于预设时长时，确定待转写音频读取完毕。

需要说明的是，单个连续音频可以理解为在存储空间中存储音频文件时，未对音频文件进行拆分的完整音频，即单个连续音频为一个完整的音频文件。由于这种存储方式简单，在拉取待转写音频的过程中，无需为待转写音频设置标识，简化了拉取的流程。

通过上述描述可知，在本公开实施例中的语音转写方法中，存储地址url中的待转写音频包括两种形式：一种是单个连续音频，即一个url对应一个完整的音频文件，此时的音频没有进行拆分等操作；另一种是将一个完整音频拆分成多个音频片段存储在url中，即一个待转写音频对应多个音频片段，此时，一个url对应多个音频片段。

在上述语音转写方法中的步骤S108中，对待转写音频进行语音转写，如图5所示的流程图，具体包括如下步骤：

步骤S502，按照预设方式对待转写音频进行分组，得到多组待转写子音频，其中，预设方式为流式读取中按照单位数据量对待转写音频进行分组，多组待转写子音频之间存在先后顺序；

步骤S504，依据先后顺序依次读取多组待转写子音频；

步骤S506，对多组待转写子音频进行语音转写，得到与多组待转写子音频对应的多组转写结果。

在上述步骤S502中，预设方式是指读取音频文件的方式，可以是流式读取音频文件，例如将待转写音频文件中的每128字节作为一组，分组发到语音转写服务，并对多组待转写子音频进行语音转写后，得到对应的语音转写结果。需要说明的是，当待转写音频为单个连续音频或多个音频片段的情况下，均可以按照预设方式对待转写音频进行分组，得到多组待转写子音频，通过上述步骤S504至步骤S506，得到对应的多组转写结果。通过这种读取方式，可以减少读取的时间，提高读取的效率。

在本公开实施例中的语音转写方法中，对多组待转写子音频进行语音转写的过程中按照第二时长对转写结果进行保存，可实现对转写结果的自动保存。

需要说明的是，第二时长可以为语音转写过程中的固定频率，如每1秒对转写结果进行一次保存，具体频率为多少可以依据实际情况而定，此处不做限定。

在上述语音转写方法中的步骤S102中，确定在第一网络环境下，上传待转写音频所占用的第一时长，具体包括如下步骤：获取第一数据传输速度，以及待转写音频的文件大小；将待转写音频的文件大小与第一数据传输速度做除法运算，得到上传待转写音频所占用的第一时长。

例如，第一数据传输速度为1M/秒，待转写音频的文件大小为60M，则第一时长为60M/1(M/秒)＝60秒。根据上述步骤，可以知晓在何时需要从存储地址中拉取对应的待转写音频，从而快速实现语音转写服务，而不会因为请求时间过长，导致无法上传待转写音频至语音转写服务侧，无法及时对待转写音频进行语音转写。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

实施例3

图6是根据本公开实施例的一种语音转写装置的结构图，如图6示，该装置包括如下模块：

确定模块602，用于确定在第一网络环境下，上传待转写音频所占用的第一时长；

获取模块604，用于在第一时长大于预设时长的情况下，从接收的转写请求中获取待转写音频的存储地址，其中，存储地址为在第二网络环境下，接收待转写音频并存储待转写音频的存储空间所对应的存储地址，第一网络环境下的第一数据传输速度小于第二网络环境下的第二数据传输速度；

拉取模块606，用于从存储地址拉取对应的待转写音频；

转写模块608，用于对待转写音频进行语音转写。

在上述语音转写装置中的拉取模块606，还用于实现如下过程：调用转写请求对应的转写接口，并从转写接口中的存储地址中拉取待转写音频。

在该语音转写装置中的转写模块608，还用于获取待转写音频的处理状态；在处理状态为全部转写完成的情况下，确定待转写音频转写结束。

在上述语音转写装置中的拉取模块606，还用于实现如下过程：接收转写接口返回的事件标识，其中，每次进行语音转写的待转写音频与事件标识一一对应。

该语音转写装置中的转写模块608，还用于接收目标对象通过事件标识发起的对转写详情接口的轮询请求；返回转写详情接口中的对待转写音频的处理状态；在处理状态为处理完成的情况下，将转写结果返回至目标对象。

在该语音转写装置中，在处理状态为以下情况之一的情况下，拒绝接收目标对象通过事件标识发起的对转写详情接口的轮询请求，包括：待转写音频处理失败、待转写音频处理成功、轮询请求达到轮询的第一预设条件，该第一预设条件可以是轮询请求达到轮询的最大时长，也可以是轮询请求达到轮询的最大次数。

在该语音转写装置中，还用于实现以下过程：在存储地址中的待转写音频为多个音频片段的情况下，分别获取多个音频片段的标识；从存储地址拉取对应的待转写音频包括：依次从存储地址拉取多个音频片段，并在拉取到的音频片段的标识为结束标识的情况下，确定待转写音频已经拉取完毕。

在该语音转写装置中的拉取模块606，还用于实现以下过程：在存储地址中的待转写音频为单个连续音频的情况下，从存储地址拉取待转写音频，并在待转写音频满足以下之一条件的情况下，确定待转写音频读取完毕：已读取的待转写音频的数据量达到预设数据量；待转写音频的读取时长大于预设时长。

在该语音转写装置中的转写模块608，还用于实现以下过程：按照预设方式对待转写音频进行分组，得到多组待转写子音频，其中，预设方式为流式读取中按照单位数据量对待转写音频进行分组，多组待转写子音频之间存在先后顺序；依据先后顺序依次读取多组待转写子音频；对多组待转写子音频进行语音转写，得到与多组待转写子音频对应的多组转写结果。

可选地，对多组待转写子音频进行语音转写的过程中按照第二时长对转写结果进行保存。

在该语音转写装置中的确定模块602，用于实现以下过程：获取第一数据传输速度，以及待转写音频的文件大小；将待转写音频的文件大小与第一数据传输速度做除法运算，得到上传待转写音频所占用的第一时长。

需要说明的是，图6所示的语音转写装置用于执行图1至图5所示的语音转写方法，因此上述语音转写方法中的相关解释说明也适用于该语音转写装置，此处不再赘述。

实施例4

根据本公开实施例，提供了一种用于语音转写的交互方法，具体包括：展示人机交互界面，其中，人机交互界面中设置有第一区域，第一区域用于展示从存储地址中拉取的待转写音频，存储地址为从接收的转写请求中获取的待转写音频在存储空间的存储地址；响应于对第一区域中的目标控件的触发指令，采用上述实施例1和实施例2中的语音转写方法对待转写音频进行转写，并展示转写结果。

在上述用于语音转写的交互方法中，人机交互界面中还设置有第二区域，第二区域用于展示对待转写音频的转写过程进行配置的配置属性。

与本公开实施例中的一种用于语音转写的交互方法对应，图7a提供了一种用于语音转写的交互界面示意图，在该界面中的上部为地址栏的显示位置，该地址栏中至少包括转写接口，待转写音频对应的url地址，需要说明的是，本公开实施例中的地址栏中可不显示待转写音频对应的url地址，该url地址可通过后台进行获取，语音转写服务侧通过待转写音频对应的url地址，从存储待转写音频的存储空间中拉取对应的待转写音频，并显示在人机交互界面中的第一区域，即该界面的右侧部分，在拉取了全部的待转写音频后，用户通过点击右下角的转写按钮，对待转写音频进行语音转写，在语音转写服务侧对待转写音频全部转写结束后，将音频转写结果显示在该第一区域，供用户查看转写结果。需要说明的是，音频转写结果可直接显示在第一区域，并覆盖原先的待转写音频；也可以显示在一个新的界面中，方面用户查看。

在图7a所示的示意图第二区域用于展示对待转写音频的转写过程进行配置的配置属性，如转写的语言、待转写音频的所属领域等，此处不做限定，在实际应用中，该音频转文字的界面中可能根据实际进行扩展。

根据本公开的实施例，在图7a所示的用于语音转写的交互界面示意图中，具体地语音转写的流程示意图如图7b所示。

如图7b所示，步骤701，用户首先需将待转写音频在没有网络限制的环境中上传到存储空间中，并处于可访问的状态，存储空间可以是如网盘、内网搭建的NAS存储空间、NFS存储空间等，由存储空间提供一个存储地址，即url，用户在将待转写音频上传到存储空间后，会获得待转写音频在存储空间的url，当网络环境不允许直接上传大音频文件时，通过获取该音频文件在存储空间的url地址进行拉取和下载，从而执行语音转文字的操作。

另外，由于音频文件会自带相关参数信息，因此不需要额外存储，例如mp3文件可以直接从文件头获取到音频格式与时长，一般的参数信息包括：文件格式：例如mp3、wav、wma等；音频时长：总的音频时间，一般单位为“秒”；声道数：指音频包含几个声道的数据；采样率：每秒的音频数据点数。

在用户将待转写音频上传到存储空间后，为了确定采用何种方式对音频进行转写服务，需获取当前环境的网速，以及待转写音频的文件大小，根据当前环境的网速，假设网速是1M/秒，待转写音频的文件大小如果只有2M，则仅需2秒即可上传音频文件至语音转写服务侧，这种情况下，可以不通过待转写音频的url获取对应的待转写音频，且直接上传音频文件至语音转写服务侧也无需占用接口过多的时间，不会超过用户请求的请求时长。

而待转写音频的文件大小如果超过60M，则代表至少需要1分钟才能完成待转写音频的上传，而很多环境中不一定允许一个接口占用1分钟的时间，则60M以上的音频文件都可认为是大音频文件。在这种情况下，则需要获取待转写音频的存储地址，才能完成音频转文字的操作。

步骤702，用户通过用户侧服务接口向语音转写服务侧发起音频转写请求，用户通过将待转写音频的url作为参数传入转写接口。该参数为http请求时包含在请求体里的http参数，且在本公开实施例中的请求参数仅包括待转写音频的url。需要说明的是，该请求参数的整体为json格式，放在http的body里，该参数可以为如下格式：

{

“audioFileUrl”:“https://baidu.com/file/audio/sample.wav”

}

步骤703，音语音转写服务侧接收用户通过用户侧服务接口发起的音频转写请求后，根据转写接口中用户传入的url从存储空间中拉取带转写音频，在拉取待转写音频的操作结束后，转写接口返回一个事件标识，即事件id，其中，每次语音转写的事件对应一个事件标识。

需要说明的是，一个待转写音频对应一个url，一个事件id必然对应一个待转写音频，但一个待转写音频可能会对应多个事件id，例如，使用同一个待转写音频进行语音转文字的操作时，在昨天和今天两个不同的时间分别进行语音转文字的操作，会得到事件1和事件2这两个不同的事件id。还需要说明的是，一个待转写音频中可能包含多个音频片段，即多个音频片段中的每个音频片段为待转写音频的一部分，由多个音频片段组成一个完整的待转写音频。这些多个音频片段在存储空间存储时就已按照一定的方式进行划分，因此，在语音转写服务侧拉取对应的待转写音频时，会拉取该待转写音频对应的所有音频片段。

在根据转写接口中用户传入的url从存储空间中拉取带转写音频时，存储空间中的待转写音频包括两种形式：一种是单个连续音频，即一个url对应一个完整的音频文件，此时的音频没有进行拆分等操作；另一种是将一个完整音频拆分成多个音频片段存储在url中，即一个待转写音频对应多个音频片段，此时，一个url对应多个音频片段。

如需要对一个60M的音频文件执行语音转文字的操作，则可先将该音频文件按4M大小拆分成15个音频片段，由于这15个音频片段由一个完整的音频文件拆分得到的，因此将这15个音频片段存入一个url中。这里的拆分大小依据当前网络环境下允许上传待转写音频至语音转写服务侧的最大超时时长和当前网速确定。具体地，如当前网络环境下允许上传待转写音频的最大超时时长为5秒，当前网速为1M/s，则可以确定对待转写音频进行拆分时，每次拆分不超过5s×1M/s＝5M即可。

需要说明的是，在存储地址中的待转写音频对应多个音频片段的情况下，需确定拉取结束的条件，因此，在将待转写音频拆分成多个音频片段存入存储空间时，需要对拆分后的每个音频片段设置一个标识，最后一个标识作为该待转写音频的结束标识。

以上述将60M的音频文件拆分成15个音频片段为例，这15个音频片段在存储地址url中分别对应一个标识，如标识1，标识2，……标识15，该标识的分配可以为将60M的音频按播放顺序依次截取4M后分配的，因此，在从存储地址中拉取待转写音频时，可通过多个音频片段的标识确定该待转写音频是否全部拉取完毕，即需要确定多个音频片段的标识是否为结束标识，在标识为结束标识的情况下，才能确定已拉取全部的待转写音频。在上述例子中，标识15可以认为是结束标识，当识别出音频片段的标识为标识15时，确定此次待转写音频的全部音频文件已拉取结束，在拉取待转写音频的操作结束后，转写接口返回一个事件标识，即事件id。

步骤704，语音转写服务侧根据拉取的待转写音频进行语音转写，在该过程中，音频转写服务侧按照预设方式对待转写音频进行分组，得到多组待转写子音频，其中，预设方式为流式读取中按照单位数据量对待转写音频进行分组，多组待转写子音频之间存在先后顺序；依据先后顺序依次读取多组待转写子音频；对多组待转写子音频进行语音转写，得到与多组待转写子音频对应的多组转写结果。

具体地，上述预设方式是指读取音频文件的方式，可以是流式读取音频文件，如将待转写音频文件中的每128字节作为一组，分组发到语音转写服务，并对多组待转写子音频进行语音转写后，得到对应的语音转写结果。

步骤705，音频转写服务侧在对多组待转写音频进行语音转写过程中，不断保存转写结果。转写结果可以存储到如网盘、内网搭建的NAS存储空间、NFS存储空间等。

步骤706，在将多组待转写音频全部进行语音转写后，转写过程结束。

步骤707，用户在发起音频转写请求后，通过事件id从用户侧服务接口的发起轮询请求，该轮询请求用于轮询语音转写事件的处理状态，具体包括转写进度，以及对应的转写结果，需要说明的是，用户发起的轮询请求的对象可以是对转写详情接口，也可以是用户自定义的其他可以单独轮询转写进度以及对应的转写结果的接口，此处不做限定。

在处理状态为以下情况之一的情况下，拒绝接收目标对象通过事件标识发起的对转写详情接口的轮询请求，包括：待转写音频处理失败、待转写音频处理成功、轮询请求达到轮询的第一预设条件，该第一预设条件可以是轮询请求达到轮询的最大时长，也可以是轮询请求达到轮询的最大次数。

在另一种可选实施例中，在处理状态为待转写音频处理失败、待转写音频处理成功、轮询请求达到轮询的第一预设条件中的其中之一时，用户不再进行轮询；在处理状态不是上述之一的情况下，用户会一直对转写事件进行轮询。

步骤708，在待转写音频的处理状态为处理完成的情况下，从转写结果存储的存储空间中获取最终的转写结果，并展示给用户最终的音频转写结果。

需要说明的是，在进行音频转写请求之后，不会马上得到转写的文字结果，而需要通过异步事件id不断对转写事件的处理状态进行轮询，确认转写事件处理成功之后，才能展示给用户最终的转写结果。

实施例5

根据本公开的实施例，本公开还提供了一种用于语音转写的交互装置，如图7c所示的结构图，该装置包括：

第一展示模块712，用于展示人机交互界面，人机交互界面中设置有第一区域，第一区域用于展示从存储地址中拉取的待转写音频，存储地址为从接收的转写请求中获取的待转写音频在存储空间的存储地址；

处理模块714，用于响应于对第一区域中的目标控件的触发指令，采用上述语音转写方法对待转写音频进行转写；

第二展示模块716，用于展示转写结果。

需要说明的是，图7c所示的用于语音转写的交互装置用于执行上述用于语音转写的交互方法，因此上述用于语音转写的交互方法中的相关解释说明也适用于该用于语音转写的交互装置，此处不再赘述。

实施例6

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如语音转写方法。例如，在一些实施例中，语音转写方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的方法音频转文字的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法音频转文字。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音转写方法，包括：

确定在第一网络环境下，上传待转写音频所占用的第一时长；

在所述第一时长大于预设时长的情况下，从接收的转写请求中获取所述待转写音频的存储地址，其中，所述存储地址为在第二网络环境下，接收所述待转写音频并存储所述待转写音频的存储空间所对应的存储地址，所述第一网络环境下的第一数据传输速度小于所述第二网络环境下的第二数据传输速度；

从所述存储地址拉取对应的所述待转写音频；

对所述待转写音频进行语音转写。

2.根据权利要求1所述的方法，其中，从所述存储地址拉取对应的所述待转写音频，包括：

调用所述转写请求对应的转写接口，并从所述转写接口中的所述存储地址中拉取所述待转写音频。

3.根据权利要求2所述的方法，其中，对所述待转写音频进行语音转写，包括：

获取所述待转写音频的处理状态；在所述处理状态为全部转写完成的情况下，确定所述待转写音频转写结束。

4.根据权利要求2所述的方法，其中，从所述转写接口中的所述存储地址中拉取所述待转写音频之后，所述方法还包括：

接收所述转写接口返回的事件标识，其中，每次进行语音转写的待转写音频与所述事件标识一一对应。

5.根据权利要求4所述的方法，其中，对所述待转写音频进行语音转写，包括：

接收目标对象通过所述事件标识发起的对转写详情接口的轮询请求；

返回所述转写详情接口中的对所述待转写音频的处理状态；

在所述处理状态为处理完成的情况下，将转写结果返回至所述目标对象。

6.根据权利要求5所述的方法，其中，在所述处理状态为以下情况之一的情况下，拒绝接收目标对象通过所述事件标识发起的对所述转写详情接口的轮询请求，包括：所述待转写音频处理失败、所述待转写音频处理成功、所述轮询请求达到轮询的第一预设条件。

7.根据权利要求1所述的方法，其中，还包括：

在所述存储地址中的所述待转写音频为多个音频片段的情况下，分别获取所述多个音频片段的标识；

所述从所述存储地址拉取对应的所述待转写音频包括：

依次从所述存储地址拉取所述多个音频片段，并在拉取到的音频片段的标识为结束标识的情况下，确定所述待转写音频已经拉取完毕。

8.根据权利要求1所述的方法，其中，从所述存储地址拉取对应的所述待转写音频，包括：

在所述存储地址中的所述待转写音频为单个连续音频的情况下，从所述存储地址拉取所述待转写音频，并在所述待转写音频满足以下任一条件的情况下，确定所述待转写音频读取完毕：已读取的待转写音频的数据量达到预设数据量；所述待转写音频的读取时长大于预设时长。

9.根据权利要求7或8所述的方法，其中，对所述待转写音频进行语音转写，包括：

按照预设方式对所述待转写音频进行分组，得到多组待转写子音频，其中，所述预设方式为流式读取中按照单位数据量对所述待转写音频进行分组，所述多组待转写子音频之间存在先后顺序；

依据所述先后顺序依次读取所述多组待转写子音频；

对所述多组待转写子音频进行语音转写，得到与所述多组待转写子音频对应的多组转写结果。

10.一种用于语音转写的交互方法，包括：

展示人机交互界面，其中，所述人机交互界面中设置有第一区域，所述第一区域用于展示从存储地址中拉取的待转写音频，所述存储地址为从接收的转写请求中获取的所述待转写音频在存储空间的存储地址；

响应于对所述第一区域中的目标控件的触发指令，采用权利要求1至9中任意一项所述的方法对所述待转写音频进行转写，并展示转写结果。

11.根据权利要求10所述的方法，其中，所述人机交互界面中设置有第二区域，所述第二区域用于展示对所述待转写音频的转写过程进行配置的配置属性。

12.一种语音转写装置，包括：

确定模块，用于确定在第一网络环境下，上传待转写音频所占用的第一时长；

获取模块，用于在所述第一时长大于预设时长的情况下，从接收的转写请求中获取所述待转写音频的存储地址，其中，所述存储地址为在第二网络环境下，由存储空间接收所述待转写音频并存储所述待转写音频的存储地址，所述第一网络环境下的第一数据传输速度小于所述第二网络环境下的第二数据传输速度；

拉取模块，用于从所述存储地址拉取对应的所述待转写音频；

转写模块，用于对所述待转写音频进行语音转写。

13.一种用于语音转写的交互装置，包括：

第一展示模块，用于展示人机交互界面，所述人机交互界面中设置有第一区域，所述第一区域用于展示从存储地址中拉取的待转写音频，所述存储地址为从接收的转写请求中获取的所述待转写音频在存储空间的存储地址；

处理模块，用于响应于对所述第一区域中的目标控件的触发指令，采用权利要求1至9中任意一项所述的方法对所述待转写音频进行转写；

第二展示模块，用于展示转写结果。

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。