CN106971723A

CN106971723A - 语音处理方法和装置、用于语音处理的装置

Info

Publication number: CN106971723A
Application number: CN201710198186.XA
Authority: CN
Inventors: 牛露云; 李洋; 周麒麟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2017-07-21
Anticipated expiration: 2037-03-29
Also published as: CN106971723B

Abstract

本发明实施例提供了一种语音处理方法和装置、以及一种用于语音处理的装置，其中的方法具体包括：在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果包括：语音识别结果和/或错误码；向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；接收所述服务器针对所述目标语音数据包返回的语音识别结果；将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。本发明实施例可以提高语音流对应语音转写结果的完整性，进而可以提高语音转写的准确率。

Description

语音处理方法和装置、用于语音处理的装置

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音处理方法和装置、以及一种用于语音处理的装置。

背景技术

在语音处理技术领域，在某些应用场景中需要将语音实时转化为文本，例如，在语音输入场景中，输入法程序可以将用户输入的语音实时转化为文本等。

现有方案将语音实时转化为文字的过程可以包括：客户端向服务器发送实时采集的语音流，由服务器对接收到的语音流进行处理，并向客户端返回处理得到的该语音流对应的文本信息，而客户端可以在屏幕上实时显示该语音流对应的文本信息，由此可以实现文本信息和语音流的同步。

发明人在实现本发明实施例的过程中发现，现有方案存在语音流对应的语音转写结果不完整的问题，在语音流对应的时间长度较长的情况下，该问题尤其严重，这将导致语音转写的准确率较低。例如，某语音流对应的完整文本信息为“大家好，我是雨天，因为刚好出生在雨天，老爸又刚好姓夏，而且妈妈也希望我如雨后春笋、天天向上哦！大家都说我是个阳光女孩，因为我是开心果啊。我老是坐不住，呵呵，能跟小椅子成为好朋友，是老师和爸爸妈妈现在的最大心愿”，然而，在实际应用中，一些因素可能导致该语音流对应的文本信息不完整，例如，不完整的文本信息可能为“大家好，我是雨天，因为刚好出生在雨天，老爸又刚好姓夏。我老是坐不住，呵呵，能跟小椅子成为好朋友，是老师和爸爸妈妈现在的最大心愿”等。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置、及用于语音处理的装置，本发明实施例可以提高语音流对应语音转写结果的完整性，进而可以提高语音转写的准确率。

为了解决上述问题，本发明公开了一种语音处理方法，包括：

在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果包括：语音识别结果和/或错误码；

向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；

接收所述服务器针对所述目标语音数据包返回的语音识别结果；

将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

另一方面，本发明公开了一种语音处理方法，包括：

接收客户端发送的语音流中语音数据包；

进行所述语音数据包的处理，以得到对应的处理结果；其中，所述处理结果包括：语音识别结果和/或错误码；

向客户端返回所述语音数据包对应的处理结果，以使所述客户端依据所述处理结果，从语音流中语音数据包中，获取需要重新转写的目标语音数据包；

接收客户端重新发送的目标语音数据包；

对所述目标语音数据包进行语音识别，并针对所述目标语音数据包向所述客户端返回对应的语音识别结果。

再一方面，本发明公开了一种语音处理装置，包括：

目标数据包获取模块，用于在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果包括：语音识别结果和/或错误码；

目标数据包发送模块，用于向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；

接收模块，用于接收所述服务器针对所述目标语音数据包返回的语音识别结果；以及

结果补充模块，用于将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

又一方面，本发明公开了一种语音处理装置，包括：

第一接收模块，用于接收客户端发送的语音流中语音数据包；

第一处理模块，用于进行所述语音数据包的处理，以得到对应的处理结果；其中，所述处理结果包括：语音识别结果和/或错误码；

第一发送模块，用于向客户端返回所述语音数据包对应的处理结果，以使所述客户端依据所述处理结果，从语音流中语音数据包中，获取需要重新转写的目标语音数据包；

第二接收模块，用于接收客户端重新发送的目标语音数据包；

第二处理模块，用于对所述目标语音数据包进行语音识别；以及

第二发送模块，用于针对所述目标语音数据包向所述客户端返回对应的语音识别结果。

再一方面，本发明公开了一种用于处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

又一方面，本发明公开了一种用于处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收客户端发送的语音流中语音数据包；

接收客户端重新发送的目标语音数据包；

本发明实施例包括以下优点：

本发明实施例可以在针对语音流进行一次语音转写后，依据服务器针对语音流中语音数据包返回的语音识别结果和/或错误码，自动获取需要重新转写的目标语音数据包，并通过重新发送该目标语音数据包实现对于该目标语音数据包的再次语音转写，故本发明实施例可以通过上述再次语音转写获取上述目标语音数据包对应的语音识别结果，而上述目标语音数据包对应的语音识别结果可以作为语音流对应语音转写结果的补充，因此本发明实施例将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中，可以提高语音流对应语音转写结果的完整性，进而可以提高语音转写的准确率。

附图说明

图1是本发明的一种语音处理方法的应用环境的示意图；

图2是本发明的一种语音处理方法实施例一的步骤流程图；

图3是本发明的一种语音处理方法实施例二的步骤流程图；

图4是本发明的一种语音处理方法实施例三的步骤流程图；

图5是本发明的一种语音处理方法实施例四的步骤流程图；

图6是本发明的一种语音处理方法实施例五的步骤流程图；

图7是本发明的一种语音处理装置实施例一的结构框图；

图8是本发明的一种语音处理装置实施例二的结构框图；

图9是根据一示例性实施例示出的一种用于语音处理的装置作为终端时的框图；及

图10是根据一示例性实施例示出的一种用于语音处理的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种语音处理方案，该方案可以在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果可以包括：语音识别结果和/或错误码；并向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；进而接收所述服务器针对所述目标语音数据包返回的语音识别结果，并将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

本发明实施例可以应用于需要语音转写的任意场景，以提高语音转写结果的完整性和语音转写的准确率。在语音流对应的时间长度较长的情况下，本发明实施例对于语音转写的准确率的提升效果将尤其显著。例如，需要语音转写的场景可以包括：个人创作场景、访谈录音场景和语音记事场景等，其中，个人创作场景可用于文章、小说等长篇创作，具体地，可以将用户口述的语音实时转化为文本信息；访谈录音场景可用于在采访、会议或者上课场景下，记录讲话用户的语音并实时转化为文本信息；语音记事场景可用于备忘和随笔分享，具体地，可以将讲话用户口述的语音实时转化为文本信息。可以理解，本领域技术人员可以根据实际应用需求，采用需要语音转写的其他场景，如将客服的语音转化为文本信息的场景、或者语音输入场景等，本发明实施例对于具体的应用场景不加以限制。

本发明实施例提供的语音处理方法可应用于图1所示的应用环境中，如图1所示，客户端100与服务器200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务器200进行数据交互。

在实际应用中，可由客户端100和服务器200进行语音转写。例如，一次语音转写过程可以包括：

客户端100通过麦克风或其他语音采集器件接收讲话用户的语音信号，并按照流式传输方式向服务器200发送该语音信号；为了方便起见，本发明实施例采用语音流表示按照流式传输方式传输的连续语音信号，其中，可以将单位的语音流分成若干个语音数据包传输，也即，客户端100向服务器200发送语音流中语音数据包。作为一个示例，单位的语音流的时间长度可以为2分钟，语音数据包的时间长度可以为500毫秒，则单位的语音流可以包含240个语音数据包，其中，每个语音数据包可以对应有数据包ID(标识，Identity)，该数据包ID可以作为语音数据包的唯一标识；可以理解，本发明实施例对于语音流所包含语音数据包的具体数量不加以限制。

服务器200可以接收客户端100发送的语音流中语音数据包，并进行所述语音数据包的处理，以得到对应的处理结果；所述处理结果可以包括：语音识别结果和/或错误码。

其中，服务器200可以针对接收到的语音数据包获取对应的语音识别结果。可选地，上述针对接收到的语音数据包获取对应的语音识别结果的过程可以包括：进行所述语音数据包对应语音信号的分割，以得到所述语音信号包括的语音片段；对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果。其中，上述语音数据包对应语音信号的分割可用于确定语音片段的起始点和结束点，可以利用VAD(语音活动检测，VoiceActivity Detection)技术进行语音信号的分割。VAD可以在平稳或者非平稳噪声下准确检测有效的语音信号和无效的语音信号(如静音和/或噪音等)，并依据检测结果进行语音信号的分割，上述分割可以实现语音信号的断句，并将分割得到的语音片段识别为一个独立的句子。

在本发明的一种应用示例中，服务器200在判断所述语音数据包对应语音信号的起始点后，可以将语音信号输入至解码器，解码器可以针对有效的语音信号进行语音特征提取，并在声学模型、语言模型的指导下，基于语音特征寻找最优的语音识别结果，当检测到语音信号的结束点后，解码器重置继续接收后续的语音信号进行新的解码，已解码完成的语音识别结果可由服务器200发送至客户端100以实现语音识别结果的实时上屏。

AM(声学模型，Acoustic Model)是自动语音识别系统的模型中最底层的部分，同时也是自动语音识别系统中最关键的组成单元，声学模型建模的好坏可以影响语音识别系统的识别效果和鲁棒性。可以对带有声学信息的语音基本单元建立声学模型。通过对声学模型的建模，可以有效地衡量语音的特征矢量序列和每一个发音模板之间的相似度，可以有助于判断该段语音的声学信息，即语音的内容。语者的语音内容都是由一些基本的语音单元组成，这些基本的语音单元可以是句子、词组、词、音节(syllable)、子音节(Sub-syllable)或者音素等。

由于语音信号的时变性、噪声和其它一些不稳定因素，单纯靠声学模型可能无法达到较高的语音识别的准确率。在人类语言中，句子的单词之间具有密切的联系，这些单词层面的信息可以减少声学模型上的搜索范围，有效地提高识别的准确性，为完成这项任务，LM(语言模型，Language Model)可用于提供语言中词之间的上下文信息以及语义信息。语言模型具体可以包括N-Gram(N元文法)模型、马尔可夫N元模型(Markov N-gram)、指数模型(Exponential Models)、决策树模型(Decision Tree Models)等等。其中N-Gram模型是最常被使用的统计语言模型，特别是二元语言模型(bigram)、三元语言模型(trigram)。

在本发明的一种优选实施例中，在将语音信号输入至解码器之前，还可以包括：对语音信号进行预处理，预处理可以包括：低频去噪，和/或，信号增强。讲话用户的语音输入环境可能存在各种各样的噪声，例如用户在办公室中可能存在空调发出的噪音，在路上使用智能终端进行语音输入时，存在汽车的发动机低频噪音，还可以是语音采集设备，例如麦克风处理信号时产生的信号噪音等，如果将语音信号直接送入到解码器中，有可能会影响到解码结果的准确性，所以在将语音信号输入至解码器之前，首先对语音信号进行低频去噪以消除各种低频噪声，同时由于用户环境因素造成用户声音较小或者语音采集设备等硬件性能影响，造成语音信号的强度较弱，可以通过幅度增强技术对语音信号信号强度进行增强，通过对语音信号信号进行预处理后，可以提高语音信号信号的抗噪性，可以提高解码结果也即语音识别结果的准确率。

可以理解，上述服务器200针对接收到的语音数据包获取对应的语音识别结果的过程只是作为可选实施例，实际上本发明实施例对于服务器20针对接收到的语音数据包获取对应的语音识别结果的具体过程不加以限制。

服务器可以对不具有语音识别结果的语音数据包进行分析，以得到对应的错误码。可选地，对不具有语音识别结果的语音数据包给出错误原因，其中对于由于网络原因可以重新转写的语音数据包，可以预设的错误码单独记录下来。可选地，服务器200可以根据接收到的语音数据包的数据包ID，获取不具有语音识别结果的语音数据包，例如，若检测到数据包ID不连续或者数据包超时或者数据包无法到达，可以得到不具有语音识别结果的语音数据包。

在本发明的一种应用示例中，客户端100连续地向服务器200发送语音流中语音数据包，服务器200连续地接收语音流中语音数据包，假设服务器200已经接收到数据包ID为0001、0002、0003和0004的语音数据包，并等待数据包ID为0005的语音数据包，假设在超过预设的超时时长后未接收到数据包ID为0005的语音数据包，则可以自动跳过数据包ID为0005的语音数据包的接收，并等待接收下一个语音数据包(如数据包ID为0006的语音数据包)，此种情况下，可以记录针对数据包ID为0005的语音数据包记录相应的错误原因，并依据该错误原因得到相应的错误码。可以理解，本发明实施例对于错误码的具体获取过程不加以限制。

在实际应用中，服务器200可以向客户端100返回数据包ID及其对应的处理结果；其中，对于具有语音识别结果的数据包ID，对应的处理结果可以为语音识别结果，对于不具有语音识别结果的数据包ID，对应的处理结果可以为错误码。语音流对应的语音转写结果可以包括：语音流中语音数据包对应的语音识别结果。

客户端100可以依据服务器200针对语音流中语音数据包返回的处理结果，确定所述语音流对应的文本流，并在屏幕上实时显示所述语音流对应的文本流。例如，假设服务器200依次返回数据包ID为0001、0002、0003…的语音数据包对应的语音识别结果，则客户端100可以依次在屏幕上实时显示数据包ID为0001、0002、0003…的语音数据包对应的语音识别结果，直至服务器200返回语音流中最后一个语音数据包对应的处理结果。

在针对语音流进行一次语音转写后，客户端100可以依据服务器200针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果可以包括：语音识别结果和/或错误码；例如，可以获取服务器未返回语音识别结果的语音数据包作为需要重新转写的目标语音数据包，和/或，可以获取错误码符合预置条件的语音数据包作为需要重新转写的目标语音数据包，等等。进一步，客户端100可以通过重新发送该目标语音数据包实现对于该目标语音数据包的再次语音转写，因此可以通过上述再次语音转写获取上述目标语音数据包对应的语音识别结果。

在实际应用中，客户端100可以运行在智能终端上，上述智能终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、录音设备、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

方法实施例一

参照图2，示出了本发明的一种语音处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤201、在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果可以包括：语音识别结果和/或错误码；

步骤202、向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；

步骤203、接收所述服务器针对所述目标语音数据包返回的语音识别结果；

步骤204、将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

本发明实施例可由智能终端上运行的客户端执行，其中，该客户端可以为APP(应用程序，Application)和/或网页对应的客户端，该客户端可以提供UI(用户界面，UserInterface)，该UI可以提供任意接口供用户操作，进而可以实现例如语音转写的语音处理功能。

本发明实施例中，语音流可用于表示按照流式传输方式传输的连续语音信号，语音流可以包括若干语音数据包，语音数据包对应的语音信号可以涉及一种或者一种以上的语言，例如，语音数据包对应的语音信号涉及的语言可以包括：中文、日文、韩文、英文、德文、法文、数字、符号等语言中的至少一种或者组合，可以理解，任意语言均在本发明实施例的语音信号的适用范围内。

本发明实施例可以应用于需要语音转写的任意场景，以提高语音转写结果的完整性和语音转写的准确率。例如，需要语音转写的场景可以包括：个人创作场景、访谈录音场景和语音记事场景等，本发明实施例主要以访谈录音场景为例对本发明实施例的语音处理方法进行说明，其他场景对应的语音处理方法相互参照即可。

访谈录音场景可用于在采访、会议或者上课场景下，记录讲话用户的语音并实时转化为文本信息。在实际应用中，客户端可用于提供访谈录音接口，并响应于用户对于该访谈录音接口的触发操作，触发本发明实施例的语音转写。可选地，在接收到用户对于该访谈录音接口的触发操作后，可以显示播放编辑界面，该播放编辑界面可以同步显示讲话用户的语音信号及其对应的文本信息。进一步，可选地，该播放编辑界面可以显示暂停接口、继续接口、完成接口，其中，该暂停接口可用于暂停当前访谈录音及其对应的语音转写，该继续接口可用于继续当前访谈录音及其对应的语音转写，该完成接口可用于完成并保存当前访谈录音，例如，可以将当前访谈录音保存到文件中。可以理解，上述语音转写的触发方式只是作为可选实施例，实际上，本领域技术人员可以根据实际应用需求，采用语音转写的所需触发方式，例如，在语音输入场景中可以响应于用户对于语音输入接口的触发操作触发语音转写等，本发明实施例对于语音转写的具体触发方式不加以限制。

本发明实施例针对语音流进行一次语音转写的过程可以包括：客户端向服务器发送语音流中语音数据包，接收服务器针对语音流中语音数据包返回的处理结果，并依据该处理结果确定所述语音流对应的文本流，进而在屏幕上实时显示所述语音流对应的文本流，其中，语音流对应的文本流可以为语音流对应的语音转写结果。

在实际应用中，网络故障等因素可能引起语音流对应的语音转写结果不完整的问题。为了解决该问题，本发明实施例在针对语音流进行一次语音转写后，依据服务器针对语音流中语音数据包返回的语音识别结果和/或错误码，自动获取需要重新转写的目标语音数据包，并通过重新发送该目标语音数据包实现对于该目标语音数据包的再次语音转写，故本发明实施例可以通过上述再次语音转写获取上述目标语音数据包对应的语音识别结果，而上述目标语音数据包对应的语音识别结果可以作为语音流对应语音转写结果的补充，因此本发明实施例可以提高语音流对应语音转写结果的完整性，进而可以提高语音转写的准确率。

本发明实施可以提供获取需要重新转写的目标语音数据包的如下获取方式：

获取方式1、依据服务器针对所述语音流中语音数据包返回的语音识别结果，从所述语音流中语音数据包中，获取服务器未返回语音识别结果的语音数据包，作为需要重新转写的目标语音数据包；或者

获取方式2、依据服务器针对所述语音流中语音数据包返回的错误码，从所述语音流中语音数据包中，获取错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包；或者

获取方式3、依据服务器针对所述语音流中语音数据包返回的语音识别结果和错误码，从所述语音流中语音数据包中，获取服务器未返回语音识别结果、且错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包。

在实际应用中，服务器200可以向客户端200返回数据包ID及其对应的处理结果；其中，对于具有语音识别结果的数据包ID，对应的处理结果可以为语音识别结果，对于不具有语音识别结果的数据包ID，对应的处理结果可以为错误码。

对于获取方式1，客户端可以记录有所述语音流中所有语音数据包对应的数据包ID，且可以接收服务器返回的具有语音识别结果的语音数据包的第一数据包ID，由此可以获取服务器未返回语音识别结果的语音数据包的第二数据包ID，该第二数据包ID可以作为需要重新转写的目标语音数据包的数据包ID。

对于获取方式2，客户端可以接收服务器返回的不具有语音识别结果的语音数据包的错误码，在该错误码符合预置条件(例如该错误码为预设的错误码)时，可以将不具有语音识别结果的语音数据包作为需要重新转写的目标语音数据包。其中，预设的错误码可用于表征能够重新转写的语音数据包，该预设的错误码可由本领域技术人员依据实际应用需求确定，可以理解，本发明实施例对于预设的错误码不加以限制。

对于获取方式3，客户端可以综合依据服务器针对所述语音流中语音数据包返回的语音识别结果和错误码，获取需要重新转写的目标语音数据包，具体地，可以将服务器未返回语音识别结果、且错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包。

可以理解，本领域技术人员可以根据实际应用需求采用上述获取方式1至获取方式3中的至少一种，或者，还可以采用其他获取方式，可以理解，本发明实施例对于获取需要重新转写的目标语音数据包所采用的具体获取方式不加以限制。

在获取需要重新转写的目标语音数据包后，本发明实施例可以通过重新发送该目标语音数据包实现对于该目标语音数据包的再次语音转写，具体地，可以向服务器重新发送该目标语音数据包，以使服务器对所述目标语音数据包进行语音识别。可选地，上述对所述目标语音数据包进行语音识别可以包括：接收该目标语音数据包，并对该目标语音数据包进行语音信号的分割，以得到所述语音信号包括的语音片段；对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果等。由于上述对所述目标语音数据包进行语音识别的过程与一次语音转写过程中的处理过程类似，故在此不作赘述，相互参照即可。

在实际应用中，上述向所述服务器重新发送所述目标语音数据包的步骤202可由客户端自动执行，例如，客户端在通过步骤201获取得到目标语音数据包后，可以自动执行向所述服务器重新发送所述目标语音数据包的步骤。

或者，上述向所述服务器重新发送所述目标语音数据包的步骤202可以依据用户触发的续转指令执行，相应地，上述步骤202向所述服务器重新发送所述目标语音数据包的过程可以包括：响应于用户触发的续转指令，向所述服务器重新发送所述目标语音数据包。

在本发明的一种可选实施例中，在所述步骤201获取需要重新转写的目标语音数据包之后、所述步骤202向所述服务器重新发送所述目标语音数据包之前，所述方法还可以包括：展现续转接口，以使用户通过所述续转接口触发所述续转指令。本发明实施例在成功获取需要重新转写的目标语音数据包之后，可以自动向用户展现续转接口，以使用户通过该续转接口便捷地触发该续转指令；可选地，可以在当前界面展现上述续转接口，其中，当前界面可以为用于显示语音流对应的语音转写结果的界面，例如，该当前界面可以为前述的播放编辑界面。可以理解，上述展现续转接口的方式只是作为可选实施例，实际上，用户还可以通过物理按键触发上述续转指令，例如，上述物理按键可以为智能终端上设置的音量按键、关机按键或者键盘按键等，可以理解，本发明实施例对于上述续转指令的具体触发方式不加以限制。

在本发明的另一种可选实施例中，在所述步骤201获取需要重新转写的目标语音数据包之后、所述步骤202向所述服务器重新发送所述目标语音数据包之前，所述方法还可以包括：输出提示信息；所述提示信息用于提示用户所述语音流的语音识别结果缺失。例如，在进行一次语音转写的过程中，可以在当前界面(播放编辑界面)上显示语音流对应的文本流，并且，在一次语音转写完成后，可以通过语音、或者界面方式输出提示信息，上述提示信息可以作为触发上述续转指令的依据。

例如，在针对语音流进行一次语音转写后，客户端可以提示“有内容未听写完成”，并且展现续转接口，这样，在接收到用户对于该续转接口的触发指令后，可以将获取的目标数据包进行再次语音转写，以通过该再次语音转写找回缺失的语音转写结果，使最新的语音转写结果是全部的完整的数据体现。

可以理解，上述在针对语音流进行一次语音转写后，输出提示信息的方式只是作为可选实施例，实际上，用户可以依据所述语音流对应的语音转写结果，确定是否触发上述续转指令。

在本发明的再一种可选实施例中，在步骤202之后，步骤203可以接收所述服务器针对所述目标语音数据包返回的语音识别结果，步骤204可以将步骤203接收到的所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中，由此可以得到所述语音流对应的最新语音转写结果，其中，该最新语音转写结果的完整性可以高于原有语音转写结果的完整性。

可选地，上述将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中的过程可以包括：在所述目标语音数据包对应的目标位置显示对应的语音识别结果，其中，上述目标位置可以为所述目标语音数据包对应的语音识别结果在所述语音流对应的语音转写结果中的位置，可以依据所述目标语音数据包在所述语音流中的位置，确定上述目标位置，例如，所述目标语音数据包的数据包ID为0005，则所述目标语音数据包对应的目标位置可以在数据包ID为0004对应语音识别结果和数据包ID为0006对应语音识别结果之间，可以理解，本发明实施例对于上述目标位置的具体确定过程不加以限制。

在本发明的一种应用示例中，假设某语音流对应的完整文本信息为“大家好，我是雨天，因为刚好出生在雨天，老爸又刚好姓夏，而且妈妈也希望我如雨后春笋、天天向上哦！大家都说我是个阳光女孩，因为我是开心果啊。我老是坐不住，呵呵，能跟小椅子成为好朋友，是老师和爸爸妈妈现在的最大心愿”；然而，在实际应用中，一些因素可能导致该语音流对应的文本信息不完整，例如，在一次语音信转写后，不完整的文本信息可能为“大家好，我是雨天，因为刚好出生在雨天，老爸又刚好姓夏。我老是坐不住，呵呵，能跟小椅子成为好朋友，是老师和爸爸妈妈现在的最大心愿”，则本发明实施例可以通过再次语音转写，从服务器获取目标数据包对应的语音识别结果，如“而且妈妈也希望我如雨后春笋、天天向上哦！大家都说我是个阳光女孩，因为我是开心果啊”等，并将目标数据包对应的语音识别结果显示在对应的目标位置，此处的目标位置可以为“老爸又刚好姓夏”与“我老是坐不住”之间的位置，上述目标语音数据包对应的语音识别结果可以作为语音流对应语音转写结果的补充。

可以理解，在再次语音转写过程中，一些因素可能导致该目标语音数据包无法到达服务器，此种情况下，服务器也可以向客户端返回目标语音数据包对应的错误码，此种情况下，客户端可以重新执行步骤201至步骤202以进行语音流的再次语音转写，可以理解，本发明实施例对于步骤201至步骤202的具体应用情况不加以限制。

综上，本发明实施例的语音处理方法，可以在针对语音流进行一次语音转写后，依据服务器针对语音流中语音数据包返回的语音识别结果和/或错误码，自动获取需要重新转写的目标语音数据包，并通过重新发送该目标语音数据包实现对于该目标语音数据包的再次语音转写，故本发明实施例可以通过上述再次语音转写获取上述目标语音数据包对应的语音识别结果，而上述目标语音数据包对应的语音识别结果可以作为语音流对应语音转写结果的补充，因此本发明实施例将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中，可以提高语音流对应语音转写结果的完整性，进而可以提高语音转写的准确率。

方法实施例二

参照图3，示出了本发明的一种语音处理方法实施例二的步骤流程图，本实施例为图2所示实施例的可选实施例，具体可以包括如下步骤：

步骤301、在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，确定所述语音流对应的文本流；

步骤302、响应于用户触发的标记添加指令，分别为所述语音流及其对应的文本流添加对应的标记；

步骤303、在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果可以包括：语音识别结果和/或错误码；

步骤304、向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；

步骤305、接收所述服务器针对所述目标语音数据包返回的语音识别结果；

步骤306、将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

相对于图1所示实施例，本实施例可以通过步骤301至步骤302实现在针对语音流进行一次语音转写的过程中的标记添加，上述标记添加可以为语音流(如正在录制的语音流)和实时转写得到的文本流添加标记，以便于用户后续查找重点。其中，可以为所述语音流添加对应的第一标记，以便于用户从语音流中查找重点；可以为语音流对应的文本流添加第二标记，以便于用户从语音流对应的语音转写结果中查找重点。

在实际应用中，客户端可以通过UI提供标记添加接口，以使用户通过该标记添加接口触发上述标记添加指令。然而，位于UI之上的标记添加接口往往存在操作不方便的问题，例如，上述智能终端用于采集被讲话用户的语音信号，在智能终端与触发标记添加指令的用户存在一定距离的情况下，操作不方便的问题尤其严重。并且，在例如采访场景的场景中，采访者用户在被采访者用户面前通过上述智能终端触发上述标记添加指令，可能给被采访者用户带来不适感。

针对上述操作不方便的问题，在本发明的一种可选实施例中，上述标记添加指令可以通过蓝牙设备触发得到。其中，蓝牙设备可以为与智能终端相互独立的设备，通过蓝牙设备触发上述标记添加指令，可以提高标记添加的便捷性，且可以避免对于被采访者用户的影响。

在实际应用中，可以预先建立智能终端与蓝牙设备之间的匹配，在匹配成功后，在针对语音流进行一次语音转写的过程中，用户可以通过蓝牙设备的物理按键触发上述标记添加指令，智能终端可以识别通过蓝牙设备触发的标记添加指令，并未正在录制的语音流和实时转写的文本流打上重点标记。上述蓝牙设备的例子可以包括：蓝牙自拍设备，用户可以通过点击上述蓝牙自拍设备上的蓝牙自拍键触发上述标记添加指令，可以理解，本发明实施例对于具体的蓝牙设备不加以限制。

综上，本发明实施例的语音处理方法，可以实现在针对语音流进行一次语音转写的过程中的标记添加，上述标记添加可以为语音流(如正在录制的语音流)和实时转写得到的文本流添加重点标记，以便于用户后续查找重点。

方法实施例三

参照图4，示出了本发明的一种语音处理方法实施例三的步骤流程图，本实施例为图2或图3所示实施例的可选实施例，具体可以包括如下步骤：

步骤401、在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，在播放编辑界面显示所述语音流对应的文本流；

步骤402、在完成所述语音流的一次语音转写后，响应于用户针对所述播放编辑界面中文本触发的摘要处理指令，将所述摘要处理指令对应的目标文本设置为所述语音流对应文件的摘要；

步骤403、在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果可以包括：语音识别结果和/或错误码；

步骤404、向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；

步骤405、接收所述服务器针对所述目标语音数据包返回的语音识别结果；

步骤406、将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

在例如采访场景的场景中，用户可能产生庞大的文本，后续用户往往需要在庞大的文本中筛选出有用内容进行单独处理，上述有用内容的筛选将耗费较多的操作成本。

相对于图1所示实施例，本实施例可以在完成所述语音流的一次语音转写后，响应于用户针对所述播放编辑界面中文本触发的摘要处理指令，将所述摘要处理指令对应的目标文本设置为所述语音流对应文件的摘要，这样可以使用户对上述摘要进行单独处理，由此可以节省用户从庞大的文本中筛选出有用内容所耗费的操作成本。

本发明实施例中，播放编辑界面可用于同步显示讲话用户的语音信号及其对应的文本信息，例如，播放编辑界面可以包括：用于显示语音信号的语音区域和用于显示文本信息的文本区域。例如，在语音流的一次语音转写过程中，播放编辑界面可以同步显示讲话用户的语音流及其对应的文本流；又如，在完成语音流的一次语音转写后，可以响应于用户的播放指令，播放编辑界面可以播放已录制的语音流，并同步显示当前播放的语音信号对应的文本信息，例如，可以对当前播放的语音信号对应的文本信息进行标记显示(如阴影显示、特殊字体显示等)。

摘要可以位于与播放编辑界面不同的界面，也即，可以通过与播放编辑界面不同的界面来进行摘要的显示，例如，可以通过摘要界面显示所述语音流对应文件的摘要，这样可以实现摘要的单独处理，节省用户的操作成本。

在本发明的一种应用示例中，在完成语音流的一次语音转写后，播放编辑界面可以显示有所述语音流对应的文本，或者，播放编辑界面还可以显示有之前的语音流对应的文本，此种情况下，用户可以通过触摸、鼠标等方式选中播放编辑界面中显示的目标文本(该目标文本可以为部分或者全部文本)，并针对所选中的目标文本触发摘要处理指令，则本发明实施例可以将所述摘要处理指令对应的目标文本设置为所述语音流对应文件的摘要。可选地，在接收到目标文本的选中指令后，本发明实施例可以弹出对应的菜单，该菜单中可以包括：“发送到摘要”接口，则若接收到用户对于该“发送到摘要”接口的触发指令后，可以认为用户触发了前述的摘要处理指令。可以理解，该菜单中还可以包括：“复制”、“复制全文”、“标记添加”等接口，以实现用户对于目标文本的操作。

在本发明的一种可选实施例中，所述方法还可以包括：在将所述摘要处理指令对应的目标文本设置为摘要后，跳转至摘要界面，所述摘要界面用于显示所述语音流对应文件的摘要。在实际应用中，摘要界面显示的摘要可以包括：至少一次语音转写过程对应文本的摘要。

可以理解，上述在将所述摘要处理指令对应的目标文本设置为摘要后，跳转至摘要界面的方式只是作为可选实施例，实际上，在将所述摘要处理指令对应的目标文本设置为摘要后，可以不进行界面的跳转。可选地，上述播放编辑界面中可以设置有摘要接口(如摘要控件)，则可以响应于用户对于该摘要接口的触发指令，跳转至摘要界面，可以理解，本发明实施例对于摘要界面的具体触发方式不加以限制。

综上，本发明实施例的语音处理方法，可以在完成所述语音流的一次语音转写后，响应于用户针对所述播放编辑界面中文本触发的摘要处理指令，将所述摘要处理指令对应的目标文本设置为所述语音流对应文件的摘要，这样可以使用户对上述摘要进行单独处理，由此可以节省用户从庞大的文本中筛选出有用内容所耗费的操作成本。

方法实施例四

参照图5，示出了本发明的一种语音处理方法实施例四的步骤流程图，具体可以包括如下步骤：

步骤501、接收客户端发送的语音流中语音数据包；

步骤502、进行所述语音数据包的处理，以得到对应的处理结果；其中，所述处理结果可以包括：语音识别结果和/或错误码；

步骤503、向客户端返回所述语音数据包对应的处理结果，以使所述客户端依据所述处理结果，从语音流中语音数据包中，获取需要重新转写的目标语音数据包；

步骤504、接收客户端重新发送的目标语音数据包；

步骤505、对所述目标语音数据包进行语音识别，并针对所述目标语音数据包向所述客户端返回对应的语音识别结果。

本发明实施例可由服务器执行。

在针对语音流进行一次语音转写的过程中，服务器可以通过步骤501接收客户端发送的语音流中语音数据包，并通过步骤502进行所述语音数据包的处理，以得到对应的处理结果；所述处理结果可以包括：语音识别结果和/或错误码。

其中，服务器可以针对接收到的语音数据包获取对应的语音识别结果。可选地，上述针对接收到的语音数据包获取对应的语音识别结果的过程可以包括：进行所述语音数据包对应语音信号的分割，以得到所述语音信号包括的语音片段；对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果。

和/或，服务器可以对不具有语音识别结果的语音数据包进行分析，以得到对应的错误码。可选地，对不具有语音识别结果的语音数据包给出错误原因，其中对于由于网络原因可以重新转写的语音数据包，可以预设的错误码单独记录下来。可选地，服务器可以根据接收到的语音数据包的数据包ID，获取不具有语音识别结果的语音数据包，例如，若检测到数据包ID不连续或者数据包超时或者数据包无法到达，可以得到不具有语音识别结果的语音数据包。

在实际应用中，服务器可以通过步骤503向客户端返回数据包ID及其对应的处理结果；其中，对于具有语音识别结果的数据包ID，对应的处理结果可以为语音识别结果，对于不具有语音识别结果的数据包ID，对应的处理结果可以为错误码。语音流对应的语音转写结果可以包括：语音流中语音数据包对应的语音识别结果。

一方面，客户端可以依据服务器针对语音流中语音数据包返回的处理结果，确定所述语音流对应的文本流，并在屏幕上实时显示所述语音流对应的文本流。

另一方面，在针对语音流进行一次语音转写后，客户端可以依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果可以包括：语音识别结果和/或错误码；例如，可以获取服务器未返回语音识别结果的语音数据包作为需要重新转写的目标语音数据包，和/或，可以获取错误码符合预置条件的语音数据包作为需要重新转写的目标语音数据包，等等。进一步，客户端可以通过重新发送该目标语音数据包实现对于该目标语音数据包的再次语音转写，因此可以通过上述再次语音转写获取上述目标语音数据包对应的语音识别结果。

在针对语音流进行再次语音转写的过程中，服务器可以通过步骤504接收客户端重新发送的目标语音数据包，并通过步骤505对所述目标语音数据包进行语音识别。可选地，上述对所述目标语音数据包进行语音识别可以包括：接收该目标语音数据包，并对该目标语音数据包进行语音信号的分割，以得到所述语音信号包括的语音片段；对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果等。由于上述对所述目标语音数据包进行语音识别的过程与一次语音转写过程中的处理过程类似，故可以相互参照。

在实际应用中，可通过解码器对所述语音片段进行语音识别，其中，解码器可以针对有效的语音信号进行语音特征提取，并在声学模型、语言模型的指导下，基于语音特征寻找最优的语音识别结果；有效的语音信号可以为非静音和/或非噪音的语音信号，也即，本发明实施例的解码器可以不对静音信号和/或噪音信号等无效的语音信号进行解码处理。当然，本发明实施例的解码器也可以对无效的语音信号进行解码处理，以得到空的文本信息，可以理解，本发明实施例对于是否对无效的语音信号进行解码处理不加以限制。

在实际应用中，可以采用固定的分割阈值，进行所述语音数据包对应语音信号的分割。例如，可以对所述语音数据包对应语音信号中的静音信号进行检测，若静音信号的持续时长超过该固定的分割阈值，则可以进行语音信号的分割，例如，该固定的分割阈值为0.5s或者0.6s，则可以将0.5s或者0.6s对应的时刻作为该语音信号的结束点。

发明人在实施本发明实施例的过程中发现，固定的分割阈值容易存在如下问题：在固定的分割阈值较长时，容易降低语音识别结果的返回效率，也即，语音识别结果的返回速度较慢；在固定的分割阈值较短时，则容易将讲话速率慢的语音信号错判为停顿静音，因此容易造成语音识别结果的不准确。

为了解决上述固定的分割阈值存在的问题，在本发明的一种可选实施例中，上述进行所述语音数据包的处理、或者对所述目标语音数据包进行语音识别的过程可以包括：利用动态的分割阈值，进行所述语音数据包或者所述目标语音数据包对应语音信号的分割，以得到所述语音信号包括的语音片段；其中，所述动态的分割阈值可以为依据所述语音信号所包括待分割语音信号中已经过语音活动检测的目标语音信号的时间长度得到；对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果。

上述待分割语音信号可用于表示需要被分割的语音信号，在实际应用中，服务器的接收单元可以将客户端发送的语音流中语音数据包发送至VAD单元，VAD单元可以针对接收的语音信号，检测对应的有效性(例如检测语音信号中的静音信号)，并依据检测结果进行语音信号的分割。其中，可以从语音流中除去已被分割的语音信号以得到上述待分割语音信号，在从语音流中除去已被分割的语音信号后，可以将待分割语音信号中已经过语音活动检测的语音信号作为目标语音信号。可选地，上述目标语音信号的起始点可以为非静音信号，由此可以提高目标语音信号的有效性，当然，上述目标语音信号的起始点也可以为静音信号，本发明实施例对于目标语音信号的具体起始点不加以限制。

本发明实施例可以依据待分割语音信号中已经过语音活动检测的目标语音信号的时间长度得到动态的分割阈值，因此可以实现语音识别结果的返回效率和准确率的最优。

在本发明的另一种可选实施例中，所述目标语音信号的时间长度等级越高，分割阈值越小。在实际应用中，可以将目标语音信号的时间长度划分为若干时间长度等级，高时间长度等级对应的时间长度大于低时间长度等级对应的时间长度。通过本发明实施例，由于可以针对时间长度较长的目标语音信号采用较小的分割阈值进行语音信号的分割，因此可以在有些噪音场合下难以找到静音的情况下，通过较小的分割阈值提高语音识别结果的返回效率。

参照表1，示出了本发明实施例的一种时间长度等级与分割阈值之间的映射关系的示意，其中，第一时间长度阈值、第二时间长度阈值和第三时间长度阈值递增，第一分割阈值、第二分割阈值和第三分割阈值递减。

表1

在本发明的一种应用示例中，第一时间长度阈值、第二时间长度阈值和第三时间长度阈值可以分别为5s、6s和7s，第一分割阈值、第二分割阈值和第三分割阈值可以分别为0.5s、0.4s和0.3s，可以理解，本发明实施例对于第一时间长度阈值、第二时间长度阈值和第三时间长度阈值的具体数值不加以限制，以及，本发明实施例对于第一分割阈值、第二分割阈值和第三分割阈值的具体数值不加以限制。其中，在有些噪音场合，寻找0.5s的静音的难度较大，此种情况下，如果不返回语音识别结果，则影响用户体验，因此本发明实施例可以逐步降低分割阈值，以降低寻找符合分割条件的静音的难度，由此可以避免分割得到的语音片段的过长或者过短，进而可以提高语音识别结果的返回效率。

在本发明的一种应用示例中，假设单位的语音流的时间长度为2分钟，语音数据包的时间长度可以为500毫秒，也即单位的语音流可以包含240个语音数据包，则服务器可以依次接收到语音流包括的语音数据包，并将该语音数据包送至VAD单元；假设VAD单元对于前10个语音数据包的检测结果为：前4.5s为有效的语音信号，第4.5s～5s为静音信号，并将经过VAD检测的前10个语音数据包作为目标语音信号，假设第一分割阈值为0.5s，则可以依据前10个语音数据包得到对应的语音片段；接着，VAD单元可以对第11个语音数据包及其之后的语音数据包进行VAD检测，并将经过VAD检测的语音信号作为目标语音信号，假设无法从第11-20个语音数据包中检测到0.5s的静音信号，则可以采用第二分割阈值0.4s，假设无法从第11-22个语音数据包中检测到0.4s的静音信号，则可以采用第三分割阈值0.3s，假设无法从第11-24个语音数据包中检测到0.3s的静音信号，则可以采用第四分割阈值0.2s…，由此可以避免分割得到的语音片段的过长或者过短。

综上，本发明实施例的语音处理方法，服务器可以向客户端返回所述语音数据包对应的处理结果，以使所述客户端依据所述处理结果，从语音流中语音数据包中，获取需要重新转写的目标语音数据包；并且，服务器可以接收客户端重新发送的目标语音数据包，并对所述目标语音数据包进行语音识别，故可以通过重新发送该目标语音数据包实现对于该目标语音数据包的再次语音转写，而上述目标语音数据包对应的语音识别结果可以作为语音流对应语音转写结果的补充，因此本发明实施例可以提高语音流对应语音转写结果的完整性，进而可以提高语音转写的准确率。

并且，本发明实施例可以依据待分割语音信号中已经过语音活动检测的目标语音信号的时间长度得到动态的分割阈值，因此可以实现语音识别结果的返回效率和准确率的最优。

方法实施例五

参照图6，示出了本发明的一种语音处理方法实施例五的步骤流程图，具体可以包括如下步骤：

步骤601、在针对语音流进行一次语音转写的过程中，客户端向服务器发送该语音流中语音数据包；

步骤602、服务器进行所述语音数据包的处理，以得到对应的处理结果；其中，所述处理结果可以包括：语音识别结果和/或错误码；

步骤603、服务器向客户端返回所述语音数据包对应的处理结果；

步骤604、在针对语音流进行一次语音转写后，客户端依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；

步骤605、客户端向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；

步骤606、服务器对所述目标语音数据包进行语音识别；

步骤607、客户端接收服务器针对所述目标语音数据包返回的语音识别结果；

步骤608、客户端将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

在实际应用中，步骤601可以响应于用户触发的指令，针对语音流进行一次语音转写。客户端可以接收服务器针对语音流中语音数据包返回的处理结果，并依据该处理结果确定所述语音流对应的文本流，进而在屏幕上实时显示所述语音流对应的文本流，其中，语音流对应的文本流可以为语音流对应的语音转写结果。

步骤605可以自动或者响应于用户触发的指令，针对语音流进行再次语音转写，由此可以提高语音流对应语音转写结果的完整性，进而可以提高语音转写的准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例一

参照图7，示出了本发明的一种语音处理装置实施例一的结构框图，具体可以包括：

目标数据包获取模块701，用于在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果可以包括：语音识别结果和/或错误码；

目标数据包发送模块702，用于向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；

接收模块703，用于接收所述服务器针对所述目标语音数据包返回的语音识别结果；以及

结果补充模块704，用于将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

可选地，所述目标数据包获取模块701可以包括：

第一目标数据包获取子模块，用于依据服务器针对所述语音流中语音数据包返回的语音识别结果，从所述语音流中语音数据包中，获取服务器未返回语音识别结果的语音数据包，作为需要重新转写的目标语音数据包；或者

第二目标数据包获取子模块，用于依据服务器针对所述语音流中语音数据包返回的错误码，从所述语音流中语音数据包中，获取错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包；或者

第三目标数据包获取子模块，用于依据服务器针对所述语音流中语音数据包返回的语音识别结果和错误码，从所述语音流中语音数据包中，获取服务器未返回语音识别结果、且错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包。

可选地，所述目标数据包发送模块702可以包括：

用户触发发送子模块，用于响应于用户触发的续转指令，向所述服务器重新发送所述目标语音数据包。

可选地，所述装置还可以包括：

提示模块，用于在所述目标数据包获取模块获取需要重新转写的目标语音数据包之后、目标数据包发送模块所述向所述服务器重新发送所述目标语音数据包之前，输出提示信息；所述提示信息用于提示用户所述语音流的语音识别结果缺失。

可选地，所述装置还可以包括：

文本流确定模块，用于在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，确定所述语音流对应的文本流；

标记添加模块，用于响应于用户触发的标记添加指令，分别为所述语音流及其对应的文本流添加对应的标记。

可选地，所述标记添加指令为通过蓝牙设备触发的标记添加指令。

可选地，所述装置还可以包括：

文本流显示模块，用于在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，在播放编辑界面显示所述语音流对应的文本流；

摘要处理模块，用于在完成所述语音流的一次语音转写后，响应于用户针对所述播放编辑界面中文本触发的摘要处理指令，将所述摘要处理指令对应的目标文本设置为所述语音流对应文件的摘要。

可选地，所述装置还可以包括：

界面跳转模块，用于在将所述摘要处理指令对应的目标文本设置为摘要后，跳转至摘要界面，所述摘要界面用于显示所述语音流对应文件的摘要。

对于图7所示装置实施例而言，由于其与图2至图4所示方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

装置实施例二

参照图8，示出了本发明的一种语音处理装置实施例二的结构框图，具体可以包括：

第一接收模块801，用于接收客户端发送的语音流中语音数据包；

第一处理模块802，用于进行所述语音数据包的处理，以得到对应的处理结果；其中，所述处理结果包括：语音识别结果和/或错误码；

第一发送模块803，用于向客户端返回所述语音数据包对应的处理结果，以使所述客户端依据所述处理结果，从语音流中语音数据包中，获取需要重新转写的目标语音数据包；

第二接收模块804，用于接收客户端重新发送的目标语音数据包；

第二处理模块805，用于对所述目标语音数据包进行语音识别；以及

第二发送模块806，用于针对所述目标语音数据包向所述客户端返回对应的语音识别结果。

可选地，所述第一处理模块802或者所述第二处理模块805，可以包括：

语音分割子模块，用于利用动态的分割阈值，进行所述语音数据包或者所述目标语音数据包对应语音信号的分割，以得到所述语音信号包括的语音片段；其中，所述动态的分割阈值为依据所述语音信号所包括待分割语音信号中已经过语音活动检测的目标语音信号的时间长度得到；以及

语音识别子模块，用于对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果。

可选地，所述目标语音信号的时间长度等级越高，分割阈值越小，其中，高时间长度等级对应的时间长度大于低时间长度等级对应的时间长度。

对于图8所示装置实施例而言，由于其与图5所示方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于语音处理的装置作为终端时的框图。例如，该终端900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频流。例如，音频组件910包括一个麦克风(MIC)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频流。所接收的音频流可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频流。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如所述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图10是根据一示例性实施例示出的一种用于语音处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由服务器1900的处理器1922执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：在针对语音流进行一次语音转写后，依据服务器针对所述语音流中语音数据包返回的处理结果，从所述语音流中语音数据包中，获取需要重新转写的目标语音数据包；其中，所述处理结果包括：语音识别结果和/或错误码；向所述服务器重新发送所述目标语音数据包，以使所述服务器对所述目标语音数据包进行语音识别；接收所述服务器针对所述目标语音数据包返回的语音识别结果；将所述目标语音数据包对应的语音识别结果补充到所述语音流对应的语音转写结果中。

可选地，所述获取需要重新转写的目标语音数据包，包括：依据服务器针对所述语音流中语音数据包返回的语音识别结果，从所述语音流中语音数据包中，获取服务器未返回语音识别结果的语音数据包，作为需要重新转写的目标语音数据包；或者依据服务器针对所述语音流中语音数据包返回的错误码，从所述语音流中语音数据包中，获取错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包；或者依据服务器针对所述语音流中语音数据包返回的语音识别结果和错误码，从所述语音流中语音数据包中，获取服务器未返回语音识别结果、且错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包。

可选地，所述向所述服务器重新发送所述目标语音数据包，包括：响应于用户触发的续转指令，向所述服务器重新发送所述目标语音数据包。

可选地，在所述获取需要重新转写的目标语音数据包之后、所述向所述服务器重新发送所述目标语音数据包之前，所述方法还包括：输出提示信息；所述提示信息用于提示用户所述语音流的语音识别结果缺失。

可选地，所述方法还包括：在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，确定所述语音流对应的文本流；响应于用户触发的标记添加指令，分别为所述语音流及其对应的文本流添加对应的标记。

可选地，所述方法还包括：在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，在播放编辑界面显示所述语音流对应的文本流；在完成所述语音流的一次语音转写后，响应于用户针对所述播放编辑界面中文本触发的摘要处理指令，将所述摘要处理指令对应的目标文本设置为所述语音流对应文件的摘要。

可选地，所述方法还包括：在将所述摘要处理指令对应的目标文本设置为摘要后，跳转至摘要界面，所述摘要界面用于显示所述语音流对应文件的摘要。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：接收客户端发送的语音流中语音数据包；进行所述语音数据包的处理，以得到对应的处理结果；其中，所述处理结果包括：语音识别结果和/或错误码；向客户端返回所述语音数据包对应的处理结果，以使所述客户端依据所述处理结果，从语音流中语音数据包中，获取需要重新转写的目标语音数据包；接收客户端重新发送的目标语音数据包；对所述目标语音数据包进行语音识别，并针对所述目标语音数据包向所述客户端返回对应的语音识别结果。

可选地，所述进行所述语音数据包的处理、或者对所述目标语音数据包进行语音识别，包括：利用动态的分割阈值，进行所述语音数据包或者所述目标语音数据包对应语音信号的分割，以得到所述语音信号包括的语音片段；其中，所述动态的分割阈值为依据所述语音信号所包括待分割语音信号中已经过语音活动检测的目标语音信号的时间长度得到；对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音处理方法、一种语音处理装置、以及一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取需要重新转写的目标语音数据包，包括：

依据服务器针对所述语音流中语音数据包返回的语音识别结果，从所述语音流中语音数据包中，获取服务器未返回语音识别结果的语音数据包，作为需要重新转写的目标语音数据包；或者

依据服务器针对所述语音流中语音数据包返回的错误码，从所述语音流中语音数据包中，获取错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包；或者

依据服务器针对所述语音流中语音数据包返回的语音识别结果和错误码，从所述语音流中语音数据包中，获取服务器未返回语音识别结果、且错误码符合预置条件的语音数据包，作为需要重新转写的目标语音数据包。

3.根据权利要求1或2所述的方法，其特征在于，所述向所述服务器重新发送所述目标语音数据包，包括：

响应于用户触发的续转指令，向所述服务器重新发送所述目标语音数据包。

4.根据权利要求3所述的方法，其特征在于，在所述获取需要重新转写的目标语音数据包之后、所述向所述服务器重新发送所述目标语音数据包之前，所述方法还包括：

输出提示信息；所述提示信息用于提示用户所述语音流的语音识别结果缺失。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，确定所述语音流对应的文本流；

响应于用户触发的标记添加指令，分别为所述语音流及其对应的文本流添加对应的标记。

6.根据权利要求5所述的方法，其特征在于，所述标记添加指令为通过蓝牙设备触发的标记添加指令。

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在针对语音流进行一次语音转写的过程中，依据服务器针对语音流中语音数据包返回的处理结果，在播放编辑界面显示所述语音流对应的文本流；

在完成所述语音流的一次语音转写后，响应于用户针对所述播放编辑界面中文本触发的摘要处理指令，将所述摘要处理指令对应的目标文本设置为所述语音流对应文件的摘要。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在将所述摘要处理指令对应的目标文本设置为摘要后，跳转至摘要界面，所述摘要界面用于显示所述语音流对应文件的摘要。

9.一种语音处理方法，其特征在于，包括：

接收客户端发送的语音流中语音数据包；

接收客户端重新发送的目标语音数据包；

10.根据权利要求9所述的方法，其特征在于，所述进行所述语音数据包的处理、或者对所述目标语音数据包进行语音识别，包括：

利用动态的分割阈值，进行所述语音数据包或者所述目标语音数据包对应语音信号的分割，以得到所述语音信号包括的语音片段；其中，所述动态的分割阈值为依据所述语音信号所包括待分割语音信号中已经过语音活动检测的目标语音信号的时间长度得到；

对所述语音片段进行语音识别，以得到所述语音片段对应的语音识别结果。

11.根据权利要求10所述的方法，其特征在于，所述目标语音信号的时间长度等级越高，分割阈值越小，其中，高时间长度等级对应的时间长度大于低时间长度等级对应的时间长度。

12.一种语音处理装置，其特征在于，包括：

13.一种语音处理装置，其特征在于，包括：

14.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

15.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收客户端发送的语音流中语音数据包；

接收客户端重新发送的目标语音数据包；