CN111899737A

CN111899737A - 音频数据处理方法、装置、服务器及存储介质

Info

Publication number: CN111899737A
Application number: CN202010736294.XA
Authority: CN
Inventors: 李�杰; 成凯; 郭少军
Original assignee: Shanghai Xiri Electronic Technology Co ltd
Current assignee: Shanghai Xiri Electronic Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-06

Abstract

本申请提出一种音频数据处理方法、装置、服务器及存储介质，涉及语音交互技术领域，通过持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；然后，当持续第一时间间隔未接收到用户新的音频数据，则对文本识别结果进行处理，得到对应的语音处理结果；接下来，当持续第二时间间隔未接收到用户新的音频数据，则将语音处理结果反馈给用户；如此，在用户停止输入语音后的第一时间间隔后即将文本识别结果转换为对应的语音处理结果，从而当用户停止输入语音后的第二时间间隔，无需等到用户停止输入语音后的第二时间间隔后再将文本识别结果转换为对应的语音处理结果，提供了语音交互时的响应速度。

Description

音频数据处理方法、装置、服务器及存储介质

技术领域

本申请涉及智能语音交互技术领域，具体而言，涉及一种音频数据处理方法、装置、服务器及存储介质。

背景技术

在例如语音交互的场景中，语音交互系统可以采集用户的语音进行处理，从而响应用户的各种需求。

在一些语音交互方案中，语音交互系统一般是按照固定的结束时长，等待录入用户完整的一句话后，才能对用户的语音进行处理，并将处理的结果进行反馈。

然而，在一些场景中，用户可能存在语速较快的情况，使得用户可能存在等待语音交互系统反馈的场景，交互响应较慢。

发明内容

本申请的目的在于提供一种音频数据处理方法、装置、服务器及存储介质，能够提供语音交互时的响应速度。

为了实现上述目的，本申请采用的技术方案如下：

第一方面，本申请提供一种音频数据处理方法，所述方法包括：

持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；

当持续第一时间间隔未接收到用户新的音频数据，对所述文本识别结果进行处理，得到对应的语音处理结果；

当持续第二时间间隔未接收到用户新的音频数据，将所述语音处理结果反馈给用户；其中，所述第二时间间隔大于所述第一时间间隔。

第二方面，本申请提供一种音频数据处理装置，所述装置包括：

处理模块，用于持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；

所述处理模块还用于，当持续第一时间间隔未接收到用户新的音频数据，对所述文本识别结果进行处理，得到对应的语音处理结果；

发送模块，用于当持续第二时间间隔未接收到用户新的音频数据，将所述语音处理结果反馈给用户；其中，所述第二时间间隔大于所述第一时间间隔。

第三方面，本申请提供一种服务器，所述服务器包括存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现上述的音频数据处理方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的音频数据处理方法。

本申请提供的一种音频数据处理方法、装置、服务器及存储介质，通过持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；然后，当持续第一时间间隔未接收到用户新的音频数据，则对文本识别结果进行处理，得到对应的语音处理结果；接下来，当持续第二时间间隔未接收到用户新的音频数据，则将语音处理结果反馈给用户；如此，在用户停止输入语音后的第一时间间隔后即将文本识别结果转换为对应的语音处理结果，从而当用户停止输入语音后的第二时间间隔，无需等到用户停止输入语音后的第二时间间隔后再将文本识别结果转换为对应的语音处理结果，提供了语音交互时的响应速度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1示出一种语音交互信令示意图；

图2示出本申请提供的音频数据处理方法的一种示意性应用场景图；

图3示出本申请提供的服务器的一种示意性结构框图；

图4示出本申请提供的音频数据处理方法的一种示意性流程框图；

图5示出另一种语音交互信令示意图；

图6示出本申请提供的音频数据处理装置的一种示意性结构框图。

图中：100-服务器；101-存储器；102-处理器；103-通信接口；300-音频数据处理装置；301-处理模块；302-发送模块。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请的一些实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请选定的一些实施例。基于本申请中的一部分实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在例如上述的语音交互的场景中，一些场景的交互方式为，利用智能语音交互设备与服务提供方侧的服务器建立通信，由智能语音交互设备采集用户的语音信息，并将采集的语音信息发送给服务器，然后由服务器对该语音信息进行解析并处理，接着将处理得到的语音处理结果发送给智能语音交互设备，从而实现与用户的语音交互。

比如，参照图1，在一些可能的场景中，以智能音响作为上述的智能语音交互设备为例，可以在服务器内配置ASR(Automatic Speech Recognition，自动语音识别技术)服务和NLU(Natural Language Processing，自然语言处理)服务，并在服务器内配置例如中控等调度服务。

其中，智能音响可以持续采集用户的语音信息，并将该语音信息发送给服务器；当服务器内的中控接收到智能音响发送的语音信息，中控可以向ASR服务发送ASR请求，由ASR服务持续对用户的语音信息进行转换处理，得到该语音信息对应的文本内容，并将得到的文本内容反馈给中控；接下来，中控可以持续的接收ASR服务反馈的文本内容，并保存为该语音信息对应的文本识别结果；然后，当中控确定用户输入语音信息结束，比如中控持续设定时间间隔(例如500ms)未接收到智能音箱发送的该用户的语音信息，中控可以将保存的文本识别结果发送给NLU服务，从而由NLU服务对该文本识别结果进行处理，并由NLU服务将得到的该文本识别结果对应的语音处理结果反馈给中控，从而由中控将该语音处理结果发送给智能音箱，并由智能音箱进行播放，完成与用户之间的智能语音交互服务。

其中，在一些场景中，假定NLU服务对文本识别结果进行处理、得到对应的文本识别结果的所需时间为100ms，以上述中控设定时间间隔为500ms为例，在不考虑通信时延的情况下，则用户获得语音交互结果的一次时间间隔则为600ms。

然而，由于不同的用户语速不尽相同，在例如上述的实现方式中，用户等待语音交互结果的时间固定为600ms，使得一些语速较快的用户，可能会存在等待语音交互系统反馈的情况，用户感知到的交互响应较慢。

为此，基于上述缺陷，本申请提供的一种可能的实现方式为：通过持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；然后，当持续第一时间间隔未接收到用户新的音频数据，则对文本识别结果进行处理，得到对应的语音处理结果；接下来，当持续第二时间间隔未接收到用户新的音频数据，则将语音处理结果反馈给用户；如此，无需等到用户停止输入语音后的第二时间间隔后再将文本识别结果转换为对应的语音处理结果，以提供语音交互时的响应速度。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图2，图2示出本申请提供的音频数据处理方法的一种示意性应用场景图，在本申请的一些实施例中，服务器与终端设备位于无线网络或有线网络中，通过该无线网络或有线网络，服务器与终端设备进行数据交互，比如终端设备向服务器发送语音信息，服务器向终端设备发送语音信息对应的语音交互结果。

在本申请的一些实施例中，该终端设备可采用智能语音交互设备，例如可以为带有语音交互功能的智能手机、个人电脑(personal computer，PC)、平板电脑以及智能音箱等等。

本申请提供的一种音频数据处理方法，可以应用于如图1所示的服务器，该服务器中安装有应用程序，与终端设备相对应，用于为用户提供服务，该音频数据处理方法可通过服务器中安装的应用程序实现。

比如，在一些场景中，用户可以向该终端设备发送语音信息，以使该终端设备能够将接收的用户的语音信息发送给服务器，从而由服务器执行本申请提供的音频数据处理方法，实现与用户的语音交互。

请参阅图3，图3示出本申请提供的服务器100的一种示意性结构框图。在一些实施例中，服务器100可以包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器101可用于存储软件程序及模块，如本申请提供的音频数据处理装置对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理，进而执行本申请提供的音频数据处理方法的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解的是，图3所示的结构仅为示意，服务器100还可以包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

下面以图3所示的服务器作为示意性执行主体，对本申请提供的音频数据处理方法进行示例性说明。

请参阅图4，图4示出本申请提供的音频数据处理方法的一种示意性流程框图，可以包括以下步骤：

步骤201，持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；

步骤203，当持续第一时间间隔未接收到用户新的音频数据，对文本识别结果进行处理，得到对应的语音处理结果；

步骤205，当持续第二时间间隔未接收到用户新的音频数据，将语音处理结果反馈给用户。

结合图1以及图5所示，在一些可能的实施方式中，服务器可以通过例如图2中的终端设备，持续接收用户的音频数据，并采用例如上述的调用ASR服务的方式，持续对接收的音频数据进行文本识别，得到该音频数据对应的文本识别结果并保存在服务器本地。

然后，当用户停止输入语音，且持续第一时间间隔，即对应服务器侧，当服务器持续第一时间间隔未接收到用户新的音频数据，服务器可以采用例如上述的调用NLU服务的方式对文本识别结果进行处理，得到对应的语音处理结果。

可以理解的是，上述仅为示例，以服务器通过监控接收用的音频数据的时间点来判断用户是否停止输入语音；在本申请其他一些可能的实施方式中，还可以由终端设备监控用户停止输入语音的时长，且当终端设备判定用户停止输入语音的时长达到第一时间间隔，由终端设备向服务器发送NLU预处理请求，当服务器接收到NLU预处理请求，服务器则可以对保存的文本识别结果进行处理，得到对应的语音处理结果。

接下来，当服务器持续第二时间间隔仍然未接收到用户新的音频数据，则可以将该语音处理结果反馈给用户，比如在图2所示的场景中，服务器可以将得到的语音处理结果发送给终端设备，从而由终端设备对该语音处理结果进行播放，以完成与用户的语音交互。

其中，在本申请提供的上述实施例中，第一时间间隔可以表征服务器对文本识别结果进行处理的时间节点，第二时间间隔可以表征用户输入语音结束的时间节点，第一时间间隔可以小于第二时间间隔；比如，假定第二时间间隔为上述场景中的500ms，则第一时间间隔可以设置为300ms。

如此，将本申请提供的上述实现方式与一些其他的实现方式进行对比，以NLU服务处理文本识别结果需要耗时100ms计算，当用户停止输入语音后，按照一些其他的实现方式，则需要耗时600ms才能够给用户反馈语音交互结果，而按照本申请提供的实现方式，可以仅需要500ms即能够给用户反馈语音交互结果，从而提升了语音交互时的响应速度。

可见，基于上述设计，本申请提供的音频数据处理方法，通过持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；然后，当持续第一时间间隔未接收到用户新的音频数据，则对文本识别结果进行处理，得到对应的语音处理结果；接下来，当持续第二时间间隔未接收到用户新的音频数据，则将语音处理结果反馈给用户；如此，在用户停止输入语音后的第一时间间隔后即将文本识别结果转换为对应的语音处理结果，从而当用户停止输入语音后的第二时间间隔，无需等到用户停止输入语音后的第二时间间隔后再将文本识别结果转换为对应的语音处理结果，提供了语音交互时的响应速度。

需要说明的是，本申请提供的上述实现方式，是以服务器在持续第一时间间隔未接收到用户新的音频数据，并且持续到第二时间间隔仍然未接收到用户新的音频数据时，将文本识别结果对应的语音处理结果反馈给用户；在一些可能的场景中，尽管服务器持续第一时间间隔未接收到用户新的音频数据，但在第二时间间隔之前接收到了用户新的音频数据，则表征用户的语音还未输入结束。

因此，在本申请一些可能的实施例中，当服务器持续第一时间间隔未接收到用户新的音频数据，但在第二时间间隔范围内接收到用户新的音频数据，则服务器可以基于该新的音频数据，继续执行步骤201，进而以该新的音频数据继续进行文本识别，并将该新的音频数据对应的文本识别结果添加至服务器已经保存的文本识别结果中。

比如，在上述第一时间间隔为300ms、第二时间间隔为500ms的示例中，假定服务器在持续300ms后未接收到用户新的音频数据，则服务器可以通过调用NLU服务先将保存的文本识别结果转换为对应的语音处理结果；然后，当在400ms时接收到用户新的音频数据，则服务器可以将获得的语音处理结果丢弃，并调用ASR服务对该新的音频数据进行处理，从而获得该新的音频数据对应的文本识别结果，且将新获得的文本识别结果添加至在先保存的文本识别结果中。

另外，在一些可能的场景中，针对不同的用户，服务器还可以动态的调节上述的第一时间间隔，以适应不同语速的用户。

比如，在一些可能的实施例中，服务器可以保存有用户对应的历史数据集，该历史数据集中可以包括有多个历史音频间隔数组，每一历史音频间隔数组可以通过用户的一段语音获得，且每一历史音频间隔数组可以包括多个历史音频间隔时长，每一历史音频间隔时长表征用户对应的音频中相邻两个字的间隔时长；比如，假定用户的一段语音对应的文本识别结果为“播放一首欢快的歌”，则该语音对应的历史音频间隔数组可以包括有7个数值，每一个数值均为一个音频间隔时长，比如该数组中的第一个数值可以表征用户输入“播”字和“放”两者间的间隔时长。

当然，可以理解的是，由于用户输入的每一段语音所包含的字数可能不尽相同，该用户对应的历数数据集中所包含的任意两个历史音频间隔数组可以包含有相同数量的历史音频间隔时长，也可以包含有不同数量的历史音频间隔时长。

如此，在一些实施例中，服务器可以从用户对应的历数数据集中获得多个历史音频间隔时长，然后在该多个历史音频间隔时长中确定出新的第一时间间隔，并利用该新的第一时间间隔执行步骤203。

当然，可以理解的是，在一些实施例中，该新的第一时间间隔可以小于第二时间间隔。

另外，若确定出的新的第一时间间隔不小于第二时间间隔，则服务器可以根据第二时间间隔，当持续第二时间间隔未接收到用户新的音频数据，则可以调用ASR服务将用户的音频数据转换为对应的文本识别结果，然后调用NLU服务对该文本识别结果进行处理，并将得到的语音处理结果反馈给用户。

其中，为了确保服务器确定出的新的第一时间间隔符合用户的语音输入习惯，从而减少用户重复调用ASR服务的次数，上述的新的第一时间间隔所对应的间隔时长，可以大于该多个历史音频间隔时长中超过设定比例的历史音频间隔时长。

比如，假定该设定比例定为90％，则该新的第一时间间隔所对应的间隔时长，需要大于该多个历史音频间隔时长中90％的历史音频间隔时长。如此，按照前述示例的实施方式，服务器可以提高用户90％的音频数据的响应速度，而只有10％的音频数据需要重复调用ASR服务。

可选地，作为一种可能的实现方式，服务器在该多个历史音频间隔时长中确定出新的第一时间间隔时，可以先按序排列该多个历史音频间隔时长；然后，服务器根据该设定比例在按序排列后的多个历史音频间隔时长中确定出上述的新的第一时间间隔；如此，能够利用较少的计算资源即可以确定出该新的第一时间间隔。

另外，作为另一种可能的实施方式，服务器在该多个历史音频间隔时长中确定出新的第一时间间隔时，可以根据高斯分布算法对该多个历史音频间隔时长进行处理，以获得该多个历史音频间隔时长对应的高斯分布模型；然后，服务器可以以该设定比例作为置信区间概率，在该高斯分布模型中确定出上述的新的第一时间间隔。

需要说明的是，在本申请一些可能的场景中，为了确保确定出的新的第一时间间隔能够满足用户在大多数场景下的语速，服务器在执行从用户对应的历史数据集中获得多个历史音频间隔时长的步骤之前，可以先判断该用户对应的历史数据集中包含的历史音频间隔数组是否达到设定的数量阈值；当为是，表征该用户对应的历史数据集所包含的数据量已经满足统计新的第一时间间隔所需的数据量，此时服务器则执行从用户对应的历史数据集中获得多个历史音频间隔时长的步骤；反之，当为否，表征该用户对应的历史数据集所包含的数据量还不满足统计新的第一时间间隔所需的数据量，需要再继续判断，直至该用户对应的历史数据集中包含的历史音频间隔数组达到设定的数量阈值，执行从用户对应的历史数据集中获得多个历史音频间隔时长的步骤。

另外，在一些实施例中，当持续第二时间间隔未接收到用户新的音频数据，服务器可以根据该用户的该音频数据，计算该音频数据对应的文本识别结果中所有相邻两个字的间隔时长，从而该文本识别结果对应的目标历史音频间隔数组，该目标历史音频间隔数组包含有该文本识别结果中所有相邻两个字的间隔时长；比如，假定该文本识别结果为“播放一首欢快的歌”，则服务器可以根据用户的音频数据，计算出“播放一首欢快的歌”中所有相邻的两个字之间的间隔时长，从而得到“播放一首欢快的歌”对应的目标历史音频间隔数组。

如此，服务器通过将该目标历史音频间隔数组添加至用户对应的历史数据集，从而不断更新该历史数据集，以使更新得到的新的第一时间间隔更加贴近用户实际的语速。

另外，基于与本申请提供的上述音频数据处理方法相同的发明构思，结合图6所示，本申请还提供一种音频数据处理装置300，该音频数据处理装置300可以包括处理模块301和发送模块302；其中：

处理模块301，用于持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果；

处理模块301还用于，当持续第一时间间隔未接收到用户新的音频数据，对文本识别结果进行处理，得到对应的语音处理结果；

发送模块302，用于当持续第二时间间隔未接收到用户新的音频数据，将语音处理结果反馈给用户；其中，第二时间间隔大于第一时间间隔。

可选地，作为一种可能的实现方式，处理模块301还用于，当在第二时间间隔范围内接收到用户新的音频数据，基于该新的音频数据，继续对接收用户的音频数据进行文本识别，得到对应的文本识别结果。

可选地，作为一种可能的实现方式，处理模块301还用于，从用户对应的历史数据集中获得多个历史音频间隔时长，其中，每一历史音频间隔时长表征用户对应的音频中相邻两个字的间隔时长；

在多个历史音频间隔时长中确定出新的第一时间间隔，并利用新的第一时间间隔，执行当持续第一时间间隔未接收到用户新的音频数据，对文本识别结果进行处理，得到对应的语音处理结果；其中，新的第一时间间隔对应的间隔时长大于多个历史音频间隔时长中超过设定比例的历史音频间隔时长，新的第一时间间隔小于第二时间间隔。

可选地，作为一种可能的实现方式，处理模块301在多个历史音频间隔时长中确定出新的第一时间间隔时，具体用于：

按序排列多个历史音频间隔时长；

根据设定比例在按序排列后的多个历史音频间隔时长中确定出新的第一时间间隔。

获得多个历史音频间隔时长对应的高斯分布模型；

以设定比例作为置信区间概率，在高斯分布模型中确定出新的第一时间间隔。

可选地，作为一种可能的实现方式，处理模块301在从用户对应的历史数据集中获得多个历史音频间隔时长之前，还用于：

判断用户对应的历史数据集中包含的历史音频间隔数组是否达到设定的数量阈值；其中，每一历史音频间隔数组包括多个历史音频间隔时长；

当为是，处理模块301从用户对应的历史数据集中获得多个历史音频间隔时长。

可选地，作为一种可能的实现方式，处理模块301在当持续第二时间间隔未接收到用户新的音频数据之后，还用于：

根据音频数据，获得文本识别结果对应的目标历史音频间隔数组；其中，目标历史音频间隔数组包含有文本识别结果中所有相邻两个字的间隔时长；

将目标历史音频间隔数组添加至用户对应的历史数据集。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的一些实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请的一些实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请的一些实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的部分实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

当在所述第二时间间隔范围内接收到用户新的音频数据，基于该新的音频数据，继续执行所述持续对接收用户的音频数据进行文本识别，得到对应的文本识别结果的步骤。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

从用户对应的历史数据集中获得多个历史音频间隔时长，其中，每一所述历史音频间隔时长表征用户对应的音频中相邻两个字的间隔时长；

在所述多个历史音频间隔时长中确定出新的第一时间间隔，并利用所述新的第一时间间隔执行所述当持续第一时间间隔未接收到用户新的音频数据，对所述文本识别结果进行处理，得到对应的语音处理结果的步骤；其中，所述新的第一时间间隔对应的间隔时长大于所述多个历史音频间隔时长中超过设定比例的历史音频间隔时长，所述新的第一时间间隔小于所述第二时间间隔。

4.如权利要求3所述的方法，其特征在于，所述在所述多个历史音频间隔时长中确定出新的第一时间间隔的步骤，包括：

按序排列所述多个历史音频间隔时长；

根据所述设定比例在按序排列后的多个历史音频间隔时长中确定出所述新的第一时间间隔。

5.如权利要求3所述的方法，其特征在于，所述在所述多个历史音频间隔时长中确定出新的第一时间间隔的步骤，包括：

获得所述多个历史音频间隔时长对应的高斯分布模型；

以所述设定比例作为置信区间概率，在所述高斯分布模型中确定出所述新的第一时间间隔。

6.如权利要求3所述的方法，其特征在于，在所述从用户对应的历史数据集中获得多个历史音频间隔时长的步骤之前，所述方法还包括：

判断用户对应的历史数据集中包含的历史音频间隔数组是否达到设定的数量阈值；其中，每一所述历史音频间隔数组包括多个历史音频间隔时长；

当为是，执行所述从用户对应的历史数据集中获得多个历史音频间隔时长的步骤。

7.如权利要求6所述的方法，其特征在于，在所述当持续第二时间间隔未接收到用户新的音频数据的步骤之后，所述方法还包括：

根据所述音频数据，获得所述文本识别结果对应的目标历史音频间隔数组；其中，所述目标历史音频间隔数组包含有所述文本识别结果中所有相邻两个字的间隔时长；

将所述目标历史音频间隔数组添加至用户对应的历史数据集。

8.一种音频数据处理装置，其特征在于，所述装置包括：

9.一种服务器，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。