CN110399315B

CN110399315B - 一种语音播报的处理方法、装置、终端设备及存储介质

Info

Publication number: CN110399315B
Application number: CN201910487860.5A
Authority: CN
Inventors: 张巍耀; 任伟; 张新成
Original assignee: Beijing Wutong Chelian Technology Co Ltd
Current assignee: Beijing Wutong Chelian Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-06-08
Anticipated expiration: 2039-06-05
Also published as: CN110399315A

Abstract

本发明实施例公开了一种语音播报的处理方法；所述方法包括：确定中央处理器CPU的使用率；若所述使用率低于第一使用阈值，所述CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片；缓存所述音频切片；顺序读取缓存的所述音频切片，并以所述第一播报速率进行语音播报。本发明实施例还公开了一种语音播报的处理装置、终端设备及存储介质。

Description

一种语音播报的处理方法、装置、终端设备及存储介质

技术领域

本发明涉及通信领域技术，尤其涉及一种语音播报的处理方法、装置、终端设备及存储介质。

背景技术

现有的语音播报需要将文本信息合成音频数据，该过程需要进行大量的特征处理和特征构建。若在本地终端将文本信息合成音频数据，会导致语音播报时容易出现卡顿，给用户带来不好的体验效果。

发明内容

有鉴于此，本发明提供一种语音播报的处理方法、装置、终端设备及存储介质。

本发明的技术方案是这样实现的：

一种语音播报的处理方法，所述方法包括：

确定中央处理器CPU的使用率；

若所述使用率低于第一使用阈值，所述CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片；

缓存所述音频切片；

顺序读取缓存的所述音频切片，并以所述第一播报速率进行语音播报。

上述方案中，所述方法还包括：

若所述使用率高于第二使用阈值，所述CPU基于等于或小于所述第一播报速率的第二合成速率，将所述第一文本信息转换成所述音频切片；其中，所述第二使用阈值大于所述第一使用阈值。

上述方案中，所述方法还包括：

若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作。

上述方案中，所述若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作，包括：

若缓存的所述音频切片的缓存量低于缓存阈值，插播安慰语音。

若缓存的所述音频切片的缓存量低于所述缓存阈值时，以第二播报速率进行语音播报，其中，所述第二播报速率低于所述第一播报速率。

根据所述第一文本信息的主旨信息或关键信息，生成与所述第一文本信息同含义的第二文本信息，其中，所述第二文本信息的字符量少于所述第一文本信息的字符量；

根据所述第一文本信息合成待播放的音频切片。

上述方案中，确定所述方法还包括：

确定第一文本信息合成音频切片的第一切分时间；

所述根据第一文本信息合成音频切片，包括：

根据第一文本信息，合成以所述第一切分时间为单位时间的音频切片。

上述方案中，所述方法还包括：

若确定与云端服务器的网络传输速率大于设定的阈值，从所述云端服务器中获取基于所述第一文本信息合成的音频切片，并以所述第一播报速率进行语音播报；

若确定与所述云端服务器的网络传输速率小于或等于所述设定的阈值，则执行确定所述CPU的使用率的步骤。

本发明实施例还提供了一种语音播报的处理装置，所述装置包括：

确定单元，用于确定中央处理器CPU的使用率；

合成单元，用于若所述使用率低于第一使用阈值，所述CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片；

缓存单元，用于缓存所述音频切片；

播报单元，用于顺序读取缓存的所述音频切片，并以所述第一播报速率进行语音播报。

上述方案中，所述合成单元，还用于若所述使用率高于第二使用阈值，所述CPU基于等于或小于所述第一播报速率的第二合成速率，将所述第一文本信息转换成所述音频切片；其中，所述第二使用阈值大于所述第一使用阈值。

上述方案中，所述装置还包括：处理单元；其中，

所述处理单元，用于若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作。

上述方案中，所述处理单元，用于若缓存的所述音频切片的缓存量低于缓存阈值，插播安慰语音。

上述方案中，所述处理单元，用于若缓存的所述音频切片的缓存量低于所述缓存阈值时，以第二播报速率进行语音播报，其中，所述第二播报速率低于所述第一播报速率。

上述方案中，所述处理单元，用于根据所述第一文本信息的主旨信息或关键信息，生成与所述第一文本信息同含义的第二文本信息，其中，所述第二文本信息的字符量少于所述第一文本信息的字符量；

所述合成单元，用于根据所述第一文本信息合成待播放的音频切片。

上述方案中，所述处理单元，用于确定第一文本信息合成音频切片的第一切分时间；

所述合成单元，用于根据第一文本信息，合成以所述第一切分时间为单位时间的音频切片。

上述方案中，所述装置还包括：获取单元；其中，

所述获取单元，用于若确定与云端服务器的网络传输速率大于设定的阈值，从所述云端服务器中获取基于所述第一文本信息合成的音频切片，并以所述第一播报速率进行语音播报；

所述处理单元，用于若确定与所述云端服务器的网络传输速率小于或等于所述设定的阈值，则执行确定所述CPU的使用率的步骤。

本发明实施例还提供了一种终端设备，所述终端设备包括：处理器和用于存储能够在处理器上运行计算机服务的存储器，其中所述处理器用于运行所述计算机服务时，实现权利要求本发明任一实施例所述的语音播报的处理方法。

本发明实施例还提供了一种存储介质，所述存储介质中有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行实现本发明任一实施例所述的语音播报的处理方法。

本发明实施例公开了一种语音播报的处理方法、装置、终端设备及存储介质，通过确定中央处理器CPU的使用率；若所述使用率低于第一使用阈值时，则CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片，并缓存所述音频切片。如此，顺序读取缓存的所述音频切片并以所述第一播报速率进行语音播报时，由于其语音播报的第一播报速率是小于合成音频切片的第一合成速率的，会有多余的音频切片未播放；如此，当CPU短时间内无法合成音频切片或者以低于播放速率的合成速率合成音频切片时，也不会出现卡顿；如此，可以大大降低语音播报过程卡顿现象的出现，提升用户的体验效果。

附图说明

图1为本发明实施例提供的一种语音播报的处理方法的流程示意图；

图2为本发明实施例提供的另一种语音播报的处理方法的流程示意图；

图3为本发明实施例提供的又一种语音播报的处理方法的流程示意图；

图4为本发明实施例提供的一种语音播报的处理装置的示意图；

图5为本发明实施例提供的一种终端设备的硬件结构示意图。

具体实施方式

下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本发明实施例提供了一种语音播报的处理方法，包括：

步骤101，确定中央处理器CPU的使用率；

步骤102，若所述使用率低于第一使用阈值，所述CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片；

步骤103，缓存所述音频切片；

步骤104，顺序读取缓存的所述音频切片，并以所述第一播报速率进行语音播报。

本发明实施例所提供的语音播报的处理方法，应用于终端设备；所述终端设备为集成了音频合成模块或装置的设备；所述音频合成模块或装置用于将文本信息合成音频。

在一些实施例中，所述语音播报的处理方法还可以应用于服务器，所述服务器包括云端服务器或远程服务器。

其中，所述步骤101的一种实现方式是：以设置的时间间隔，检测所述CPU的使用率；基于检测结果确定所述CPU的使用率。

所述步骤101的另一种实现方式是：基于用户触发操作，检测所述CPU的使用率；基于检测结果确定所述CPU的使用率。

这里，对于所述第一使用阈值的确定，需要基于语音播报出现语音卡顿时CPU的使用率来确定。具体地，当语音播报出现所述语音卡顿时，确定所述CPU的占用情况的信息；基于所述信息，确定出所述语音卡顿的CPU的第一使用阈值。

可以理解的是，若确定的CPU使用率越低，则确定语音播报的CPU可占用率越高，所述CPU进行音频合成的合成速率越高；若确定的CPU使用率越高，则确定语音播报的CPU可占用率越低，所述CPU进行音频合成的合成速率越低。

其中，播报速率为单位时间内播放音频所对应的字符量；合成速率为单位时间内合成音频所对应的字符量。这里，所述第一合成速率大于所述第一播报速率是指：在单位时间内，利用第一合成速率进行音频合成所合成的音频对应的字符量大于利用所述第一播报速率进行语音播报所播放的音频对应的字符量。

其中，所述音频切片为以单位时间为间隔的音频数据。可以理解的是，可以将一个音频数据切分成多个音频切片，该多个音频切片的总播放时间为该一个音频数据的播放时间；或者，该多个音频切片所包含的总字符量为该一个音频数据所包含的字符量。

这里，所述音频切片可以包括一个或多个音频切片；所述多个为两个或两个以上。这里，所述多个音频切片可以是均以第一单位时间为间隔的音频切片，或者，多个音频切片可以是以不同单位时间为间隔的音频切片。

其中，所述步骤103的一种实现方式是：将所述音频切片缓存在终端设备的语料库中。

在一些实施例中，所述步骤103，还包括：

将所述音频切片与所述音频切片所包括的文字信息，对应存储在终端设备语料库中。

如此，若后续需要播报与所述音频切片中包含相同的文字信息的第三文本信息时，可以直接读取所述音频切片进行语音播报。

在本发明实施例中，所述语音播报可以是TTS语音播报；所述TTS语音播报为：将Text文本信息合成音频数据进行播放。

在实际应用中，终端设备实现该文本信息合成音频的过程需要进行大量的特征处理和特征构建，如此会占用比较高的CPU使用率；因而若终端设备还需要比较高的CPU使用率去处理其它的作业任务，使得处理语音播报的CPU使用率比较低时，会出现语音播报的卡顿。

而本发明实施例中，通过在CPU使用率低于第一使用阈值时(CPU使用率比较低时)，则CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片，并缓存所述音频切片；如此，顺序读取缓存的所述音频切片并以所述第一播报速率进行语音播报时，由于其语音播报的第一播报速率是小于合成音频切片的第一合成速率的，会有多余的音频切片未播放；如此，当CPU短时间内无法合成音频切片或者以低于播放速率的合成速率合成音频切片时，也不会出现卡顿；如此，可以大大降低语音播报过程卡顿现象的出现，提升用户的体验效果。

在一些实施中，提供了一种将文本信息合成音频的处理方法，所述方法应用于本地终端设备或者服务器；所述方法包括以下步骤：

步骤S21：将文本信息转换为音素信息：

具体地，对输入的文本信息进行语言学分析(主要模拟人对自然语言的理解过程)，所述语言学分析包括：进行逐句的词汇、语法和/或语义的分析，以获得句子的低层结构和/或各字符的音素；其中，所述音素包括但不限于以下至少之一：文本的断句、字符与字符串的切分、多音字的处理、数字的处理、缩略语的处理。

如此，通过上述步骤S21，可以使终端设备或服务器对输入的文本能完全理解。

步骤S22：预测各音素发音的持续时间和频率：

具体地，确定合成语音的音段特征；所述音段特征包括但不限于以下至少之一：音高、音长和音强。

如此，通过上述步骤S22，能够使得所合成的音频能正确表达语意，听起来更加自然。

步骤S23：合并音素、持续时间和频率，输出所述文本信息对应的音频：

具体地，根据韵律建模的结果，提取所述文本信息中的字和/或词和/或短语对应的语音基元；利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，以获得所述文本信息对应的音频。

在一些实施例中，如图2所示，所述方法还包括：

步骤105，若所述使用率高于第二使用阈值，所述CPU基于等于或小于所述第一播报速率的第二合成速率，将所述第一文本信息转换成所述音频切片；其中，所述第二使用阈值大于所述第一使用阈值。

这里，所述第二合成速率小于或等于所述第一播报速率是指：在单位时间内，利用第二合成速率进行音频合成所合成的音频对应的字符量小于或等于利用所述第一播报速率进行语音播报所播放的音频对应的字符量。

这里，当CPU的使用率高于第二使用阈值时，该终端设备是利用比较少的CPU占用率来处理语音播报；此时，该CPU合成速率是小于或等于其播报速率的。

在本发明实施例中，可以在CPU使用率比较高时，一边以较低速度合成音频切片，一边利用在CPU使用率比较低时缓存的音频切片与此时合成的音频切片来进行语音播报；如此，虽然此时的音频合成速率是小于或等于播报速率的，但在一定时间段内，语音播报也不会出现卡顿。因此，可以大大降低整个过程中语音播报过程中卡顿现象的出现，使得语音播报更加流畅。

在一些实施例中，请再次参见图2，所述方法还包括：

步骤106，若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作。

在一些实施例中，所述步骤106包括：若缓存的所述音频切片的缓存量低于缓存阈值、且所述使用率高于所述第一使用阈值，执行抑制语音播报停止的预防操作。

其中，所述缓存阈值可以为几秒或十几秒的播放时间的音频切片的数量；或者，所述缓存阈值可以为一定数量的音频切片。

在一些实施例中，所述缓存阈值为预先设置的语音播报的音频切片的最低值。

其中，所述预防操作包括但不限于以下至少之一：降低播放速率、插播安慰语音、或减少需要合成音频的字符量。

如此，通过执行抑制语音播报停止的预防操作，可以延长语音播报的播报时间，或可以推迟语音播报的停止时间，从而使得终端设备能够有时间合成一定量的新的音频切片。

在一些实施例中，所述步骤106，包括：

在一些实施例中，所述步骤106，包括：若缓存的所述音频切片的缓存量低于缓存阈值、且所述使用率高于第一使用阈值，插播安慰语音。

这里，所述插播安慰语音为在播放所述第一文本信息的音频切片之间进行安慰语言的播放。

其中，所述安慰语音为预先设置的语音文件；所述安慰语音可以存储在本地终端的语料库中。当终端设备检测到缓存的所述音频切片的缓存量低于缓存阈值时，所述终端设备可以读取所述语料库中的安慰语音对应的语音文件进行播放。

这里，所述安慰语音可以是描写心情、天气等的美文，一则幽默的短话，或感谢用户收听的话语，等等。

在本发明实施例中，若确定缓存的音频切片的缓存量低于缓存阈值时，可以插播安慰语音，一方面使得终端设备有时间合成一些新的音频切片以待播放，另一方面使得收听播报的用户有个好的心情，能够提升用户的好感，提升体验效果。

在一些实施例中，所述方法还包括：停止插播所述安慰语音，恢复基于所述音频切片的语音播报；

其中，停止插播所述安慰语音的条件包括以下至少之一：

确定所述CPU的当前使用率低于所述第一使用率阈值；

确定所述音频切片的缓存量高于缓存阈值。

如此，可以当CPU使用率低于第一使用阈值时，所述CPU会以比较高的合成速率进行音频切片的合成以及以比较低的播报速率进行音频文件的播报，可以有多余的音频切片合成而并未播放，在一定时间内不会出现卡顿，从而可以重新恢复原来的第一文本信息的语音播报。或者，基于播放安慰语音的该段时间内，CPU合成了比较多的音频切片，使得所述音频切片的缓存量高于缓存阈值，因而在一定时间内也不会出现卡顿，从而可以重新恢复原来的第一文本信息的语音播报。

在另一些实施例中，所述步骤106，包括：

在本发明实施例中，若确定缓存的音频切片的缓存量低于缓存阈值时，可以通过降低播报速率来减少缓存量的进一步减少；从而可以延长语音播报的结束时间。

在一些实施例中，还可以将所述第二播报速率设置成小于或等于所述第二合成速率的播报速率。如此，在使用率高于第二使用阈值时，语音播报的播报速率是低于音频合成的合成速率的，此时还会使得所述缓存的音频切片的缓存量增加，从而可以避免由于音频切片缓存不足而导致的语音播报的卡顿情况的出现。

在一些实施例中，所述步骤106，还包括：

根据所述第一文本信息合成待播放的音频切片。

在一些实施例中，所述根据所述第一文本信息的主旨信息或关键信息，生成所述第一文本信息同含义的第二文本信息，包括：

若确定所述使用率大于所述第一使用阈值，根据所述第一文本信息的主旨信息或关键信息，生成所述第一文本信息同含义的第二文本信息。

在一些实施例中，所述根据所述第一文本信息的关键信息，生成与所述第一文本信息同含义的第二文本信息，包括：

检索所述第一文本信息的关键字；

从所述第一文本信息中提取所述关键字；

将所述关键字进行组合，生成与所述第一文本信息同含义的第二文本信息。

例如，在一应用场景中，需要对一则新闻(一般新闻包括标题、导语、主体、背景和结语五部分)进行语音播报时；可以从标题部分中提取人物、事件名称的关键字；从主体部分提取出时间、地点、事件经过的关键字；将所述人物、事件名称、时间、地点、事件经过进行组合，以获得与该则新闻同含义的简略版本的新闻。

在另一些实施例中，所述根据所述第一文本信息的主旨信息，生成所述第一文本信息同含义的第二文本信息，包括：

将所述第一文本信息拆分成第一数目的第一语句；所述第一语句为包含第一字符量的语句；

基于所述第一语句的主旨信息，生成与所述第一语句同含义的第二语句；所述第二语句为包含第二字符量的语句；所述第一字符量大于所述第二字符量；

利用所述第二语句替换所述第一语句，以获得与所述第一文本信息同含义的第二文本信息。

在一些实施例中，所述基于所述第一语句的主旨信息，生成与所述第一语句同含义的第二语句，还包括：

若确定所述第一语句所包含的第一字符量大于第一字符阈值，基于所述第一语句的主旨信息，生成与所述第一语句同含义的第二语句。

例如，在一应用场景中，需要对一则故事的文本信息进行播报；可以将该故事的文本信息拆分成一定数目的第一语句；将包含第一字符量的所述第一语句进行简化，以获得同含义的第二字符量的第二语句；所述第一字符量大于所述第二字符量。例如，将“风停了，雨也停了”的第一语句简化成“风雨停了”的第二语句。如此，将简化后的第二语句替换所述第一语句而获得的第二文本信息，是与第一文本信息同含义文本信息，能够基于对第一文本信息正确理解的前提下，还能大大减少音频合成的字符量。

在本发明实施例中，所述主旨信息或关键信息为表征所述文本信息的核心内容的信息；所述第一文本信息与所述第二文本信息的含义相同；所述第二文本信息的字符量少于所述第一文本信息的字符量。如此，经过播报的所述第二文本信息合成的音频切片时，收听的用户能够正确理解所述语音播报的含义；且，能够使得合成音频的字符量减少，从而可以大大降低语音播报卡顿情况的出现。

在一些实施例中，所述步骤106，还包括：

若缓存的所述音频切片的缓存量低于所述缓存阈值，且满足播放中止条件或播放结束条件，从本地的数据库中读取之前转换的第一语音文件进行语音播报；所述第一语音文件为第三文本信息对应的音频数据。

这里，所述CPU的使用率大于所述第一使用阈值。

其中，所述播放中止条件包括但不限于以下至少之一：

所述第一文本信息的局部信息播放完毕；

所述第一文本信息的阶段信息播放完毕；

所述第一文本信息中关键信息播放完毕。

这里，所述局部信息可以是指一本小说的某个章节，或一本故事集中的一个故事；等等。所述阶段信息可以是指与地区相关的信息，或与时间段相关的信息；等等。所述第一本文信息中关键信息可以是指感兴趣部分的信息，或事情经过的主要信息，等等。

若所述第一文本信息为一篇小说，则所述播放中止条件为一个章节播报完毕；若所述第一文本信息为中国天气信息，则所述播放中止条件为华南各省的天气播放完毕；若所述第一文本信息为名人的事迹介绍，则所述播放中止条件为某个人的事迹介绍完毕或者某个人在40岁以前的事迹介绍完毕。

其中，所述播放结束条件为所述第一文本信息对应的音频切片播放完毕。

这里，所述第三文本信息是与安慰语音对应的文本信息不相同的文本信息。

在一些实施例中，所述第三文本信息为与所述第一文本信息相关联的信息。例如，若所述第一文本信息为作家A的小说A1，则所述第三文本信息可以为作家A的小说A2，或者作家B的同类型小说B1，或者与作家A同类型写作风格的作家C的小说。又如，若所述第一文本信息为某个地区的天气信息，则所述第三文本信息可以为该地区的风景信息。

在一些实施例中，所述第三文本信息为与所述第一文本信息不相关联的信息。例如，所述第一文本信息为一则新闻，所述第三文本信息为一段音乐。

其中，所述第三文本信息对应的音频不同于安慰语音。

在一些实施例中，所述方法还包括：

确定第一文本信息合成音频切片的第一切分时间；

所述根据第一文本信息合成音频切片，包括：

在实际应用中，所述终端设备将第一文本信息合成音频数据时，是可以将第一文本信息拆分成字、词或者句进行合成；而选择合适的切分时间，可以使得拆分出的字、词或者句更加合理。例如，对于一个10秒的音频数据，可以切片成以1秒为时间单位的10个音频切片。若将第一切分时间设置的越少，则一个音频切片中所包含的字符量将更少；而需要播报的文本信息本身是由一个个的字或词等组成的，如此，将有更大几率碰到重复的字、词；而遇到重复的字、词时，可以不需要重新进行语音合成，直接读取缓存该字、词对应的音频切片，从而可以减少文本信息的音频合成的字符量，大大提高音频合成效率。

在本发明实施例中，可以通过确定第一切分时间，将第一文本信息所对应的音频数据，切分成以第一切分时间为单位时间的音频切片；如此，可以更加合理的确定音频切片中所包含的字符量，以及若第一切分时间设置的比较小，会使得音频切片的颗粒度比较小，从而也能一定程度上减少合成音频的字符量，提高音频合成的效率。

在一些实施例中，所述确定第一文本信息合成音频切片的第一切分时间，包括：

确定初始切分时间；

利用所述初始切分时间合成样本文本信息的初始音频切片；

获取语音播报时所述样本文本信息的目标音频切片；

若确定所述初始音频切片与所述目标音频切片的相似度大于第一相似度阈值，确定所述初始切分时间为所述第一文本信息合成音频切片的第一切分时间。

这里，所述样本文本信息为历史语音播报信息；所述目标音频切片为基于样本文本信息播报时的音频切片。

这里，若所述初始音频切片与所述目标音频切片相同，则所述初始音频切片与所述目标音频切片的相似度可设置为1；若所述初始音频切片与所述目标音频切片完全不同，则所述初始音频切片与所述目标音频切片的相似度可设置为0。在一实施例中，所述第一相似度阈值可以大于或等于0.8。

如此，本发明实施例可以通过设定一个初始切分时间，将样本文本信息基于该初始切分时间进行切分，获得初始音频切片；将初始音频切片与所述样本文本信息真实播报时的目标音频切片进行比较，确定初始音频切片与所述目标音频切片的相似度；根据该相似度不断调整所述初始切分时间，使得所述初始音频切片不断接近与所述目标音频切片；当所述初始音频切片与所述目标音频切片的相似度大于第一相似度阈值时，可确定该初始切分时间为第一切分时间。如此，本发明实施例可以基于历史播报来比较合理确定第一切分时间的方式，可以使得利用第一切分时间切分第一文本信息时能够顺畅的播报的前提下，也能比较细化音频切片所包含的字符量，从而减少一些重复的字符的音频合成等。

在一些应用场景中，若本地终端与其它服务器的网络连接状态比较好，即便本地终端此时的CPU使用率比较高，也可以从其它服务器中获得合成的音频切片进行语音播报。由于此时将文本信息合成音频的过程是在其它服务器中执行，因而音频合成过程不会占用本地终端的CPU，可以大大降低本地终端语音播报的卡顿情况的出现。

例如，在一些实施例中，所述方法还包括：

这里，若终端设备与云端服务器网络传输速率大于的设定的阈值，则所述终端设备可以流畅的从所述云端服务器中获取到音频切片；传输音频切片的速率是远远大于播放音频切片的速率的。

在本发明实施例中，还可以基于网络的连接状态，来确定所述第一文本信息合成音频切片的过程是否在本地的终端设备上执行；若网络状态比较好时(即与云端服务器的网络传输速率大于设定的阈值时)，可以基于云端服务器获取的第一文本信息的音频切片来进行播报；如此，能够大大减少本地的终端上设备的CPU的消耗以及卡顿情况的出现。

如图3所示，还提供了一种语音播报的处理方法，所述方法包括以下步骤：

步骤S301：获取播报的第一文本信息；

可选地，所述终端设备获取播报的第一文本信息。

步骤S302：确定网络状态是否良好；若是，则执行步骤S303；若否，则执行步骤S304；

可选地，所述终端设备确定网络状态是否良好；具体地，确定终端设备与所述云端服务器的传输速率是否大于设定的阈值；若是，则执行步骤S303；若否，则执行步骤S304。

步骤S303：获取云端服务器基于所述第一文本信息合成的音频文件；

可选地，所述终端设备从云端服务器中，获取所述与云端服务器基于所述第一文本信息合成的音频文件。

这里，所述音频文件包括至少一个音频切片。

在一可选实施例中，所述终端设备还将所述第一文本信息发送给所述云端服务器。

步骤S304：确定CPU使用率是否大于第一使用阈值；若否，则执行步骤S305，若是，则执行步骤S309；

可选地，所述终端设备确定CPU使用率是否大于第一使用阈值；若否，则执行步骤S305；若是，则执行步骤S309。

步骤S305：基于所述第一文本信息合成音频文件；

可选地，所述终端设备基于所述第一文本信息合成音频文件。

这里，所述音频文件包括至少一个音频切片。

步骤S306：播放音频文件；

可选地，所述终端设备以第一播放速率播放音频文件；其中，所述第一播放速率为小于所述第一合成速率的播放速率。

步骤S307：将所述音频文件进行切片化处理，获得音频切片；

可选地，所述终端设备将所述音频文件进行切片化处理，获得以第一时间为单位时间的音频切片。

步骤S308：将所述音频切片缓存到语料库；

可选地，所述终端设备将所述音频切片缓存到本地语料库中。

步骤S309：读取所述音频切片，进行语音播报；

可选地，所述终端设备获取语料库中的音频切片，基于所述音频切片进行语音播报。

步骤S310：结束语音播报。

在本发明实施中，所述终端设备可以先确定与云端服务器的连接状态是否良好，若好，则可以从云端服务器中获取用于播报的第一文本信息合成的音频文件；如此不需要占用本地终端设备的CPU基于第一文本信息合成音频文件，从而降低了语音播报时出现卡顿的情况。若确定所述终端设备与云端服务器的连接状态不好时，则可以再确定所述终端设备的CPU使用率的大小，若确定所述终端设备的使用率比较小时，可以一边基于合成的音频文件进行语音播报，还可以一边缓存多余的音频切片；使得所述终端设备的CPU使用率比较大时，还可以根据之前CPU使用率比较小时缓存的音频切片进行此时的语音播报，从而大大降低整个播报过程中卡顿现象的出现。

这里需要指出的是：以下语音播报的处理装置项的描述，与语音播报的处理方法项描述是类似的，同方法的有益效果描述，不做赘述。对于本发明语音播报的装置实施例中未披露的技术细节，请参照本发明语音播报的方法实施例的描述。

如图4所示，本发明实施例还提供了一种语音播报的处理装置，所述装置包括：

确定单元41，用于确定中央处理器CPU的使用率；

合成单元42，用于若所述使用率低于第一使用阈值，所述CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片；

缓存单元43，用于缓存所述音频切片；

播报单元44，用于顺序读取缓存的所述音频切片，并以所述第一播报速率进行语音播报。

在一些实施例中，所述合成单元42，还用于若所述使用率高于第二使用阈值，所述CPU基于等于或小于所述第一播报速率的第二合成速率，将所述第一文本信息转换成所述音频切片；其中，所述第二使用阈值大于所述第一使用阈值。

在一些实施例中，所述装置还包括：处理单元45；其中，

所述处理单元45，用于若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作。

在一些实施例中，所述处理单元45，用于若缓存的所述音频切片的缓存量低于缓存阈值，插播安慰语音。

在一些实施例中，所述处理单元45，用于若缓存的所述音频切片的缓存量低于所述缓存阈值时，以第二播报速率进行语音播报，其中，所述第二播报速率低于所述第一播报速率。

在一些实施例中，所述处理单元45，用于根据所述第一文本信息的主旨信息或关键信息，生成与所述第一文本信息同含义的第二文本信息，其中，所述第二文本信息的字符量少于所述第一文本信息的字符量；

所述合成单元42，用于根据所述第一文本信息合成待播放的音频切片。

在一些实施例中，所述处理单元45，用于确定第一文本信息合成音频切片的第一切分时间；

所述合成单元42，用于根据第一文本信息，合成以所述第一切分时间为单位时间的音频切片。

在一些实施例中，所述处理单元45，用于确定初始切分时间；利用所述初始切分时间合成样本文本信息的初始音频切片；获取语音播报时所述样本文本信息的目标音频切片；若确定所述初始音频切片与所述目标音频切片的相似度大于第一相似度阈值，确定所述初始切分时间为所述第一文本信息合成音频切片的第一切分时间。

在一些实施例中，所述装置还包括：获取单元46；其中，

所述获取单元46，用于若确定与云端服务器的网络传输速率大于设定的阈值，从所述云端服务器中获取基于所述第一文本信息合成的音频切片，并以所述第一播报速率进行语音播报；

所述处理单元45，用于若确定与所述云端服务器的网络传输速率小于或等于所述设定的阈值，则执行确定所述CPU的使用率的步骤。

如图5所示，本发明实施例还公开了一种终端设备，所述终端设备包括：处理器51和用于存储能够在处理器51上运行计算机服务的存储器52，其中所述处理器51用于运行所述计算机服务时，实现应用于所述终端设备的所述的信息处理方法。

在一些实施例中，本发明实施例中的存储器52可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器51可能种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本发明又一实施例提供了一种计算机存储介质，该计算机可读存储介质存储有可执行程序，所述可执行程序被处理器执行时，可实现应用于所述终端设备的语音播报的处理方法的步骤。例如，如图1-图3所示的方法中的一个或多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音播报的处理方法，其特征在于，所述方法包括：

确定中央处理器CPU的使用率；

若所述使用率低于第一使用阈值，所述CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片；其中，所述根据第一文本信息合成音频切片，包括：确定所述第一文本信息合成音频切片的第一切分时间，根据第一文本信息，合成以所述第一切分时间为单位时间的音频切片；

缓存所述音频切片；

顺序读取缓存的音频切片，并以所述第一播报速率进行语音播报。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作，包括：

5.根据权利要求4所述的方法，其特征在于，所述若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作，包括：

6.根据权利要求4所述的方法，其特征在于，所述若缓存的所述音频切片的缓存量低于缓存阈值，执行抑制语音播报停止的预防操作，包括：

根据所述第一文本信息合成待播放的音频切片。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种语音播报的处理装置，其特征在于，所述装置包括：

确定单元，用于确定中央处理器CPU的使用率；

合成单元，用于若所述使用率低于第一使用阈值，所述CPU基于大于第一播报速率的第一合成速率，根据第一文本信息合成音频切片；其中，所述根据第一文本信息合成音频切片，包括：确定所述第一文本信息合成音频切片的第一切分时间，根据第一文本信息，合成以所述第一切分时间为单位时间的音频切片；

缓存单元，用于缓存所述音频切片；

播报单元，用于顺序读取缓存的音频切片，并以所述第一播报速率进行语音播报。

9.一种终端设备，其特征在于，所述终端设备包括：处理器和用于存储能够在处理器上运行计算机服务的存储器，其中所述处理器用于运行所述计算机服务时，实现权利要求1-7任一项所述的语音播报的处理方法。

10.一种存储介质，所述存储介质中有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行实现权利要求1-7任一项所述的语音播报的处理方法。