CN113674731A

CN113674731A - 语音合成处理方法、装置和介质

Info

Publication number: CN113674731A
Application number: CN202110529691.4A
Authority: CN
Inventors: 姜伟; 王宁; 刘恺; 程龙; 郎勇; 张爽
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-11-19

Abstract

本发明实施例提供了一种语音合成处理方法、装置和介质。其中的方法具体包括：检测用户操作；在所述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，所述音频时长信息为对文本信息进行时长预测得到。本发明实施例可以提高音频时长的获取效率，以及能够提高语音合成编辑的效率。

Description

语音合成处理方法、装置和介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成处理方法、装置和介质。

背景技术

语音合成技术，是将文本信息转换为指定音色的音频的技术。语音合成技术可以应用于动画制作、视频配音、网上答题、作品朗读等多种应用场景。在这些应用场景下，用户往往关注音频时长，以判断合成得到的音频是否满足音频编辑需求。

目前，获取音频时长的做法通常为：首先，利用语音合成技术，将文本信息转换为音频；然后，下载音频；接着，利用播放器播放音频，以获得播放器显示的音频时长。

发明人在实施本发明实施例的过程中发现，将文本信息转换为音频、下载音频和播放音频，均需要花费较多的时间，这导致音频时长的获取效率较低。

发明内容

本发明实施例提供一种语音合成处理方法、装置和介质，如何快速获取音频时长是本领域技术人员需要解决的技术问题。

为了解决上述问题，本发明实施例公开了一种语音合成处理方法，包括：

检测用户操作；

在所述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，所述音频时长信息为对文本信息进行时长预测得到。

在检测到语音合成编辑操作或时长获取操作的情况下，对文本信息进行时长预测，以得到音频时长信息；

输出所述音频时长信息。

另一方面，本发明实施例公开了一种语音合成处理装置，包括：

检测模块，用于检测用户操作；以及

处理模块，用于在所述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，所述音频时长信息为对文本信息进行时长预测得到。

时长预测模块，用于在检测到语音合成编辑操作或时长获取操作的情况下，对文本信息进行时长预测，以得到音频时长信息；以及

输出模块，用于输出所述音频时长信息。

再一方面，本发明实施例公开了一种用于语音合成处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现前述方法的步骤。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音合成处理方法。

本发明实施例包括以下优点：

本发明实施例在检测到语音合成编辑操作或时长获取操作的情况下，基于时长预测确定音频时长信息，并将音频时长信息展示给用户。由于音频时长信息可以为对文本信息进行时长预测得到，故音频时长信息的获取可以不依赖于合成得到的音频，因此能够节省将文本信息转换为音频→下载音频→ 播放音频等操作所耗费的时间，进而能够提高音频时长的获取效率。

并且，本发明实施例在检测到语音合成编辑操作的情况下，确定并展示音频时长信息。可以将语音合成编辑转化为音频时长信息的展示，能够在语音合成编辑与音频时长获取之间建立连通，因此能够提高语音合成的智能性。

此外，本发明实施例可以根据用户触发的时长获取操作，确定并展示音频时长信息，可以在不依赖于合成后的音频的情况下，提供音频时长信息。

应用本发明实施例的技术方案，用户在执行语音合成编辑操作后，可以获得语音合成编辑操作后语音合成任务对应的音频时长信息；或者，用户也可以经由时长获取操作，获得语音合成任务对应的音频时长信息。这样，可以便于用户根据当前的音频时长信息，进行后续的语音合成编辑操作，因此能够提高语音合成编辑的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音合成处理方法实施例一的步骤流程图；

图2是本发明的一种语音合成处理方法实施例二的步骤流程图；

图3是本发明的一种语音合成处理方法实施例三的步骤流程图；

图4是本发明的一种语音合成处理装置实施例的结构框图；

图5是本发明的一种语音合成处理装置实施例的结构框图；

图6是本发明的一种用于语音合成处理的装置800的框图；及

图7是本发明的一些实施例中服务端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例可以应用于语音合成技术领域，用于将文本信息转换为指定音色的音频。语音合成技术可以应用于动画制作、视频配音、网上答题、作品朗读等多种应用场景。在这些应用场景下，用户往往关注音频时长，以判断合成得到的音频是否满足音频编辑需求。例如，在视频配音场景下，需要判断音频时长与视频时长之间的一致性。

相关技术中，音频时长的获取流程依次包括：将文本信息转换为音频→ 下载音频→播放音频。该获取流程需要花费较多的时间，导致音频时长的获取效率较低。

针对如何快速获取音频时长的技术问题，本发明实施例提供了一种语音合成处理方案，该方案可以包括：检测用户操作；在上述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，上述音频时长信息可以为对文本信息进行时长预测得到。

此外，本发明实施例可以根据用户触发的时长获取操作，确定并展示音频时长信息，可以在不依赖于合成后的音频的情况下，快速地提供音频时长信息。

应用本发明实施例的技术方案，用户在执行语音合成编辑操作后，可以及时获得语音合成编辑操作后语音合成任务对应的音频时长信息；或者，用户也可以经由时长获取操作，及时获得语音合成任务对应的音频时长信息。这样，可以便于用户根据当前的音频时长信息，进行后续的语音合成编辑操作，因此能够提高语音合成编辑的效率。

本发明实施例提供的语音合成处理方法可应用于客户端和服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3， Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。客户端可以对应于网站、或者APP(应用程序，Application)。客户端可以对应有语音处理APP等应用程序。

本发明实施例的服务端可以为云服务端(云端)。云端是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。云端的资源信息具有动态性，使得其处理能力可弹性伸缩。

方法实施例一

参照图1，示出了本发明的一种语音合成处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101、检测用户操作；

步骤102、在上述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，上述音频时长信息可以为对文本信息进行时长预测得到。

图1所示方法实施例可由客户端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。

步骤101中，客户端可以检测用户操作。该检测可以为持续性检测或者周期性检测。例如，可以持续性检测时长获取操作，又如，可以周期性检测语音合成编辑操作。

步骤102中，在上述用户操作为语音合成编辑操作或时长获取操作的情况下，可以触发音频时长获取，并对获取得到的音频时长信息进行展示。

语音合成编辑操作可用于表征语音合成相关的编辑操作，语音合成编辑操作可以改变文本信息和/或语音合成参数，进而改变语音合成后的音频及音频时长。因此，语音合成编辑操作可以表征能够改变语音合成后的音频的任意操作。

本发明实施例在检测到可能改变音频时长的语音合成编辑操作的情况下，自动触发音频时长获取，以自动提供语音合成编辑操作后语音合成任务对应的音频时长信息。

在实际应用中，语音合成编辑操作具体可以包括：

文本信息对应的编辑操作；和/或

语速参数对应的编辑操作；和/或

语音合成效果参数对应的编辑操作。

语音合成效果参数可用于表征语音合成的效果。可选地，语音合成效果参数可以包括：语音风格参数，如搞笑男、甜美女、新闻播报类男、小说类女声、朗读童声等。由于不同的语音合成效果参数，可能对应不同的音频时长，故语音合成效果参数对应的编辑操作可以引起音频时长的变化。

在具体实现中，可以提供语音合成编辑界面，该语音合成编辑界面中可以包括输入框，该输入框可以包括：待合成的文本信息。在实际应用中，可以采用文本文件导入、或者文本输入等方式，确定输入框中的文本信息。文本信息可以包括：文字和/或符号。

文本信息对应的编辑操作具体包括：增加文本信息的操作、删除文本信息和修改文本信息的操作中的至少一种。

该语音合成编辑界面中可以包括：语速参数和/或语音合成效果参数对应的编辑控件，以经由该编辑控件触发语速参数和/或语音合成效果参数对应的编辑操作。

语速参数可以包括：全部文本信息对应的语速参数。相应地，上述编辑控件可以包括：全局变速控件，用于改变全部文本信息对应的语速。

语速参数可以包括：部分文本信息对应的语速参数。相应地，上述编辑控件可以包括：局部变速控件、或者插入停顿控件或词组连续控件等。

其中，局部变速控件用于改变部分文本信息对应的语速。插入停顿控件用于在任意的两个字符之间插入停顿。词组连续控件可用于增加词组之间的连续性，以及用于减少词组之间的停顿。以文本信息“南京长江大桥”为例，可以对“南京长江”这个词组，增加其连续性，以减少“南京”与“长江” 之间的停顿。

在实际应用中，可以在选中部分文本信息的情况下，触发局部变速控件，以实现语速参数的编辑。

时长获取操作可以表征用户触发的、用于获取音频时长信息的操作。在具体实现中，可以在语音合成编辑界面中设置时长获取控件，则时长获取操作可以为：针对时长获取控件的触发操作。当然，时长获取操作还可以为预设的滑动手势等操作，本发明实施例对于具体的时长获取操作不加以限制。

可以理解，该语音合成编辑界面中还可以包括：语音合成触发控件，该语音合成触发控件用于触发语音合成任务，以将文本信息转换为音频。本发明实施例可以在未触发语音合成任务的情况下，确定并展示音频时长信息。当然，在触发语音合成任务的情况下，若检测到语音合成编辑操作或时长获取操作，也可以确定并展示音频时长信息。

该语音合成编辑界面中还可以包括：语音合成触发控件，该语音合成触发控件用于触发语音合成任务，以将文本信息转换为音频。本发明实施例可以在未触发语音合成任务的情况下，确定并展示音频时长信息。当然，在触发语音合成任务的情况下，若检测到语音合成编辑操作或时长获取操作，也可以确定并展示音频时长信息。

该语音合成编辑界面中还可以包括：读音控件。读音控件可用于设置读音。读音控件可以包括：多音字控件、数字符号控件和发音替换控件中的至少一种。

其中，多音字控件用于在文字为多音字的情况下，设置多音字发音。

多音字，是指一个字有两个或两个以上的读音信息，不同的读音信息表义不同，用法不同，词性也往往不同。读音信息有区别词性和词义的作用；根据使用情况不同，读音信息也不同，读音信息有区别用法的作用。

数字符号控件，用于设置数字符号的发音。如数字符号“110”的发音为“yaoyaoling”还是“yiyiling”。

发音替换控件可用于在用户对部分文本信息的读音不满意的情况下，对部分文本信息的读音进行替换。

该语音合成编辑界面中还可以包括：音效控件。音效控件可用于设置语音合成效果参数。音效控件可以包括：多发音人控件、特效音控件和背景音乐控件中的至少一种。

多发音人控件，可用于定制文本信息的发音人，不同文本信息可以对应不同的发音人。

特效音控件，可用于在文本信息中插入一段音效。

背景音乐控件，可用于插入全局的背景音乐。

本发明实施例可以基于时长预测确定音频时长信息。时长预测技术，可以预测文本信息中音素对应的时长。

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如在中文的读音中，一个声母或者韵母可以分别作为一个音素。在其他语言的读音中，每一个发音也相当于一个音素。

在具体实现中，可以利用时长模型，确定文本信息中音素对应的时长。时长模型的输入可以为：带有重音标注的音素特征，输出可以为音素对应的时长。时长模型可以为对带有时长信息的语音样本进行训练得到，本发明实施例对于具体的时长模型不加以限制。

在一种实施方式中，文本信息可以包括：文字和标点符号。本发明实施例可以利用时长模型，确定文字中音素对应的时长信息，进而确定文字对应的时长信息；可以根据标点符号与时长之间的映射关系，确定标点符号对应的时长信息；以及，可以对文字对应的时长信息与标点符号对应的时长信息进行融合，以得到文本信息对应的音频时长信息。可选地，还可以考虑相邻字符(相邻的两个文字、或者相邻的文字和标点)之间的相邻停顿信息，对文字对应的时长信息、标点符号对应的时长信息、与相邻停顿信息进行融合。

在另一种实施方式中，上述音频时长信息可以为根据语速参数，对文本信息进行时长预测得到。文本信息对应的音频时长信息通常是在预设语速的条件下的音频时长信息，本发明实施例可以根据语速参数和/或语音合成效果参数，对文本信息对应的音频时长信息进行调整。

例如，预设语速为1倍语速。假设用户将全部文本信息对应的语速参数设置为0.5倍速，则可以对1倍语速条件下的音频时长信息T进行上调。或者，假设用户将全部文本信息对应的语速参数设置为2倍速，则可以对1倍语速条件下的音频时长信息T进行下调。

假设用户将部分文本信息对应的语速参数设置为0.5倍速，则可以对部分文本信息在1倍语速条件下对应的时长t进行上调，并将上调后的t融合至全部文本信息对应的音频时长信息中。

不同的语音合成效果参数可以对应不同的预设语速，其可由本领域技术人员根据实际应用需求确定。例如，小说类女声对应的预设语速可以为：每分钟200字左右；新闻播报类男对应的预设语速可以为：每分钟280字至300 字；朗读童声对应的预设语速可以为：每分钟小于200字。

假设用户在任意两个字符之间插入了停顿，则可以在音频时长信息T的基础上，增加停顿对应的时长。

假设用户针对n个字符设置了词组连续，则可以减小n个字符在1倍语速条件下分别对应的时长，和/或，减小n个字符对应的相邻停顿信息。

在具体实现中，客户端可以在用户操作为语音合成编辑操作或时长获取操作的情况下，基于时长预测确定音频时长信息。

或者，客户端可以在用户操作为语音合成编辑操作或时长获取操作的情况下，发送获取请求；该获取请求用于获取音频时长信息。可以向服务端发送获取请求，以借助于服务端的计算资源，获取音频时长信息。

本发明实施例可以响应于文本信息的输入操作或修改操作，实时确定对应的音频时长信息并显示，以提升音频时长信息的及时性。

本发明实施例可以在语音合成编辑界面中提供动态信息，该动态信息可以表征音频时长获取服务的相关信息。

根据一种实施方式，可以在触发音频时长信息的确定操作、且未完成所述确定操作的情况下，展示预设加载信息。预设加载信息可以提示正在获取音频时长信息，以提升用户在音频时长信息的过程中的体验。

根据另一种实施方式，可以在未触发音频时长信息的确定操作、或者完成音频时长信息的确定操作的情况下，展示预设时钟图标。预设时钟图标可以引导用户使用音频时长获取服务。

可选地，预设时钟图标可以位于时长获取控件的附近，以提示用户使用时长获取控件触发音频时长信息的确定操作。和/或，预设时钟图标可以位于音频时长信息的展示区域的附近，以提示用户查看音频时长信息。

在本发明的一种可选实施例中，预设加载信息和预设时钟图标可以共用预设区域。可以根据处理状态的变化，对该预设区域内的展示信息进行更新。具体地，在处理状态为未触发音频时长信息的确定操作、或者完成音频时长信息的确定操作的情况下，该预设区域内的展示信息为预设时钟图标。或者，在处理状态为触发音频时长信息的确定操作、且未完成所述确定操作的情况下，该预设区域内的展示信息为预设加载信息。

在本发明的另一种可选实施例中，还可以根据音频时长信息与用户的设定时长，输出提示信息。该提示信息可以提示音频时长信息与用户的设定时长之间的差异关系。进一步，该提示信息可以提示文本信息或语速参数的修改建议信息。

上述提示信息可以包括如下信息中的至少一种：

音频时长信息与用户的设定时长的差值信息；或者

音频时长信息与用户的设定时长的差值信息对应的增删字符数量信息。

例如，在音频时长信息大于设定时长的情况下，提示信息可以包括：已超出设定时长M小时N秒。提示信息还可以包括：减少字符数或减少停顿或增加语速对应的修改建议信息。提示信息还可以包括：减少P个字符对应的修改建议信息。

又如，在音频时长信息小于设定时长的情况下，提示信息可以包括：小于设定时长M小时N秒。提示信息还可以包括：增加字符数、或者增加停顿或者减少语速对应的修改建议信息。提示信息还可以包括：增加Q字符数对应的修改建议信息。

本发明实施例可以根据差值信息、以及字符的平均时长信息，确定增删字符数量信息。可以对语料库中字符的时长信息进行统计，如求均值，以得到字符的平均时长信息。语料库中语料可以包括：多条语句。

综上，本发明实施例的语音合成处理方法，在检测到语音合成编辑操作或时长获取操作的情况下，基于时长预测确定音频时长信息，并将音频时长信息展示给用户。由于音频时长信息可以为对文本信息进行时长预测得到，故音频时长信息的获取可以不依赖于合成后的音频，因此能够节省将文本信息转换为音频→下载音频→播放音频等操作所耗费的时间，进而能够提高音频时长的获取效率。

应用本发明实施例的技术方案，用户在执行语音合成编辑操作后，可以获得语音合成编辑操作后语音合成任务对应的音频时长信息；或者，用户也可以经由时长获取操作，获得语音合成任务对应的音频时长信息。这样，可以便于用户根据当前的音频时长信息，进行后续的语音合成编辑操作，因此能够提高合成编辑的效率。

方法实施例二

参照图2，示出了本发明的一种语音合成处理方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201、展示语音合成编辑界面；该语音合成编辑界面中可以包括：预设区域、时长获取控件和展示区域；

在初始情况下，该预设区域内的展示信息为预设时钟图标，该展示区域内的展示信息可以为预设信息。

步骤202、检测用户操作；

步骤203、在上述用户操作为语音合成编辑操作、或针对时长获取控件的触发操作的情况下，实时向服务端发送获取请求，并将该预设区域内的展示信息更新为预设加载信息；

步骤204、在展示区域中展示服务端返回的音频时长信息，以及，将该预设区域内的展示信息更新为预设时钟图标；其中，上述音频时长信息可以为对文本信息进行时长预测得到。

在具体实现中，可以循环执行步骤202至步骤204。

在实际应用中，可以持续性检测针对时长获取控件的触发操作。具体地，在展示语音合成编辑界面、或展示音频时长信息后，不进行等待，立即检测针对时长获取控件的触发操作，以提高时长获取操作的响应速度。

在实际应用中，可以周期性检测语音合成编辑操作，对应的检测周期可由本领域技术人员根据实际应用需求确定。例如，检测周期可以为X(X可以为正整数或正小数)秒。则可以在展示语音合成编辑界面后的X秒后、或展示音频时长信息后的X秒，检测语音合成编辑操作。

方法实施例三

参照图3，示出了本发明的一种语音合成处理方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤301、在检测到语音合成编辑操作或时长获取操作的情况下，对文本信息进行时长预测，以得到音频时长信息；

步骤302、输出该音频时长信息。

图3所示方法实施例可由客户端或服务端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。

步骤301中，客户端可以在检测到语音合成编辑操作或时长获取操作的情况下，对文本信息进行时长预测。

或者，客户端可以在检测到语音合成编辑操作或时长获取操作的情况下，发送时长获取请求，该时长获取请求中可以包括：语音合成任务的参数，语音合成任务的参数具体可以包括：文本信息、或者文本信息和语速参数、或者文本信息和语音合成效果参数、或者文本信息、语速参数和语音合成效果参数。此种情况下，服务端可以针对时长获取请求中的文本信息进行时长预测。

在具体实现中，可以字符为单位，进行时长预测。相应地，上述对文本信息进行时长预测，包括：在检测到语音合成编辑操作或时长获取操作的情况下，预测文本信息中字符分别对应的时长信息；对上述时长信息进行融合，以得到音频时长信息。

在实际应用中，文本信息中字符可以包括：文字、或者文字和标点符号。

本发明实施例可以利用时长模型，确定文字中音素对应的时长信息，进而确定文字对应的时长信息。可以根据标点符号与时长之间的映射关系，确定标点符号对应的时长信息。进一步，可以对文字对应的时长信息与标点符号对应的时长信息进行融合，以得到文本信息对应的音频时长信息。可选地，还可以考虑相邻字符(相邻的两个文字、或者相邻的文字和标点)之间的相邻停顿信息，对文字对应的时长信息、标点符号对应的时长信息、与相邻停顿信息进行融合。

在一种实现方式中，可以根据文本信息中字符分别对应的时长信息，确定文本信息中字符在音频中的起始时间和结束时间，进而可以根据文本信息中尾字符对应的结束时间，确定音频时长信息。

在实际应用中，字符对应的时长信息，通常是字符在预设语速的条件下的时长信息。因此，本发明实施例在时长预测过程中利用语速参数，可以提高时长信息的准确度。

根据一种实施方式，可以根据语速参数和/或语音合成效果参数，对字符对应的时长信息进行调整，并对调整后的时长信息进行融合，以得到音频时长信息。上述调整可以实现起始时间和结束时间的调整。

参照表1，示出了本发明实施例的一种音频时长信息的确定过程的示例。其中，可以针对文本信息A“生命可以归结为一种简单的选择：要么忙于生存，要么赶着去死”，确定对应的音频时长信息。

文本信息A具体包括：2个标点符号和26个汉字。可以利用时长模型，确定文字中音素对应的时长信息，进而确定文字对应的时长信息。可以根据标点符号与时长之间的映射关系，确定标点符号对应的时长信息。相邻字符(相邻的两个文字、或者相邻的文字和标点)之间可以具有相邻停顿信息，相邻停顿信息对应的数值可以为0或者可以大于0。

表1中，T_si可以表征第i(i可以为正整数)个字符对应的起始时间， T_ei可以表征第i个字符对应的结束时间。T_ei与T_si之间的差值可以表征第i 个字符对应的时长信息。T_pi可以表征第i个字符与第(i+1)个字符之间的相邻停顿信息，则可以采用如下表示：T_s(i+1)＝T_ei+T_pi。

表1

字符	起始时间	结束时间
			生	T<sub>s1</sub>	T<sub>e1</sub>
命	T<sub>s2</sub>	T<sub>e2</sub>
			可	T<sub>s3</sub>	T<sub>e3</sub>
……
			死	T<sub>s26</sub>	T<sub>e26</sub>

除了根据语速参数和/或语音合成效果参数，对字符对应的时长信息进行调整之外，还可以根据语速参数和/或语音合成效果参数，对全部文本信息对应的音频时长信息进行调整。

假设预设语速为1倍语速，以及假设用户将全部文本信息对应的语速参数设置为0.5倍速，则可以对1倍语速条件下的音频时长信息T进行上调。或者，假设用户将全部文本信息对应的语速参数设置为2倍速，则可以对1 倍语速条件下的音频时长信息T进行下调。或者，还可以根据语音合成效果参数，对预设语速进行调整，以实现音频时长信息T的调整。

步骤302中，服务端可以向客户端返回该音频时长信息，以使客户端向用户提供音频时长信息。

综上，本发明实施例的语音合成处理方法，在检测到语音合成编辑操作或时长获取操作的情况下，对文本信息进行时长预测，以得到音频时长信息。由于音频时长信息可以为对文本信息进行时长预测得到，故音频时长信息的获取可以不依赖于合成后的音频，因此能够节省将文本信息转换为音频→下载音频→播放音频等操作所耗费的时间，进而能够提高音频时长的获取效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种语音合成处理装置实施例的结构框图，具体可以包括：检测模块401和处理模块402。

其中，检测模块401，用于检测用户操作；

处理模块402，用于在上述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，上述音频时长信息为对文本信息进行时长预测得到。

可选地，上述语音合成编辑操作具体包括：

文本信息对应的编辑操作；和/或

语速参数对应的编辑操作；和/或

语音合成效果参数对应的编辑操作。

可选地，处理模块402具体可以包括：

实时计算模块，用于响应于文本信息的输入操作或修改操作，实时确定对应的音频时长信息并显示。

可选地，上述装置还可以包括：

提示模块，用于根据音频时长信息与用户的设定时长，输出提示信息；

所述提示信息具体包括如下信息中的至少一种：

音频时长信息与用户的设定时长的差值信息；或者

可选地，上述装置还可以包括：

第一展示模块，用于在触发音频时长信息的确定操作、且未完成上述确定操作的情况下，展示预设加载信息；或者

第二展示模块，用于在未触发音频时长信息的确定操作、或者完成音频时长信息的确定操作的情况下，展示预设时钟图标。

可选地，上述确定并展示音频时长信息，包括：

请求发送模块，用于在上述用户操作为语音合成编辑操作或时长获取操作的情况下，发送获取请求；该获取请求用于获取音频时长信息。

可选地，上述音频时长信息可以为根据语速参数和/或语音合成效果参数，对文本信息进行时长预测得到。

参照图5，示出了本发明的一种语音合成处理装置实施例的结构框图，具体可以包括：时长预测模块501和输出模块502。

其中，时长预测模块501，用于在检测到语音合成编辑操作或时长获取操作的情况下，对文本信息进行时长预测，以得到音频时长信息；

输出模块502，用于输出所述音频时长信息。

可选地，时长预测模块501具体包括：

预测模块，用于在检测到语音合成编辑操作或时长获取操作的情况下，预测文本信息中字符分别对应的时长信息；

第一融合模块，用于对所述时长信息进行融合，以得到音频时长信息。

可选地，时长预测模块501具体包括：

预测模块，用于在检测到语音合成编辑操作或时长获取操作的情况下，确定文本信息中字符分别对应的时长信息；

调整模块，用于根据所述字符对应的语速参数和/或语音合成效果参数，对所述时长信息进行调整；

第二融合模块，用于对调整后的时长信息进行融合，以得到音频时长信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语音合成处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：检测用户操作；在所述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，所述音频时长信息为对文本信息进行时长预测得到。

图6是根据一示例性实施例示出的一种用于语音合成处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O) 的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808 和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器 (SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810 包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音输入模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件 814还可以检测装置800或装置800一个组件的位置改变，用户与装置800 接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD 图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814 还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在 NFC模块可基于射频识别(RFID，Radio Frequency Identification)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是本发明的一些实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器) 和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质 1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置 (服务端或者终端)的处理器执行时，使得装置能够执行图1或图2或图3 所示的语音合成处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置 (服务端或者终端)的处理器执行时，使得装置能够执行一种语音合成处理方法，所述方法包括：检测用户操作；在所述用户操作为语音合成编辑操作或时长获取操作的情况下，确定并展示音频时长信息；其中，所述音频时长信息为对文本信息进行时长预测得到。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明实施例所提供的一种语音合成处理方法、一种语音合成处理装置、一种用于语音合成处理的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成处理方法，其特征在于，所述方法包括：

检测用户操作；

2.根据权利要求1所述的方法，其特征在于，所述语音合成编辑操作包括：

文本信息对应的编辑操作；和/或

语速参数对应的编辑操作；和/或

语音合成效果参数对应的编辑操作。

3.根据权利要求1所述的方法，其特征在于，所述确定并展示音频时长信息，包括：

响应于文本信息的输入操作或修改操作，实时确定对应的音频时长信息并显示。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据音频时长信息与用户的设定时长，输出提示信息；

所述提示信息包括如下信息中的至少一种：

音频时长信息与用户的设定时长的差值信息；或者

5.根据权利要求1所述的方法，其特征在于，所述确定并展示音频时长信息，包括：

在所述用户操作为语音合成编辑操作或时长获取操作的情况下，发送获取请求；所述获取请求用于获取音频时长信息。

6.根据权利要求1至5中任一所述的方法，其特征在于，所述音频时长信息为根据语速参数和/或语音合成效果参数，对文本信息进行时长预测得到。

7.一种语音合成处理方法，其特征在于，所述方法包括：

输出所述音频时长信息。

8.根据权利要求7所述的方法，其特征在于，所述对文本信息进行时长预测，包括：

在检测到语音合成编辑操作或时长获取操作的情况下，预测文本信息中字符分别对应的时长信息；

对所述时长信息进行融合，以得到音频时长信息。

9.根据权利要求7所述的方法，其特征在于，所述对文本信息进行时长预测，包括：

在检测到语音合成编辑操作或时长获取操作的情况下，确定文本信息中字符分别对应的时长信息；

根据所述字符对应的语速参数和/或语音合成效果参数，对所述时长信息进行调整；

对调整后的时长信息进行融合，以得到音频时长信息。

10.一种语音合成处理装置，其特征在于，包括：

检测模块，用于检测用户操作；以及

11.一种语音合成处理装置，其特征在于，包括：

输出模块，用于输出所述音频时长信息。

12.一种用于语音合成处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现权利要求1至6中任一所述方法的步骤。

13.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的语音合成处理方法。

14.一种用于语音合成处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现权利要求7至9中任一所述方法的步骤。

15.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求7至9中一个或多个所述的语音合成处理方法。