CN114049875A

CN114049875A - 一种tts播报方法、装置、设备以及存储介质

Info

Publication number: CN114049875A
Application number: CN202111328990.8A
Authority: CN
Inventors: 周毅
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-15

Abstract

本公开提供了一种语音合成TTS播报方法、装置、设备以及存储介质，涉及计算机技术领域，尤其涉及车联网和智能座舱等领域。具体实现方案为：获取待播报文字；确定待播报文字所体现的情绪类型；获取情绪类型对应的情绪特征；基于待播报文字和情绪特征，合成待播报的内容；播报内容。本公开能够在播报过程中体现情绪。

Description

一种TTS播报方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及车联网和智能座舱等领域。

背景技术

随着计算机技术的发展和普及，人机交互等智能技术在人们生活的各个方面提供方便快捷的服务。语音合成(Text-To-Speech，TTS)是人工智能技术中人机交互的重要内容，TTS广泛应用于多种智能终端。

发明内容

本公开提供了一种TTS播报方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音合成TTS播报方法，包括：

获取待播报文字；

确定所述待播报文字所体现的情绪类型；

获取所述情绪类型对应的情绪特征；

基于所述待播报文字和所述情绪特征，合成待播报的内容；

播报所述内容。

根据本公开的第二方面，提供了一种语音合成TTS播报装置，包括：

第一获取模块，用于获取待播报文字；

确定模块，用于确定所述待播报文字所体现的情绪类型；

第二获取模块，用于获取所述情绪类型对应的情绪特征；

合成模块，用于基于所述待播报文字和所述情绪特征，合成待播报的内容；

播报模块，用于播报所述内容。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。

本公开能够在播报过程中体现情绪。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的TTS播报方法的一种流程图；

图2是本公开实施例提供的TTS播报方法的另一种流程图；

图3是本公开实施例提供的TTS播报装置的一种结构示意图；

图4是本公开实施例提供的TTS播报装置的另一种结构示意图；

图5是用来实现本公开实施例的TTS播报方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在车载场景或者智能音箱等产品上，都有TTS播报的功能，但是一般的TTS对情绪的体现很弱，只是能做到说话比较像谁的声音，但是无法表现正常语调、开心、深情、调侃的语气等不同的情绪。总的来讲，即一般的TTS无法体现情绪。

本公开实施例先获取待播报文字，并确定待播报文字所体现的情绪类型，然后，获取该情绪类型所对应的情绪特征，基于待播报文字和情绪特征，合成待播报的内容；播报的内容是基于待播报文字和情绪特征合成得到的内容，情绪特征是与情绪类型对应的，如此，能够在TTS播报过程中体现情绪。

下面对本公开实施例提供的TTS播报方法进行详细说明。

本公开实施例提供的TTS播报方法可以应用于电子设备，具体地，电子设备可以包括智能终端、服务器等等，其中，智能终端可以包括智能音响，安装有车载系统的车辆，等等。一种可实现方式中，该电子设备中可以安装有TTS引擎，通过TTS引擎执行本公开实施例提供的TTS播报方法。

本公开实施例提供了一种语音合成TTS播报方法，可以包括：

获取待播报文字；

确定待播报文字所体现的情绪类型；

获取所述情绪类型对应的情绪特征；

基于待播报文字和情绪特征，合成待播报的内容；

播报内容。

本公开实施例先获取待播报文字，并确定待播报文字所体现的情绪类型，然后，获取该情绪类型所对应的情绪特征，基于待播报文字和情绪特征，合成待播报的内容；播报的内容是基于待播报文字和情绪特征合成得到的内容，如此，能够在TTS播报过程中体现情绪。

图1是本公开实施例提供的TTS播报方法的流程图。参见图1，本公开实施例提供的TTS播报方法可以包括：

S101，获取待播报文字。

当有播报诉求时，先获取待播报文字。

S102，确定待播报文字所体现的情绪类型。

对待播报文字进行情绪类型的判断，也可以理解为语境的判断。判断待播报文字属于何种情绪，情绪类型例如伤心、开心、深情、调侃或者正常语调等等。

一种可实现方式中，可以预先分析多句话，从多句话中提取出不同情绪类型所对应的情绪关键词。例如，从“XX蹦蹦跳跳地走在路上”中提取出开心对应的情绪关键词：“蹦蹦跳跳”。其中，针对多个场景或者描述，可以提取出针对同一情绪的多个情绪关键词。

如此，可以对待播报文字进行分词，将分词得到的词语分别与多个情绪关键词进行匹配，若分词得到的词语与一情绪关键词相同，则可以将该情绪关键词对应的情绪类型作为待播报文字体现的情绪类型。

另一种可实现方式中，可以预先训练一个模型，该模型的输入是一段文字，输出是该文字所体现的情绪类型。如此，可以将待播报文字输入该模型，通过该模型得到待播报文字所体现的情绪类型。

具体地，训练该模型的过程可以包括：获取大量的样本数据并标注出样本数据对应的情绪类型，样本数据可以是一段文字组成的一句话，样本数据对应的情绪类型即是这句话所属的情绪类型，然后，通过大量的标注有情绪类型的样本数据训练得到该模型。

S103，获取情绪类型对应的情绪特征。

待播报文字所体现的情绪类型也可以理解为待播报的内容的语境，可以根据语境选择对应的情绪特征。

可以预先保存不同情绪类型对应的情绪特征，在确定待播报文字所体现的情绪类型后，如此，可以直接从保存的多个情绪特征中获取该情绪类型对应的情绪特征。

针对某一情绪类型，该情绪类型对应的情绪特征可以是基于该情绪类型下的声音提取的特征。

S104，基于待播报文字和情绪特征，合成待播报的内容。

可以将待播报文字转换为初始音频；利用情绪特征调整初始音频的波形，得到调整后的音频，并将调整后的音频作为待播报的内容。

这个过程也可以理解为TTS合成过程，即利用情绪特征合成待播报的内容。情绪特征是基于情绪对应的声音提取的特征，如此，使得合成的待播报的内容中体现情绪。且通过调整波形的方式合成待播报的内容，使得合成的过程比较简便。

S105，播报该内容。

本公开实施例中播报的内容是基于待播报文字和情绪特征合成得到的内容，如此，能够在TTS播报过程中体现情绪。也可以理解实现播报拟人化，进而能够使得用户听起来不机械，容易产生共鸣，提高用户体验。

一种可实现方式中，如图2所示，本公开实施例提供的TTS播报方法还包括：

S201，采集发音人在不同情绪类型下的声音。

TTS播报时采用发音人的声音。发音人可以有多个。

针对一发音人，该发音人在不同情绪类型下的声音，即声音反映不同的情绪类型。例如，开心是怎么笑，如何深情、调侃又是怎么样、发怒怎么样，等等

可以随机采集发音人的声音，然后，对采集的声音按照情绪进行分类，得到不同情绪类型下的声音。

或者，发音人有针对性地发声，直接采集对应情绪类型下的声音。例如，发音人用开心地语气说话，则可以直接采集该声音作为开心这种情绪类型下的声音。

采集到的发音人在不同情绪类型下的声音可以理解为情绪语料，采集发音人在不同情绪类型下的声音即是采集情绪语料。

S202，基于各个情绪类型下的声音，分别提取发音人在各个情绪类型下的情绪特征。

情绪特征即从声音中提取的特征，例如，可以是声音中不用特征点组成的音频，或者也可以是声音中的一段音频，等等。

针对每一发音人，基于该发音人各个情绪类型下的声音，提取各个情绪类型下的情绪特征。

一种可实现方式中，可以对同一情绪类型可以先提取多个情绪特征，然后对多个情绪特征训练得到一个情绪特征，将该情绪特征作为该情绪类型下的特征，如此，可以提高情绪特征的准确性。

S203，保存发音人在各个情绪类型下的情绪特征。

对应保存不同情绪类型对应的情绪特征。

一种可实现方式中，可以通过表格的形式保存不同发音人、不同情绪类型下的情绪特征，如表1所示。

表1

表格仅用于示例性说明，情绪类型可以包括多个；发音人可以有多个，也可以仅有1个。

本公开实施例中收集多个发音人的声音，并提取多个发音人不同情绪类型的情绪特征，如此，待进行TTS播报时，首先，获取待播报文字，判断该文字的情绪类型，并基于该情绪类型选择情绪特征，然后，基于该情绪特征合成待播报的音频并播报。其中，基于该情绪特征合成待播报的音频，包括：将待播报文字转换为一音频；基于情绪特征调整该音频的波形，得到调整后的音频，调整后的音频即为待播报的音频。

采用本公开实施例，可以通过预先收集发音人在不同情绪类型下的声音，以提取不同情绪类型的情绪特征并保存，如此，在播报过程中可以直接从保存的多个情绪特征中获取该情绪类型对应的情绪特征，使得获取情绪特征更加简便。同时，情绪特征是基于发音人在不同情绪类型下的声音采集得到的，可以提高情绪特征与情绪类型的匹配度。

一种可实现方式中，可以预先保存多个发音人分别在多个情绪类型下的情绪特征，即针对一情绪类型，有不同发音人对应的多个情绪特征。

这种情况下，S103可以包括：获取多个发音人分别在情绪类型下的情绪特征；选择目标发音人在情绪类型下的情绪特征，作为情绪类型对应的情绪特征。

其中，目标发音人为用户群体使用频率最高的发音人。

例如，可以先确定用户群体使用频率最高的发音人，即确定目标发音人，然后，获取该发音人在该情绪类型下的情绪特征。

用户群体使用频率最高的发音人即可以理解为该发音人满足较多的用户的发音人需求，较多的用户喜欢该发音人播报，采用该实施例，可以获取较多用户喜欢的发音人所对应的情绪特征，在后续利用该情绪特征合成待播报内容时，能够满足较多用户的喜好，提高用户体验。

本公开实施例中对先TTS发音的发音人进行情绪类型的采集，例如，先录制一些开心的哈哈大笑、深情的说话、调侃的口吻，正常说话的声音，等等，并对这些声音进行特征提取，也即预先提取并保存多个情绪类型对应的情绪特征。如此，在TTS播报过程中，先确定待播报文字所体现的情绪类型，也可以理解为先判断待播报文字所属于的语境，然后动态地根据该情绪类型从已经保存的情绪特征中获取该情绪类型对应的情绪特征，进而基于待播报文字和情绪特征，合成待播报的内容，并播报该内容，如此使得播报过程中体现情绪。也可以理解实现播报拟人化，进而能够使得用户听起来不机械，容易产生共鸣，提高用户体验。

对应于上述实施例提供的TTS播报方法，本公开实施例还提供了一种TTS播报装置。

图3是本公开实施例提供的TTS播报装置的结构示意图，参见图3，本公开实施例提供的TTS播报装置包括：

第一获取模块301，用于获取待播报文字；

确定模块302，用于确定待播报文字所体现的情绪类型；

第二获取模块303，用于获取情绪类型对应的情绪特征；

合成模块304，用于基于待播报文字和情绪特征，合成待播报的内容；

播报模块305，用于播报内容。

可选的，合成模块304，具体用于将待播报文字转换为初始音频；利用情绪特征调整初始音频的波形，得到调整后的音频，并将调整后的音频作为待播报的内容。

可选的，如图4所示，还包括：

采集模块401，用于采集发音人在不同情绪类型下的声音；

提取模块402，用于基于各个情绪类型下的声音，分别提取发音人在各个情绪类型下的情绪特征；

保存模块403，用于保存发音人在各个情绪类型下的情绪特征。

可选的，第二获取模块303，具体用于获取多个发音人分别在情绪类型下的情绪特征；选择目标发音人在情绪类型下的情绪特征，作为情绪类型对应的情绪特征，其中，目标发音人为用户群体使用频率最高的发音人。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如TTS播报方法。例如，在一些实施例中，TTS播报方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的TTS播报方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行TTS播报方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音合成TTS播报方法，包括：

获取待播报文字；

确定所述待播报文字所体现的情绪类型；

获取所述情绪类型对应的情绪特征；

基于所述待播报文字和所述情绪特征，合成待播报的内容；

播报所述内容。

2.根据权利要求1所述的方法，其中，所述基于所述待播报文字和所述情绪特征，合成待播报的内容，包括：

将所述待播报文字转换为初始音频；

利用所述情绪特征调整所述初始音频的波形，得到调整后的音频，并将所述调整后的音频作为所述待播报的内容。

3.根据权利要求1或2所述的方法，还包括：

采集发音人在不同情绪类型下的声音；

基于各个情绪类型下的声音，分别提取所述发音人在各个情绪类型下的情绪特征；

保存所述发音人在各个情绪类型下的情绪特征。

4.根据权利要求3所述的方法，其中，所述获取所述情绪类型对应的情绪特征，包括：

获取多个发音人分别在所述情绪类型下的情绪特征；

选择目标发音人在所述情绪类型下的情绪特征，作为所述情绪类型对应的情绪特征，其中，所述目标发音人为用户群体使用频率最高的发音人。

5.一种语音合成TTS播报装置，包括：

第一获取模块，用于获取待播报文字；

确定模块，用于确定所述待播报文字所体现的情绪类型；

第二获取模块，用于获取所述情绪类型对应的情绪特征；

播报模块，用于播报所述内容。

6.根据权利要求5所述的装置，其中，所述合成模块，具体用于将所述待播报文字转换为初始音频；利用所述情绪特征调整所述初始音频的波形，得到调整后的音频，并将所述调整后的音频作为所述待播报的内容。

7.根据权利要求5或6所述的装置，还包括：

采集模块，用于采集发音人在不同情绪类型下的声音；

提取模块，用于基于各个情绪类型下的声音，分别提取所述发音人在各个情绪类型下的情绪特征；

保存模块，用于保存所述发音人在各个情绪类型下的情绪特征。

8.根据权利要求7所述的装置，其中，所述第二获取模块，具体用于获取多个发音人分别在所述情绪类型下的情绪特征；选择目标发音人在所述情绪类型下的情绪特征，作为所述情绪类型对应的情绪特征，其中，所述目标发音人为用户群体使用频率最高的发音人。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法。