CN116153285A

CN116153285A - 文本转换音频的方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN116153285A
Application number: CN202211392376.2A
Authority: CN
Inventors: 夏福森; 蒋宁; 吴海英; 刘磊; 杨锋; 杨砚
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-05-23

Abstract

本公开提供了一种文本转换音频的方法及装置、电子设备、计算机可读介质，该方法包括：获取待转换文本；处理所述待转换文本得到子文本集；确定子文本集中包含的至少一个待转换子文本，至少一个待转换子文本包括子文本集中包含业务信息的子文本，以及子文本集中在预设的数据库中未检测到的子文本；分别将所述至少一个待转换子文本转换为音频；基于所述子文本集中各个子文本对应的音频得到所述待转换文本的音频。根据本公开的实施例能够减少需转换为音频的文本的量，提高文本转换为音频的效率，从而能够突破面向多用户场景的性能瓶颈，提高转换的响应速度。

Description

文本转换音频的方法及装置、电子设备、计算机可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种文本转换音频的方法及装置、电子设备、计算机可读存储介质。

背景技术

语音通信是指接收到用户输入的信息之后，人机互动系统以音频的方式向用户呈现响应信息的通信模式。其中，人机互动系统获得音频响应信息的一种实现方式包括：获得响应信息对应的文本，进而，直接将响应信息对应的文本完整的转换为音频。

而这种文本转换音频的方式，若文本的字符数相对较多，那么，转换速度相对较慢。在一些场景中，例如，人机互动系统面向多个用户端的场景，该转换方式将成为通信性能的瓶颈。

发明内容

本公开提供一种文本转换音频的方法及装置、电子设备、计算机可读存储介质。

第一方面，本公开提供了一种文本转换音频的方法，该方法包括：

获取待转换文本；

处理所述待转换文本得到子文本集；

确定所述子文本集中包含的至少一个待转换子文本，所述至少一个待转换子文本包括所述子文本集中包含业务信息的子文本，以及所述子文本集中在预设的数据库中未检测到的子文本，所述数据库包括若干历史音频以及相应子文本的对应关系；

分别将所述至少一个待转换子文本转换为音频，其中，在所述至少一个待转换子文本的数量大于或者等于预设阈值的情况下，并行转换各个待转换子文本；

基于所述子文本集中各个子文本对应的音频得到所述待转换文本的音频。

第二方面，本公开提供了一种文本转换音频的装置，该文本转换音频的装置包括：

获取模块，用于获取待转换文本；

处理模块，用于处理所述待转换文本得到子文本集；

确定模块，用于确定所述子文本集中包含的至少一个待转换子文本，所述至少一个待转换子文本包括所述子文本集中包含业务信息的子文本，以及所述子文本集中在预设的数据库中未检测到的子文本，所述数据库包括若干历史音频以及相应子文本的对应关系；

转换模块，用于分别将所述至少一个待转换子文本转换为音频，其中，在所述至少一个待转换子文本的数量大于或者等于预设阈值的情况下，并行转换各个待转换子文本；

所述确定模块，还用于基于所述子文本集中各个子文本对应的音频得到所述待转换文本的音频。

第三方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，所述一个或多个计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的文本转换音频的方法。

第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现上述的文本转换音频的方法。

第五方面，本公开提供了一种计算机程序或计算机程序产品，该计算机程序产品包括计算机程序，计算机程序存储在计算机可读存储介质中，所述计算机程序在被处理器执行时实现上述的文本转换音频的方法。

本公开所提供的实施例，在将所获取的待转换文本处理得到子文本集之后，进一步从该子文本集中筛选出包含业务信息的子文本和预设数据库中未检测到的子文本，之后，将所筛选出的子文本作为至少一个待转换子文本，进而将至少一个待转换子文本转换为音频。其中，预设数据库包括若干历史音频以及相应子文本的对应关系，也就是说，预设数据库中维护了已经转换为音频的子文本及相应音频。而包含业务信息的子文本可以是待转换文本中与用户的情况灵活匹配且应当向用户展示的部分子文本。基于此，将至少一个待转换子文本转换为音频，不但无需转换完整的待转换文本，仅需转换待转换文本中的部分子文本，不仅能够减少需转换为音频的文本的量，还能够提高文本转换为音频的效率。由于所转换的部分子文本包括目前并未转换为音频的子文本，以及需要向用户展示的子文本，所以，本公开实施例在转换该完整待转换文本的一部分的基础上，还能够有针对性的转换待转换文本中部分子文本，以提高所转换的子文本的精确程度。进一步的，本公开中，如果待转换子文本大于或者等于两个，本公开的实施例还可以并行转换各个待转换子文本，从而能够进一步提高文本转换为音频的效率。这样在待转换文本的字符数相对较多的场景下，依然可以提高文本转换成语音的效率，能够突破面向多用户场景的性能瓶颈，提高转换的响应速度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用来提供对本公开的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种文本转换音频的系统的结构图；

图2为本公开实施例提供的一种常规的互动式语音应答(Interactive VoiceResponse，IVR)系统结构图；

图3为本公开实施例提供的一种文本转换音频的方法的流程图；

图4为本公开实施例提供的一种IVR系统的结构图；

图5为本公开实施例提供的一种业务流程节点示意图；

图6为本公开实施例提供的一种文本转换音频的装置的结构图；

图7为本公开实施例提供的一种电子设备的结构图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

本公开实施例涉及从文本到语音(Text To Speech，TTS)技术，TTS技术是将文本内容转换成语音输出的一种技术。本公开实施例可以应用于涉及IVR的场景，例如，金融机构、运营商、购物中心等的自助服务等，相应的，执行本公开实施例的文本转换音频的系统例如实现为IVR系统。

图1示意了一种文本转换音频的系统的示例性结构示意图，该文本转换音频的系统包括TTS调用方和TTS服务方，TTS调用方也即TTS客户端，TTS服务方也即TTS服务端。其中，TTS客户端在接收到用户输入的触发指令后，可以将触发指令对应的文本通过入口参数的方式传输给TTS服务端。TTS服务端在接收到相应文本后，将文本转换为音频流，进而将所合成的音频流传输给TTS客户端，以触发该音频被播放。一些实现方式中，TTS客户端和TTS服务端基于超文本传输协议(Hyper Text Transfer Protocol，HTTP)传输信息。

本公开实施例示意的文本转换音频的系统可以部署在电子设备中，所述电子设备可以是车载设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。一些实现方式中，该文本转换音频的方法可以通过电子设备中的处理器调用存储器中存储的计算机可读程序指令的方式来实现。

一些实现方式中，如图2所示，当文本转换音频的系统实现为IVR系统时，IVR系统中的TTS客户端可以包括自由交换(Freeswitch)模块和IVR引擎(IVR-engine)模块。自由交换模块用于提供路由和互连通信协议，以响应用户端输入的信号请求IVR引擎获取音频，以及响应IVR引擎的反馈信息从IVR引擎获取音频资源。IVR引擎用于调用TTS服务端执行文本转换音频的操作，以及接收和向自由交换模块反馈转换后的音频。

一些常规的实现方案中，TTS客户端单线程调用TTS服务端，且TTS服务端在将所接收的文本全部转换为音频后，才将转换后的音频传输给TTS客户端，基于此，若文本的字符数相对较多，TTS服务端将文本转换为音频的时间可能会较长，导致响应速度较慢。若IVR系统用作呼叫中心时，在同一时段面向多个转换请求，响应速度慢还会成为IVR系统的瓶颈，从而影响用户的使用体验。

有鉴于此，本公开实施例提供了一种文本转换音频的方法，在获取待转换文本后，筛选出待转换文本中需转换的子文本并转换，从而不再转换完整待转换文本，仅需转换该完整待转换文本中需要转换的一部分子文本，不仅能够减少需转换为音频的文本的量，还能够提高文本转换为音频的效率。即使在IVR系统用作呼叫中心场景下，在同一时段面向多个转换请求时，能够及时响应，提高用户的使用体验。

以下结合示例性实现方式对本公开实施例的文本转换音频的方法进行介绍。

图3为本公开实施例提供的一种文本转换音频的方法的流程图。参照图3，该方法包括：

在步骤S11中，获取待转换文本。

其中，待转换文本是指待转换为音频的文本。对应不同的实施场景，电子设备中可以预存储若干文本，该若干文本分别对应不同的触发指令，在接收到用户端的一个触发指令后，电子设备可以从该若干文本中确定与相应触发指令对应的文本作为所述待转换文本。

例如，在某金融机构呼叫中心的场景下，用作呼叫中心系统的电子设备中可以预存储有如“您好，欢迎致电A机构客服服务热线”、“业务查询请按一，业务办理请按二，人工服务请按零”等文本。本示例中，电子设备接收到用户端拨打热线电话的信号，或者接收到用户端按数字键的信号，即为电子设备接收到的不同的触发指令，进而可以确定不同的文本为待转换文本，例如，当电子设备接收到用户端拨打热线电话的信号后，电子设备可以将“您好，欢迎致电A机构客服服务热线”确定为待转换为本。

在步骤S12中，处理所述待转换文本得到子文本集。

其中，该子文本集中的每个子文本均是待转换文本对应的一个文本段，该子文本集可以组成该待转换文本。电子设备可以通过拆分的方式将待转换文本处理为子文本集，示例性的，电子设备可以根据预设拆分规则执行相应拆分操作。

一些可能的实现方式中，预设拆分规则满足：以分隔字符作为拆分的边界，将所述分隔字符之前的部分文本作为一个子文本，将所述分隔字符之后的部分文本作为另一个子文本。分隔字符可以包括：标点符号、换行符、制表符、空格、邮箱标识符。标点符号例如可以包括“，(逗号)”、“；(分号)”、“。(句号)”、“！(叹号)”、“：(冒号)”等，邮箱标识符例如可以包括@和.com，本公开实施例此处不再一一举例。

以分隔符是标点符号为例，电子设备可以以“，”为边界处理待转换文本“您好，欢迎致电A机构客服服务热线”，得到子文本“您好”和子文本“欢迎致电A机构客服服务热线”。

应理解，当分隔符是其他符号时，电子设备拆分待转换文本的方式与上述示例相似，本公开实施例此处不再一一举例。

另一些可能的实现方式中，预设拆分规则满足：按照语义拆分待转换文本得到所述子文本集，其中，每个子文本表征独立的语义。

可以理解的是，以上拆分规则仅是示意性描述，对本公开实施例的方案不构成限制。其他一些实现方式中，本公开实施例所述的预设拆分规则还可以包含其他规则，例如正则拆分规则，或者，所述预设拆分规则包含以上涉及的拆分规则中的多项。本公开实施例对此不限制。

需要指出的是，一些实现方式中，电子设备处理待转换文本得到子文本集的过程，还可以包括除切分之外的操作，具体的详见本说明书下文的描述，此处不再详述。

在步骤S13中，确定所述子文本集中包含的至少一个待转换子文本。

其中，本公开实现方式中的至少一个待转换子文本包括子文本集中包含业务信息的子文本，以及子文本集中在预设的数据库中未检测到的子文本，所述数据库包括若干历史音频以及相应子文本的对应关系。

一些实现方式中，业务信息是指待转换文本中包含的诸如表征日期、金额、用户称呼等具备业务属性的变量。业务信息在待转换文本中的初始呈现方式包括占位符、数字、符号、字母及其组合等，例如，占位符“{name}”，占位符“{Date}”等，进而，随实际实施场景填充或改写为与场景匹配的具体信息，例如，根据用户性别的不同，用户称呼具体为先生或者女士；再如，随着用户触发的时间不同，日期的具体内容不同。

可见，包含业务信息的子文本可以展示出具体的用户信息，或者用户的具体需求信息，基于此，将包含业务信息的子文本作为待转换子文本，有利于有针对性的将包含用户具体信息的子文本转换为音频，提高转换的精确程度。

此外，需要指出的是，在按照本公开实施例所述的方法对历史文本执行转换操作的过程中，可能已经将所述子文本集中的部分子文本转换为音频。基于此，一些实施方式中，电子设备可以预先部署数据库，该数据库用于维护若干历史音频以及相应子文本的对应关系，该若干历史音频以及相应子文本例如是电子设备对所述待转换文本之前的历史文本转换得到的。进而，在获得所述子文本集之后，电子设备可以遍历数据库，将所述子文本集中未包含在数据库中的子文本作为待转换子文本，子文本集中未包含在数据库中的子文本也即，目前未转换为音频的子文本。

示例性的，数据库的所呈现的对应关系的实现方式例如如表1所示。

表1

标识	子文本	音频
			T00001	子文本内容1	T00001.wav
T00002	子文本内容2	T00002.wav
			T00003	子文本内容3	T00003.wav
……	……	……

其中，表1中每一行可以表示一个对应关系，示例性的，子文本内容1与音频T00001.wav对应，说明音频T00001.wav是子文本内容1转换后的音频；子文本内容2与音频T00002.wav对应，说明音频T00002.wav是子文本内容2转换后的音频。表1中其他行所表征的对应关系同理，此处不再赘述。

需要指出的是，表1中所示的“标识”用于区分各个子文本，以及建立每个子文本与相应子文本的音频的对应关系。

可以理解的是，表1仅是本公开实施例的一种示意性表达，对本公开实施例涉及的对应关系不构成限制。在其他实现方式中，本公开实施例涉及的数据库对对应关系的呈现形式可以是其他形式。

示例性的，结合表1，对应所述子文本集，电子设备可以遍历表1中标题为“子文本”列中的子文本内容，若“子文本”列中包含所述子文本集中的某个子文本，可以确定相应子文本已经被转换为音频，相应音频是与表1中与该子文本同一行中标识的音频。若“子文本”列中不包含所述子文本集中的某个子文本，可以确定相应子文本未被转换为音频，将相应子文本作为未转换子文本。

例如，子文本“您好”在电子设备的历史操作中已经被转换为音频，在得到子文本“您好”和子文本“欢迎致电A机构客服服务热线”之后，电子设备可以通过遍历数据库确定子文本“您好”已经被转换为音频，那么，可以将子文本“欢迎致电A机构客服服务热线”作为待转换子文本，而不再将子文本“您好”作为待转换子文本。

采用本实现方式，电子设备将每个子文本及相应音频的对应关系维护到数据库中，能够为电子设备进一步筛选出待转换子文本提供数据支持。

进一步的，为了区分每个待转换子文本与其他子文本，在获得至少一个待转换子文本之后，电子设备可以分别为至少一个待转换子文本中的每个待转换子文本设置标识。这里的其它子文本为与相应待转换子文本的内容不同的子文本。

在步骤S14中，分别将所述至少一个待转换子文本转换为音频，其中，在所述至少一个待转换子文本的数量大于或者等于预设阈值的情况下，并行转换各个待转换子文本。

一些实现方式中，电子设备可以仅转换所述子文本集中的待转换子文本，而无需转换所述子文本集中已经转换为音频的子文本。

一些实现方式中，预设阈值可以是大于或者等于2的整数，示例性的，当待转换子文本大于或者等于两个，电子设备可以多线程调用转换功能，以通过多个线程对至少两个待转换子文本分别转换为音频。

一些实现方式中，在步骤S14之后，针对至少一个待转换子文本中的每个待转换子文本，电子设备可以将该待转换子文本、该待转换子文本的音频、以及该待转换子文本的标识对应存储到数据库中，从而更新表1的内容。

在步骤S15中，基于所述子文本集中各个子文本对应的音频得到所述待转换文本的音频。

一些实现方式中，电子设备可以按照顺序分别播放所述子文本集中各个子文本对应的音频，以作为待转换文本的音频播放。该顺序是子文本集中各个子文本在待转换文本中的顺序。

结合前述对“标识”的介绍，一些实现方式中，步骤S15可以实现为：电子设备确定子文本集中各个子文本在待转换文本中的位置顺序和标识，进而，按照所确定的顺序和顺次调用及播放文件标识为相应标识的音频文件。

例如，“子文本“张三先生”对应标识T00007，对应音频T00007.wav，子文本“您好”对应标识T00009，对应音频T00009.wav，子文本“欢迎致电A平台客服热线”对应标识T000011，对应音频T000011.wav，根据前述对各子文本在待转换文本中的位置顺序的描述，电子设备可以顺次调用及播放T00007.wav、T00009.wav和T000011.wav。

可见，电子设备通过设置标识标注每个子文本及其对应音频，能够在对部分子文本转换为音频的场景下，为播放完整文本的音频提供了调用根据。

可以理解的是，结合图1A所述的实现方式，图3中步骤S11至步骤S15，可以是电子设备调用TTS客户端所执行，示例性的，结合图1B所述的实现方式，图3中步骤S11至步骤S15，可以是电子设备调用IVR引擎所执行。

可见，采用本公开实施例的文本转换音频的方法，电子设备在获取待转换文本之后，并不直接将该待转换文本转换为音频，而是获得该待转换文本对应的子文本集，进而，根据各个子文本是否包含业务信息以及是否曾转换为音频，筛选出子文本集中的待转换子文本，且仅将待转换子文本转换为音频，之后，根据子文本集中各个子文本的音频即可得到待转换文本的音频。即，本公开实施例的文本转换音频的方法，不再以完整的待转换文本为转换单位，而是以待转换文本的文本段(即子文本)为处理单位，且本公开实施例在转换之前，进一步筛选出包含业务信息的子文本和未存储在数据库中的子文本进行转换，不但无需将完整的待转换文本转换为音频，仅将该完整待转换文本中需要转换的部分文本段转换为音频即可，减少了需转换为音频的文本的量，能够提高文本转换为音频的效率，而且能够提高所转换的子文本的精确程度。另一方面，即使待转换子文本的数量大于或者等于两个，采用本公开实施例，可以采用多线程转换的方式进行转换，从而相较于现有的单线程转换，能够进一步提高文本转换为音频的效率。

需要说明的是，常规的文本转换音频的方式是将文本的内容直接转换为音频，即使文本中的业务信息甚至一些表征为数字的信息，例如日期20220506、金额6128.66元、日期2021-07-26等，同样被直接转换为音频，例如，将文本中包括的“日期20220506”直接转换为语音“日期二零二二零五零六”，可见，这样得到的音频无法准确的表达文本中业务信息的语义。

有鉴于此，为了提高转换后音频所表达的准确性，本公开实施例所述的处理所述待转换文本还包括：检测待转换文本所包含的业务信息以及每个业务信息的业务属性，之后，按照相应业务信息对应的业务属性将相应业务信息转换为文本信息，该文本信息是能够表达出业务信息的业务属性的文本内容。

业务信息的业务属性例如可以包括待补充信息位、金额、日期，业务属性是预先定义的。其中，待补充信息位可以表征文本的该部分需要补充信息；金额可以表征该业务信息表达的是货币的金额；日期可以表征该业务信息表达的日期和时间。待补充信息位的业务信息可以实现为占位符，该占位符指示待填充的信息，例如占位符“name”；金额的业务信息可以实现为数字串和币种符号的形式，例如569.03￥(人民币币种符号)，还可以实现为数字串和币种名称，例如569.03元(人民币币种名称)；日期的业务信息可以实现为数字串，例如20220506，还可以实现为数字串与符号的组合，例如2022-05-06，再如2022.05.06。

一些实现方式中，当业务信息的业务属性是待补充信息位时，电子设备可以将业务信息替换为待补充信息位对应的内容文本。例如：文本“{name}”为占位符，即待补充信息位，此处待补充的信息是名字，电子设备例如可以将“{name}”替换为用户的名字“张三先生”。

另一些实现方式中，当业务信息的业务属性是金额或者日期时，电子设备可以将业务信息转换为表征相应业务属性的描述文本。例如：文本“45.86元”的业务属性是金额数字，电子设备可以将“45.86元”转换为描述文本“四十五元八角六分”。再如：文本“20220726”的业务属性是日期，电子设备可以将“20220726”转换为描述文本“二零二二年七月二十六日”。

可以理解的是，上述仅是对业务信息、业务属性以及业务信息转换的示例性描述，对本公开实施例不构成限制。在实际实现中，对应不同的实施场景，文本中还可以包括其他业务信息，且业务信息还可以对应其他业务属性，相应的，对业务信息的转换以及转后的呈现方式也可以灵活处理，此处不再一一举例。

采用本实现方式，将文本中的业务信息转换为能够表达出业务属性的文本内容，从而使业务信息在通过文本表达时能够呈现出业务信息的语义，从而使得文本内容的表达更加准确，进而能够提高转后的音频的准确性。

根据前述步骤S12的描述可知，本公开实施例所述的处理待转换文本还包括拆分文本的操作，基于此，实际实现中，在获取所述待转换文本后，电子设备可以先拆分待转换文本，再转换拆分后文本中的业务信息，从而得到所述子文本集，也可以先转换待转换文本中包含的业务信息，再对转换后的文本执行拆分操作，从而得到所述子文本集，本公开实施例对此不限制。

在一些实现方式中，上述步骤S12可以包括：电子设备识别待转换文本中的至少一个业务信息及每个业务信息的业务属性，之后，针对至少一个业务信息中的每个业务信息，按照相应的业务属性将该业务信息变更为文本信息，得到待拆分文本，之后，电子设备可以按照预设拆分规则拆分所述待拆分文本，得到所述子文本集。

例如，待转换文本为“{name}，您好，欢迎致电A平台客服热线。”，电子设备确定待转换文本“{name}，您好，欢迎致电A平台客服热线。”中包括业务信息“{name}”，且业务信息“{name}”的业务属性为待补充信息位，进而，电子设备将待转换文本“{name}，您好，欢迎致电A平台客服热线。”中的业务信息“{name}”替换为用户对应的“张三先生”，得到待拆分文本“张三先生，您好，欢迎致电A平台客服热线。”。之后，电子设备按照预设拆分规则将“张三先生，您好，欢迎致电A平台客服热线。”拆分得到子文本“张三先生”、子文本“您好”和子文本“欢迎致电A平台客服热线”。

在另一些实现方式中，上述步骤S12可以包括：电子设备按照预设拆分规则拆分所述待转换文本，得到初始子文本集，之后，识别所述初始子文本集中的至少一个业务信息及每个业务信息的业务属性，针对至少一个业务信息中的每个业务信息，按照相应的业务属性将该业务信息变更为文本信息，分别得到所述子文本集。

例如，以待转换文本为“{name}，您好，欢迎致电A平台客服热线。”为例，电子设备首先按照预设拆分规则将“{name}，您好，欢迎致电A平台客服热线。”拆分得到初始子文本“{name}”、初始子文本“您好”和初始子文本“欢迎致电A平台客服热线”。之后，电子设备确定初始子文本“{name}”为业务信息，且业务属性为待补充信息位，而初始子文本“您好”和初始子文本“欢迎致电A平台客服热线”中不包含业务信息。进而，电子设备将“{name}”替换为用户对应的“张三先生”，得到子文本“张三先生”、子文本“您好”和子文本“欢迎致电A平台客服热线”。

采用本实现方式，无论先拆分文本再转换拆分后文本中的业务信息，还是先转换文本中的业务信息再拆分文本，使得所得到的每个子文本均是能够准确表达出业务属性的文本内容，由于各个子文本的文本内容均能够准确的表达相应子文本所表达的语义，从而使得每个子文本在转换为音频后，同样能够准确的表达相应子文本所表达的语义，从而能够提高转换后的音频的准确性。

下面结合示例性实施场景对根据本公开实施例的文本转换音频的方法进行说明。

示例性的，以下以名称为“X金融平台客服系统”的场景为例，对本公开实施例的文本转换音频的方法进行介绍。参见图4，图4例如是“X金融平台客服系统”的IVR系统结构图，图4示意的IVR系统包括TTS客户端41和TTS服务端42，其中，TTS客户端41包括自由交换模块411和IVR引擎模块412，IVR引擎模块412中部署文本拆分模块4121、转换模块4122和流处理模块4123。

文本拆分模块4121可以用于按照预设拆分规则对文本进行拆分；转换模块4122可以用于对待转换文本中的业务信息进行转换；流处理模块4123可以用于触发多线程转换，以及根据多个子文本的音频获得待转换文本的音频。TTS客户端41的其他功能以及TTS服务端42的功能，详见前述实施例的描述，此处不再赘述。

可以理解的是，图4示意的IVR系统仅是示意性描述，对本公开实施例涉及的IVR系统或者文本转换音频系统不构成限制，在其他实现方式中，IVR系统还可以包含更多或者更少的功能模块，或者各功能模块的命名以及功能的实现可以不同于图4所示，本公开实施例不再详述。

如图5所示，为X金融平台客服系统响应用户输入指令的业务流程节点示意图，结合图4示意的IVR系统，在接收到用户通过手机或固话呼入X金融平台客服系统的电话后，自由交换模块411接收到经运营商的路由传输的呼叫请求，进而将该呼叫请求通过http请求的方式路由到IVR引擎模块412，进入节点51。

在节点51中，IVR引擎模块412获取该节点待播报的文本“尊敬的客户您好，欢迎致电X金融平台客服服务热线”。IVR引擎模块412在确定文本“尊敬的客户您好，欢迎致电X金融平台客服服务热线”包含两个子文本，即待播放的列表长度为2，之后，触发文本拆分模块4121将文本“尊敬的客户您好，欢迎致电X金融平台客服服务热线”拆分为子文本“尊敬的客户您好”和子文本“欢迎致电X金融平台客服服务热线”。该两个子文本例如均未被转换为音频，那么IVR引擎模块412可以为子文本“尊敬的客户您好”设置标识T0001，为子文本“欢迎致电X金融平台客服服务热线”设置标识T0002。进而，IVR引擎模块412触发流处理模块4123以生成两个转换请求，以及通过多线程方式调用TTS服务端42分别将子文本“尊敬的客户您好”和子文本“欢迎致电X金融平台客服服务热线”转换为音频。该两个转换请求均是http请求。在接收到TTS服务端42通过http方式传输的两个音频后，流处理模块4123可以以对应的标识对对应的音频文件命名并存储。例如，子文本“尊敬的客户您好”的音频文件名称为“T0001.wav”，子文本“欢迎致电X金融平台客服服务热线”的音频文件名称为“T0002.wav”。进而，IVR引擎模块412可以将音频文件名“T0001.wav”与“T0002.wav”传输至自由交换模块411。自由交换模块411可以调用音频文件“T0001.wav”与“T0002.wav”，以及按照待播放列表指示的顺序顺次播放“T0001.wav”和“T0002.wav”。

之后，IVR系统进入节点52。

在节点52中，IVR引擎模块412获取该节点待播报的文本“欠款查询请按一，还款日查询请按二，人工服务请按零”。对应节点52，IVR引擎模块412以及IVR引擎模块412中各模块执行的操作，与节点51类似，不同之处在于，在节点52中，拆分得到三个子文本，子文本“欠款查询请按一”、子文本“还款日查询请按二”和子文本“人工服务请按零”，对应该节点的播放列表指示为3。相应的，该3个子文本的对应的标识不同与T0001和T0002，且本节点中，流处理模块4123应当生成三个转换请求，以采用三条线程的方式调用TTS服务端42执行转换操作。其他处理过程，此处不再详述。

之后，响应用户的操作进入节点53。其中，节点53待播报的文本为“尊敬的客户您好，您的欠款金额为{amountOwed}，返回主菜单请按#号键，结束请挂机”，或者“尊敬的客户您好，您的还款日为{repaymentDate}，返回主菜单请按#号键，结束请挂机”。

以下以接收到用户按1为例进行说明。在接收到用户按1之后，进入欠款查询业务节点，IVR引擎模块412获取该节点待播报的文本“尊敬的客户您好，您的欠款金额为{amountOwed}，返回主菜单请按#号键，结束请挂机”。进而，IVR引擎模块412可以确定该文本中的“{amountOwed}”是业务信息，其业务属性为金额。那么，IVR系统例如可以调用第三方业务系统，查询到该用户的欠款金额例如是125.48元，进而，IVR引擎模块412可以触发转换模块4122将业务信息“{amountOwed}”转换为金额125.48元的描述文本“一百二十五元四角八分”，得到文本“尊敬的客户您好，您的欠款金额为一百二十五元四角八分，返回主菜单请按#号键，结束请挂机”。

之后，IVR引擎模块412触发文本拆分模块4121拆分“尊敬的客户您好，您的欠款金额为一百二十五元四角八分，返回主菜单请按#号键，结束请挂机”得到四个子文本，即子文本列表长度是4。

由于子文本“尊敬的客户您好”在节点51中已经转换为音频，且音频文件名为“T0001.wav”，在节点53中，IVR引擎模块412可以不再对子文本“尊敬的客户您好”执行转换，而仅需对子文本“您的欠款金额为一百二十五元四角八分”、子文本“返回主菜单请按#号键”和子文本“结束请挂机”进行转换。IVR引擎模块412触发流处理模块4123调用三条线程执行音频转换的过程，此处不再详述。

其中，子文本“您的欠款金额为一百二十五元四角八分”例如对应音频文件“T00010.wav”，子文本“返回主菜单请按#号键”例如对应音频文件“T00011.wav”，子文本“结束请挂机”例如对应音频文件“T00012.wav”。在节点53中，自由交换模块411调用并播放音频文件的顺序例如是“T0001.wav”、“T00010.wav”、“T00011.wav”和“T00012.wav”。

另一些实施方式中，若节点53为查询还款日业务节点，待播报文本为“尊敬的客户您好，您的还款日为{repaymentDate}，返回主菜单请按#号键，结束请挂机”，那么IVR引擎模块412可以确定该文本中的“{repaymentDate}”是业务信息，其业务属性为日期，进而，在确定具体日期后，可以将{repaymentDate}转换为对日期的描述文本，例如将具体日期“20220726”转行为“二零二二年七月二十六日”。其他操作过程与上述描述类似，此处不再赘述。

在节点53执行完毕后，IVR系统可以响应用户的操作结束运行。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了文本转换音频的装置、电子设备、计算机可读存储介质，上述均可用来实现本公开提供的任一种文本转换音频的方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图6为本公开实施例提供的一种文本转换音频的装置的框图。

参照图6，本公开实施例提供了一种文本转换音频的装置，该文本转换音频的装置包括：获取模块61、处理模块62、确定模块63和转换模块64。其中，各个模块在运行时，可以实现上述方法实现方式中的部分或全部功能，例如：

获取模块61，用于获取待转换文本；处理模块62，用于处理所述待转换文本得到子文本集；确定模块63，用于确定所述子文本集中包含的至少一个待转换子文本，所述至少一个待转换子文本包括所述子文本集中包含业务信息的子文本，以及所述子文本集中在预设的数据库中未检测到的子文本，所述数据库包括若干历史音频以及相应子文本的对应关系；转换模块64，用于分别将所述至少一个待转换子文本转换为音频，其中，在所述至少一个待转换子文本的数量大于或者等于预设阈值的情况下，并行转换各个待转换子文本；所述确定模块63，还用于基于所述子文本集中各个子文本对应的音频得到所述待转换文本的音频。

具体实现方式详见上述图3和图5示意的方法实现方式，此处不再赘述。

需要指出的是，图6示意的文本转换音频的装置可以是图4示意的IVR系统的另一种表达方式，基于此，图6中示意的各功能模块与图4示意的各部件、模块或者其组合可以等效。例如，图6中的处理模块62可以等效为图4中的文本拆分模块4121和转换模块4122。

可以理解的是，以上各个模块/单元的划分仅仅是一种逻辑功能的划分，实际实现时，各以上各个模块/单元可以集成到硬件实现，例如所述获取模块61的功能可以集成到I/O接口，所述处理模块62、确定模块63和转换模块64的功能可以集成到处理器实现。如图7所示，图7为本公开实施例提供的一种电子设备的框图。参照图7，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器701；至少一个存储器702，以及一个或多个I/O接口703，连接在处理器701与存储器702之间；其中，存储器702存储有可被至少一个处理器701执行的一个或多个计算机程序，一个或多个计算机程序被至少一个处理器701执行，以使至少一个处理器701能够执行上述的文本转换音频的方法。

本公开实施例还提供了一种计算机可读存储介质，计算机可读存储介质可以是易失性或非易失性计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器701执行时：获取待转换文本；处理所述待转换文本得到子文本集；确定所述子文本集中包含的至少一个待转换子文本，所述至少一个待转换子文本包括所述子文本集中包含业务信息的子文本，以及所述子文本集中在预设的数据库中未检测到的子文本，所述数据库包括若干历史音频以及相应子文本的对应关系；分别将所述至少一个待转换子文本转换为音频，其中，在所述至少一个待转换子文本的数量大于或者等于预设阈值的情况下，并行转换各个待转换子文本；基于所述子文本集中各个子文本对应的音频得到所述待转换文本的音频。

在一些实施例中，所述处理器701还用于识别所述待转换文本中的至少一个业务信息及每个业务信息的业务属性；针对所述至少一个业务信息中的每个业务信息，按照相应的业务属性将该业务信息变更为文本信息，得到待拆分文本；按照预设拆分规则拆分所述待拆分文本，得到所述子文本集。

在一些实施例中，所述处理器701还用于按照预设拆分规则拆分所述待转换文本，得到初始子文本集；识别所述初始子文本集中的至少一个业务信息及每个业务信息的业务属性；针对所述至少一个业务信息中的每个业务信息，按照相应的业务属性将该业务信息变更为文本信息，分别得到所述子文本集。

在一些实施例中，所述处理器701还用于以分隔字符作为拆分的边界，将所述分隔字符之前的部分文本作为一个子文本，将所述分隔字符之后的部分文本作为另一个子文本，所述分隔字符包括：标点符号、换行符、制表符、空格、邮箱标识符；所述处理器701还用于按照语义拆分所述待转换文本得到所述子文本集，其中，每个子文本表征独立的语义。

在一些实施例中，所述业务属性包括待补充信息位、金额、日期，所述处理器701还用于当所述业务信息的业务属性是所述待补充信息位时，将所述业务信息替换为所述待补充信息位对应的内容文本；或者，当所述业务信息的业务属性是所述金额或者所述日期时，将所述业务信息转换为表征相应业务属性的描述文本。

在一些实施例中，所述处理器701还用于在得到至少一个待转换子文本之后，分别为所述至少一个待转换子文本中的每个待转换子文本设置标识，以区分每个待转换子文本与其他子文本，所述其它子文本为与所述待转换子文本的内容不同的子文本。

在一些实施例中，所述处理器701还用于针对所述至少一个待转换子文本中的每个待转换子文本，将该待转换子文本、该待转换子文本的音频、以及该待转换子文本的标识对应存储到所述数据库中。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述文本转换音频的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种文本转换音频的方法，其特征在于，包括：

获取待转换文本；

处理所述待转换文本得到子文本集；

2.根据权利要求1所述的文本转换音频的方法，其特征在于，所述处理所述待转换文本得到子文本集，包括：

识别所述待转换文本中的至少一个所述业务信息及每个业务信息的业务属性；

针对每个业务信息，按照相应的业务属性将业务信息变更为文本信息，得到待拆分文本；

按照预设拆分规则拆分所述待拆分文本，得到所述子文本集。

3.根据权利要求1所述的文本转换音频的方法，其特征在于，所述处理所述待转换文本得到子文本集，包括：

按照预设拆分规则拆分所述待转换文本，得到初始子文本集；

识别所述初始子文本集中的至少一个所述业务信息及每个业务信息的业务属性；

针对每个业务信息，按照相应的业务属性将业务信息变更为文本信息，分别得到所述子文本集。

4.根据权利要求2或3所述的文本转换音频的方法，其特征在于，所述预设拆分规则为：

以分隔字符作为拆分的边界，将所述分隔字符之前的部分文本作为一个子文本，将所述分隔字符之后的部分文本作为另一个子文本，所述分隔字符包括：标点符号、换行符、制表符、空格、邮箱标识符；或者，

按照语义拆分所述待转换文本得到所述子文本集，其中，每个子文本表征独立的语义。

5.根据权利要求2或3所述的文本转换音频的方法，其特征在于，所述业务属性包括待补充信息位、金额、日期，针对所述至少一个业务信息中的每个业务信息，按照相应的业务属性将该业务信息变更为文本信息，包括：

在所述业务信息的业务属性是所述待补充信息位的情况下，将所述业务信息替换为所述待补充信息位对应的内容文本；或者，

在所述业务信息的业务属性是所述金额或者所述日期的情况下，将所述业务信息转换为表征相应业务属性的描述文本。

6.根据权利要求1所述的文本转换音频的方法，其特征在于，在得到至少一个待转换子文本之后，还包括：

分别为所述至少一个待转换子文本中的每个待转换子文本设置标识，所述标识用于区分每个待转换子文本与其他子文本，所述其它子文本为与所述待转换子文本的内容不同的子文本。

7.根据权利要求6所述的文本转换音频的方法，其特征在于，还包括：

针对每个待转换子文本，将待转换子文本、所述待转换子文本的音频、以及所述待转换子文本的标识对应存储到所述数据库中。

8.一种文本转换音频的装置，其特征在于，包括：

获取模块，用于获取待转换文本；

处理模块，用于处理所述待转换文本得到子文本集；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，所述一个或多个计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的文本转换音频的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的文本转换音频的方法。