CN112771607A

CN112771607A - 电子设备及其控制方法

Info

Publication number: CN112771607A
Application number: CN201980063157.XA
Authority: CN
Inventors: 郑锺勋; 成昊相; 洪斗和; 闵庚甫; 吴殷美; 朱基岘
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-14
Filing date: 2019-11-07
Publication date: 2021-05-07
Also published as: EP3818518A4; KR20200056261A; EP3818518A1

Abstract

电子设备基于正被输入的文本句子获得文本句子的韵律信息，将文本句子分割成多个句子元素，通过将多个句子元素和文本句子的韵律信息输入到文本到语音(TTS)模块来并行获得韵律信息被反映到多个句子元素中的每个句子元素的语音，并且对并行获得的多个句子元素的语音进行合并以输出文本句子的语音。

Description

电子设备及其控制方法

技术领域

本公开涉及一种电子设备及其控制方法。更具体地，本公开涉及一种能够实现更自然发声的对话系统的电子设备及其控制方法。

背景技术

近年来，人工智能(AI)系统已被用于各种领域。与现有的基于规则的智能系统不同，AI系统是机器学习、判断并迭代地改善分析和决策制定的系统。随着AI系统的使用增加，例如，准确度、识别率以及对用户品味的理解或预期可相应地增加。因此，现有的基于规则的智能系统正逐渐被基于深度学习的AI系统取代。

AI技术是由机器学习(例如，深度学习)和利用机器学习的基本技术构成的。

机器学习是能够对输入数据的特性进行分类或学习的算法技术。元素技术是使用机器学习算法(诸如深度学习)来模拟人脑的功能(诸如识别和判断)的技术。机器学习是由诸如语言理解、视觉理解、推理、预测、知识表示、运动控制等技术领域构成的。

实现AI技术的各种领域可包括以下领域。语言理解是用于识别、应用和/或处理人类语言或字符的技术，并且包括自然语言处理、机器翻译、对话系统、问答、语音识别或合成等。视觉理解是用于将对象识别和处理为人类视觉的技术，包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推断预测是用于判断和逻辑地推断和预测信息的技术，包括基于知识和基于概率的推断、优化预测、基于偏好的计划、推荐等。知识表示是用于将人类经验信息自动化为知识数据的技术，包括知识构建(数据生成或分类)、知识管理(数据利用)等。运动控制是用于控制车辆的自主行驶和机器人的运动的技术，包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。

近年来，已经提供了使用AI代理(例如，Bixby^TM、Assistant^TM、Alexa^TM等)来提供对语音输入的响应的各种服务。特别地，神经文本到语音(TTS)技术的引入已经使得对输入文本和声学特征的关系进行综合建模，以输出通常自然的复合声音。

特别地，在长文本的语音合成的情况下，存在这样的问题：随着语音合成时间增加，由人工智能(AI)代理输出的反馈语音变得更慢，并且用户可能感觉到与AI代理的对话变得不自然。

在并行合成语音的情况下，通过分割反馈文本句子以推进反馈，存在这样的问题：被分割的文本句子的每个语音具有单独的韵律，并且语音间韵律不相连。因此，通常会整体输出不自然的反馈语音。

因此，需要一种用于在提供自然反馈语音时推进反馈语音输出的AI对话系统技术。

发明内容

技术问题

本公开的各方面至少解决了上述问题和/或缺点，并且至少提供了下面描述的优点。因此，本公开的一个方面是提供一种电子设备及其控制方法，该电子设备能够通过在反映整个文本句子的韵律信息时对被分割的文本句子并行地执行语音合成来实现更自然发声的对话系统。

技术方案

根据本公开的一个方面，提供了一种电子设备，包括被配置为存储至少一个指令的存储器和执行所述至少一个指令的处理器，其中，所述至少一个指令在被执行时使处理器进行控制以进行以下操作：基于获得文本输入，获得所述文本输入的韵律信息，将所述文本输入分割成多个片段，通过将所述多个片段和所述韵律信息输入到文本到语音(TTS)模块来并行地获得所述韵律信息被反映到所述多个片段中的每个片段的语音片段，并且通过合并语音片段来获得所述文本输入的语音。

处理器可通过基于第一标准分割所述文本输入来获得多个第一片段，并且基于用于将所述多个第一片段转换为语音片段的第一处理时间小于预定时间，将所述多个第一片段输入到TTS模块。基于用于将所述多个第一片段中的至少一个第一片段转换为语音片段的第一处理时间大于或等于预定时间，通过基于第二标准分割所述至少一个第一片段来获得多个第二片段，并且基于用于将所述多个第二片段转换为语音片段的第二处理时间小于所述预定时间，将所述多个第二片段输入到TTS模块。

基于第一标准是标点符号标准，第二标准基于子句，并且基于第一标准是子句标准，第二标准基于短语。

基于所述文本输入的格式、语法结构和上下文中的至少一个，所述韵律信息可包括所述文本输入的语调信息和重音信息。

所述多个片段中的每个片段可包括与所述文本输入中的顺序相关的索引信息，并且处理器可通过基于所述索引信息合并语音片段来获得所述文本输入的语音。

TTS模块可以是深度神经网络文本到语音(DNN TTS)模块。

电子设备还包括扬声器，并且处理器可控制扬声器输出应答语音并在应答语音之后输出所述文本输入的语音。

多个应答语音可被存储在存储器中，并且处理器可基于用于获得所述文本输入的语音的处理时间从所述多个应答语音中识别所述应答语音。

电子设备还可包括通信器和扬声器，并且处理器可通过将第一片段和所述韵律信息输入到文本到语音(TTS)模块来并行获得所述韵律信息被反映到第一片段中的每个第一片段的第一片段。通过通信器将所述多个片段中的其余片段和所述韵律信息发送到用于语音合成的外部装置。通过通信器从对所述其余片段执行语音合成的所述外部装置获得所述其余片段的其余语音。并且通过对并行获得的第一片段和从所述外部装置接收的所述其余语音进行合并来通过扬声器输出语音。

第一片段可与所述文本输入的开始部分相应，并且处理器可通过输出第一片段并在输出第一片段之后输出从所述外部装置接收的所述其余语音来通过扬声器输出语音。

根据本公开的一方面，提供了一种控制电子设备的方法，包括：基于文本输入，获得所述文本输入的韵律信息；将所述文本输入分割成多个片段；通过将所述多个片段和所述韵律信息输入到文本到语音(TTS)模块来并行获得所述韵律信息被反映到所述多个片段中的每个片段的语音片段；以及通过合并语音片段来获得所述文本输入的语音。

分割步骤可包括通过基于第一标准分割所述文本输入来获得多个第一片段，并且基于用于将所述多个第一片段转换为语音片段的第一处理时间小于预定时间，将所述多个第一片段输入到TTS模块。基于用于将所述多个第一片段中的至少一个第一片段转换为语音片段的第一处理时间大于或等于预定时间，通过基于第二标准分割所述至少一个第一片段来获得多个第二片段，并且基于用于将所述多个第二片段转换为语音片段的第二处理时间小于所述预定时间，将所述多个第二片段输入到TTS模块。

所述多个片段中的每个片段可包括与所述文本输入中的顺序相关的索引信息，并且所述获得所述文本句子的语音的步骤可包括通过基于所述索引信息合并语音片段来获得所述文本输入的语音。

控制方法还可包括通过扬声器输出应答语音和在应答语音之后输出所述文本输入的语音。

应答语音可包括多个应答语音，并且输出步骤可包括基于用于获得所述文本输入的语音的处理时间来识别所述应答语音。

所述控制方法还可包括：通过将所述多个片段中的第一片段和所述韵律信息输入到文本到语音(TTS)模块来并行获得所述韵律信息被反映到第一片段中的每个第一片段的第一片段，将所述多个片段中的其余片段和所述韵律信息发送到用于语音合成的外部装置，从对所述其余片段执行语音合成的所述外部装置获得所述其余片段的其余语音，并且通过对并行获得的第一片段和从所述外部装置接收的所述其余语音进行合并来通过扬声器输出语音。

第一片段与所述文本输入的开始部分相应，并且通过输出第一片段并在输出第一片段之后输出从所述外部装置接收的所述其余语音来通过扬声器输出语音。

根据本公开的一方面，提供了一种计算机可读介质，包括用于执行控制电子设备的方法的程序，该方法包括：基于文本输入，获得所述文本输入的韵律信息；将所述文本输入分割成多个片段；通过将所述多个片段和所述韵律信息输入到文本到语音(TTS)模块来并行获得所述韵律信息被反映到所述多个片段中的每个片段的语音片段；以及通过合并语音片段来获得所述文本输入的语音。

附图说明

通过以下结合附图的描述，本公开的实施例的上述和其他方面、特征和优点将更加明显，其中：

图1是根据实施例的人工智能(AI)对话系统的示图；

图2是示出根据实施例的电子设备的框图；

图3是图2的电子设备的详细框图；

图4是根据实施例的控制电子设备的方法的流程图；

图5是根据实施例的控制电子设备的方法的流程图；

图6是描述图5的TTS模块的语音合成操作的示图；

图7是根据实施例的应用语音合成的方法的流程图；

图8是描述TTS模块的训练操作的示图；

图9是描述根据实施例的TTS模块的训练操作的示图；

图10、图11和图12是描述根据实施例的分割文本句子的方法的流程图和示图；

图13和图14是用于描述根据文本句子的韵律信息的差异的示图；

图15是用于描述根据实施例的当在反映韵律信息的情况下执行语音合成时合成语音的韵律差异的示图；

图16是根据实施例的在语音合成期间输出应答语音的方法的流程图；

图17是示出根据实施例的在外部服务器中对文本句子的至少一部分的语音合成的顺序图；以及

图18是示出根据实施例的语音合成的顺序图。

具体实施方式

将详细描述本公开的实施例。

考虑到本公开中的功能，选择通常和广泛使用的术语作为本公开的实施例中使用的术语，但是可根据本领域技术人员的意图、新技术的出现等来理解这些术语的含义。另外，在特定情况下，可选择任意术语。在这种情况下，将在本公开的相应描述部分中详细地描述这些任意术语的含义。因此，应当基于术语的含义和贯穿本公开的内容而不是术语的简单名称来定义在本公开的实施例中使用的术语。

因为本公开可进行各种修改并具有若干实施例，所以将在附图中示出本公开的特定实施例并且在详细描述中详细地描述特定实施例。然而，将被理解，本公开不限于特定实施例，而是在不脱离本公开的范围和精神的情况下，本公开的范围包括所有修改、等同物和替换。当对与本公开内容相关的常规技术的详细描述可能模糊对本公开内容的理解时，将省略对这样的常规技术的详细描述。

术语“第一”、“第二”等可用于描述各种组件，但是这些组件不应被解释为受这些术语的限制。这些术语仅用于将一个组件与另一个组件区分开。

除非上下文另有明确说明，否则单数表达旨在包括复数形式。将进一步理解，本说明书中使用的术语“包括”或“由......形成”指定本说明书中提及的特征、数字、步骤、操作、组件、部件或其组合的存在，但不排除一个或更多个其他特征、数字、步骤、操作、组件、部件或其组合的存在或添加。

诸如“模块”、“单元”、“部件”等术语是指执行至少一个功能或操作的元件，并且这样的元件可被实现为硬件或软件，或者硬件和软件的组合。此外，除了当多个“模块”、“单元”、“部件”等中的每一个需要在单独的硬件中实现时之外，组件可被集成在至少一个模块或芯片中并且在至少一个处理器中实现。

在下文中，将参照附图详细描述本公开的实施例，使得本公开所属领域的技术人员可容易地实践本公开。然而，本公开可以以各种不同的形式实现，并且本公开不仅限于本文描述的实施例。另外，在附图中，将省略与描述无关的部分以避免模糊本公开，并且在整个说明书中将用类似的附图标记表示类似的部分。

将参照附图进一步描述实施例。

图1是根据实施例的人工智能(AI)对话系统的示图。

参照图1，人工智能(AI)对话系统1000可包括电子设备100，该电子设备100从用户10接收语音信号形式的用户命令，并向用户10提供可听音频信号形式的响应。电子设备100可从用户的语音中检测用户查询，如图1所示，但这仅是实施例，并且电子设备100可通过各种输入方法(诸如语音、触摸输入、键盘输入等)中的一种或更多种来接收用户查询。

电子设备100可向用户提供语音类型响应。语音类型响应可基于预先存储的文本(诸如电子书)，或者可基于通过对用户查询的语音识别而生成以与用户的意图相应的文本。根据实施例，人工智能对话系统100还可包括用于与电子设备100交换数据并执行数据处理的服务器200。例如，服务器200可从电子设备100接收数据以执行对用户的声音的语音合成，并且将合成语音发送到电子设备100，使得电子设备100可输出合成语音。这里，执行数据处理的服务器200可以是一个或更多个服务器。

关于图1，一些数据处理操作由服务器200执行，并且其他数据处理操作可由电子设备100执行。然而，对话系统1000的数据处理操作可由电子设备100在本地执行。

在图1，电子设备100被示出为由AI扬声器实现，但是电子设备100不限于此，并且可被实现为智能电话、台式PC、膝上型PC、上网本计算机、服务器、个人数字助理(PDA)、个人媒体播放器(PMP)、医疗设备、相机、TV、冰箱、空调、吸尘器、烤箱、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如：SamsungHomeSyncTM、AppleTVTM或Google TVTM)、游戏控制台(例如：XboxTM、PlayStationTM)、信息亭、可穿戴装置(例如，手表、戒指、手镯、手环、项链、一副眼镜、隐形眼镜或头戴式设备(HMD)、衣服、皮肤垫)等。在一些实施例中，电子设备100可以是连接到诸如计算机、智能电话或其他电子设备的终端装置的服务器。

电子设备100可在接收到用户查询之前接收包括用于激活或唤醒AI代理程序的触发词的用户语音。例如，电子设备100可在接收到用户查询之前接收包括诸如“Hi,Bixby”的触发词的语音。当包括触发词的语音被输入时，电子设备100可执行或激活AI代理程序以检测和接收用户查询的输入。AI代理程序可包括可处理用户查询并以自然语言输出对用户查询的适当响应的对话系统。

在实施例中，电子设备100可从用户10接收“你好”的语音。在这种情况下，电子设备100可分析语音的意图并获得被包括作为与输入语音相应的响应文本的关于响应语音的信息。电子设备100还可利用通过嵌入式传感器和相机获得的信息，并获得对输入语音的响应。

电子设备100可将关于响应语音的信息输入到文本到语音(TTS)模块以获得响应语音信号，并通过扬声器输出所获得的响应语音信号。在这种情况下，如果甚至在从用户提供输入语音的时间开始超过预设时间之后也不输出响应语音，则由于电子设备100向用户提供响应的延迟，用户10可能感觉到与电子设备100的对话不自然。

根据本公开，电子设备100可通过将响应语音信号的文本句子分割为多个句子元素，并反映整个文本句子的韵律信息来对每个句子元素执行语音合成，以在时限内输出响应语音并实现输出自然语音的自然对话系统。下面参照图2至图18详细描述特定的语音合成操作。

图2是示出根据实施例的电子设备的框图。

参照图2，电子设备100包括存储器110和处理器120。

存储器110可存储提供对电子设备100的操作的控制的各种程序和数据。存储器110可存储计算机可读指令的计算机可执行软件程序。处理器120可通过执行存储在存储器110中的软件程序的指令来控制电子设备100执行操作。存储器110可被实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)、固态驱动器(SSD)等。存储器110由处理器120访问，并且处理器120对数据的读取/写入/修改/删除/更新可被执行。在本公开中，术语存储器可包括存储器110、处理器120中的只读存储器(ROM)、RAM或安装到电子设备100的存储卡(例如，微型SD卡和记忆棒)。另外，存储器110可存储用于控制要在电子设备100的显示器的显示区域中显示的各种屏幕的程序和数据。

存储器110可存储用于与对话系统一起实现的AI代理。电子设备100可利用AI代理来生成对输入的用户话语的自然语言响应。AI代理可以是用于提供基于AI的服务(例如，语音识别服务、秘书服务、翻译服务、搜索服务等)的专用程序。AI代理可由作为通用处理器(例如，中央处理单元(CPU))或单独的AI专用处理器(例如，图形处理单元(GPU)等)的处理器120执行。

处理器120可被电连接到存储器110并控制电子设备100的操作。处理器120可通过执行存储在存储器110中的软件的至少一个指令来控制电子设备100。

根据实施例，处理器120可被实现为用于处理数字图像信号的数字信号处理器(DSP)、微处理器和时间控制器(TCON)，但是处理器120不限于此。处理器120可包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)和高级精简指令集计算(RISC)机器(ARM)处理器中的一个或更多个，或者可被定义为相应的术语。处理器120可以以实现处理算法的片上系统(SoC)类型或大规模集成(LSI)类型或者现场可编程门阵列(FPGA)来实现。

电子设备100的处理器120可进行控制以将文本句子合成为语音信号并输出与语音信号相应的音频信号。这里，文本句子是指要作为语音输出的句子的文本信息。文本句子可以是存储在存储器110中的文本句子，诸如电子书，可以是从外部装置接收的，或者可以是作为与接收的输入语音相应的响应而获得的。

当生成与输入语音相应的文本句子时，电子设备100可通过通信器130(图3)从外部装置接收输入语音，或者经由麦克风直接接收输入语音。在下面的描述中，对话系统中使用的模块按功能被分类并被描述为多个模块。这里，若干模块可被实现为一个模块，并且这样的模块可以以软件或以一个或更多个芯片形式来实现。

具体地，处理器120可使用作为一个语音识别模块的自动语音识别(ASR)模块来识别输入语音。

ASR模块可将输入语音(特别是用户查询)转换为文本数据。例如，ASR模块可包括语音识别模块。语音识别模块可包括声学模型和语言模型。例如，声学模型可包括与发声有关的信息，并且语言模型可包括关于单位音素信息和单位音素信息的组合的信息。语音识别模块可使用与发声相关的信息和关于单位音素信息的信息将输入语音转换为文本数据。关于声学模型和语言模型的信息可被存储在例如自动语音识别数据库(ASR DB)中。

处理器120可通过从输入语音的转换文本分析查询的意图来获得关于响应语音的信息以对在输入语音中检测到的查询做出响应。处理器120可使用自然语言处理(NLP)模块分析文本的意图，并获得与文本的意图相应的响应信息。NLP模块可包括自然语言理解(NLU)模块、对话管理器(DM)模块、自然语言生成器(NLG)模块等。

自然语言理解模块可通过执行语法分析或语义分析来识别用户的意图。语法分析可以以语法单位(例如：单词、短语、词素等)分割用户输入，并确定分割单元中的每个分割单元的语法元素。可使用语义匹配、规则匹配、公式匹配等来执行语义分析。因此，自然语言理解模块可获取域、意图或用于表达意图的参数(或时隙)。

自然语言理解模块可使用被划分为域、意图和用于掌握意图的参数(或时隙)的匹配规则来确定用户意图和参数。例如，一个域(例如：警报)可包括多个意图(例如：警报设置、警报取消等)，并且一个意图可包括多个参数(例如：时间、重复时间、警报声音等)。多个规则可包括例如一个或更多个强制元素参数。匹配规则可被存储在自然语言理解数据库(NLU DB)中。

自然语言理解模块可使用诸如词素或短语的语言特性(例如：语法元素)来掌握从用户输入中提取的单词的含义，并且通过将掌握的含义与域和意图进行匹配来确定用户意图。例如，自然语言理解模块可通过计算从用户输入提取的多少个单词被包括在每个域和意图中来确定用户的意图。根据实施例，自然语言理解模块可使用成为用于理解意图的基础的单词来确定用户输入的参数。根据实施例，自然语言理解模块可使用存储有用于掌握用户输入的意图的语言特性的自然语言识别数据库来确定用户的意图。

对话管理器模块可确定由自然语言理解模块掌握的用户的意图是否清楚。例如，对话管理器模块可基于参数信息是否足够来确定用户的意图是否清楚。对话管理器模块可确定在自然语言理解模块中掌握的参数是否足以执行任务。根据一个实施例，如果用户意图不清楚，则对话管理器模块可向用户提供用于请求信息的反馈。例如，对话管理器模块可提供反馈以请求关于用于理解用户意图的参数的信息。另外，对话管理器模块可生成并输出用于检查用户查询的消息，其中，该消息包括由自然语言理解模块改变的文本。

根据一个实施例，对话管理器模块可包括内容提供者模块。当基于在自然语言理解模块中识别的意图和参数执行操作时，内容提供者模块可生成执行与用户输入相应的任务的结果。

根据另一个实施例，对话管理器模块可使用知识库提供对用户查询的响应。此时，知识库可被包括在电子设备100，但是这是示例并且可被包括在外部服务器中。具体地，对话管理器模块可基于所分析的用户语音的意图来获得关于响应于用户语音的响应语音的信息。这里，关于响应语音的信息可包括响应内容的文本信息和与响应内容相应的情绪信息。这里，情绪信息可包括声调信息、风格信息、韵律信息等。

自然语言生成模块(NLG模块)可将指定信息改变为文本形式。被改变为文本形式的信息可以是自然语言话语的形式。指定信息可以是例如关于附加输入的信息、用于引导完成与用户输入相应的动作的信息、或用于请求用户的附加输入的信息(例如：用户输入的反馈信息)。被改变为文本形式的信息可由TTS模块转换为语音形式。

TTS模块可将包括在关于响应语音的信息中的文本格式的信息转换为作为语音格式的信息的响应音频信号。TTS模块可从自然语言生成模块接收文本格式的信息，将文本格式的信息改变为语音格式的信息，并输出该语音格式的信息。TTS模块可以是基于深度神经网络(DNN)进行操作的TTS模块。将在图6中进一步描述基于DNN的TTS模块的语音合成操作。

当文本句子被输入时，处理器120可获得文本句子的韵律信息。具体地，处理器120可通过分析文本句子的句子结构来获得整个文本句子的韵律信息。韵律信息可包括整个文本句子的音素信息、语调信息、重音信息等。

除了指示语音中的语音内容的音素信息之外，韵律信息还可包括语调或重音信息，并且声音的幅度(能量)、声音的高度(频率)、声音的长度(持续时间)等可由韵律信息控制。

这里，音素信息是指区分单词含义的最小声音单位，并且可以是例如元音和辅音。在这种情况下，处理器120可使用发音规则信息来反映一般语音现象，诸如辅音位和腭音化等。

语调信息可包括声音的旋律曲线和/或声音的高度变化信息。另外，可根据定义语调的句子元素的类型将语调信息分类为音节语调、单词语调、句子语调等。在这种情况下，除了发音的简单内容之外，语调信息可用于传递附加信息。

可基于涉及声音高度的语调信息来区分语音的含义。例如，当靠近句子末尾的声调提高时，语音含义可被区分为疑问句，当靠近句子末尾的声调减小时，语音含义可被区分为陈述句，当靠近句子末尾的声调基本不变时，语音含义可被区分为祈使句，或者在句子之后存在不同的词汇。

重音信息是关于在语音序列中发音强烈的部分的信息，并且根据句子元素的类型，重音可被划分为句子中的句子重音、单词中的单词重音和音节中的音节重音等。根据每个国家的语言，即使相同的句子也可具有不同的重音。

重音信息包括由生理因素和心理因素产生的重音。

例如，由于生理原因，重音出现在长元音音节上，重音出现在具有鼻音作为最终声音的音节上并且重音出现在具有强音和吸气作为初始声音的音节上。

心理重音旨在用于情绪表达的效果，诸如当单词新出现在句子中时重音出现在关键概念单词上的情况、或者当重音出现在与写在前句和后句中的单词相反的单词中的情况等。除此之外，在语法方面，命令、禁止等常常被表达为硬重音，并且问题和推测等可被表达为软重音。

同时，可基于文本句子的形式、语法结构和上下文中的至少一个来获得如上所述的包括关于声音的各种信息的韵律信息。

这里，可根据句子的意图来区分文本句子的形式，并且可通过句子的内容、标点符号等来区分文本句子的形式。例如，文本句子可具有各种形式中的至少一种，诸如声明句、疑问句、祈使句、恳求句、感叹句、肯定句、否定句等。在这种情况下，标点符号可以是句号、逗号、感叹号、问号等。

语法结构可以是通过组合单词形成的短语、子句或句子的结构或功能，并且可用于确定单词的顺序。此时，语法框架包括单词被一个接一个地顺序输入的时隙或占位符。例如，一个文本句子具有多个时隙，并且每个单词可根据相应语言的语法规则被放置在时隙中。换句话说，语法结构可表示根据语法的单词的排列结构。

上下文可以是与给定语言表达出现的部分相关联的语言上下文或环境。语言表达常常具有歧义，并且如果不考虑上下文，则可能无法理解语言表达暗示的含义。语言的内部语境(诸如内容)或语言的外部语境(即语音情况)，可能对解决歧义具有关键作用。在一个实施例中，上下文信息可以是除了语言信息之外被递送到TTS的元数据的形式，诸如全局风格标记(GST)。

处理器120可基于文本句子的意图和上下文信息等来获得与文本句子相应的情绪信息。

如上所述，处理器120可基于文本句子的类型、语法结构和上下文信息来获得包括要说出的语音的语音信息、语调信息和重音信息的韵律信息。处理器120还可使用与文本句子相应的情绪信息来获得韵律信息。

当根据韵律信息合成语音时，即使相同的文本也可具有不同的韵律。这将参照图13至图15更详细地描述。

处理器120可将文本句子分割成多个句子元素。本文中的句子元素可以是通过基于预设标准(诸如单词、音节和音素)分割句子而获得的分割的句子。

处理器120可将多个分割的句子元素输入到TTS模块中，并且并行地获得多个句子元素中的每个句子元素的语音。这里，并行地获得语音可指同时执行针对多个句子元素的语音合成操作的至少一部分。

处理器120还可将所获得的韵律信息输入到TTS模块，并且获得韵律信息被反映到多个句子元素中的每个句子元素的语音。

具体地，处理器120可基于对从文本句子分割的多个句子元素并行地执行语音合成所需的处理时间来确定句子元素的长度。例如，如果并行地将从文本句子分割的多个句子元素合成为语音需要预定时间或更多时间，则处理器120可对分割的句子元素进行重新分割。

例如，处理器120可基于第一标准分割文本句子并获得多个句子元素，并且当将所获得的多个句子元素转换为语音所需的时间小于预设时间时，处理器120可将多个第一句子元素输入到TTS模块。

当将多个句子元素中的至少一个句子元素转换为语音所需的时间大于或等于预设时间时，可通过基于第二标准对需要预设时间或更长时间将句子元素转换为语音的至少一个句子元素进行分割来获得具有更短长度的多个句子元素。

如果将通过基于第二标准进行分割获得的多个句子元素转换为语音所需的时间小于预定时间，则处理器120可将基于第一标准获得的多个句子元素中未应用第二标准的剩余句子元素和通过应用第二标准获得的多个句子元素输入到TTS模块。在这种情况下，被输入到TTS模块的句子元素可具有小于预定时间的合成语音所需的时间。

如果基于第二标准获得的多个句子元素中的至少一个句子元素所需的时间大于或等于用于合成语音的预定时间，则处理器120可通过基于第三标准对合成语音所需的时间大于或等于预定时间的至少一个句子元素进行分割来获得具有更短长度的多个句子元素。

例如，如果第一标准是标点符号标准，则第二标准可以是子句标准，并且第三标准可以是短语标准。此外，根据实施例，如果第一标准是子句标准，则第二标准可以是短语标准。此外，应用于分割句子元素的标准不限于此，并且如果将通过短语标准获取的句子元素合成为语音所花费的时间大于或等于预定时间，则可基于诸如单词、间距等的各种标准来进一步分割标准。

处理器120可在多个句子元素中的每个句子元素中包括索引信息。这里，索引信息可指示文本句子内的句子元素的顺序。具体地，索引信息可被包括在元数据形式的句子元素的数据中。此外，将参照图12至图14详细描述分割文本句子的操作。

另外，处理器120可对并行获得的多个句子元素的语音进行合并，并获得文本句子的语音。具体地，处理器120可基于包括在多个句子元素中的每个句子元素中的索引信息来合并多个句子元素，并获得整个文本句子的语音。

如上所述，可通过分割文本句子并且并行执行语音合成来减少语音合成所需的时间。另外，通过在并行语音合成过程中反映整个文本句子的韵律信息来合成语音，当组合和提供分割句子的语音时，语音的风格变得彼此相似，从而减少了语音之间的韵律不自然。这允许实现使得能够自然地向用户查询提供快速响应并输出语音的自然AI对话系统。

图3是图2的电子设备的详细框图。

参照图3，电子设备100可包括存储器110、处理器120、通信器130和扬声器140。

存储器110和处理器120的一些配置与图2的配置相同，并且将省略其冗余描述。

存储器110可存储应答(rejoinder)语音。在这种情况下，应答语音是在通过扬声器140输出合成语音之前输出的语音，并且旨在在语音输出被延迟了语音合成所需的处理时间时防止用户感觉到对话的不自然。例如，可在存储器110中存储具有各种长度和各种细微差别的应答语音，诸如“嗯～”、“嗯啊～”、“嗯...我的意思是”等。

存储在存储器110中的应答语音可以是记录的语音，可以是由TTS模块生成的合成语音，或者该语音可以是先前通过高速缓存方法等再现的语音信号被重新使用的情况。

处理器120可考虑语音合成所需的处理时间来识别并输出应答语音。例如，当语音合成所需的处理时间增加时，处理器120可输出存储在存储器110中的各种应答语音中的较长长度的应答语音。在这种情况下，处理器120可通过进一步考虑文本句子的意图来选择应答语音。

作为另一实施例，处理器120可基于文本句子的语言的类型(例如，韩语、英语等)来选择应答语音。

在另一实施例中，处理器120可基于与文本句子相应的特征信息来选择应答语音。在这种情况下，与文本句子相应的特征信息可包括情绪信息、关于说话者的信息(例如，性别、特定人等)。也就是说，即使相同长度的应答语音也可基于情绪信息和关于说话者的信息来选择不同的应答语音。在完成所识别的应答语音的输出之后，处理器120可输出文本句子被合成的语音。

在上面的描述中，已经描述了应答语音被存储在存储器110，但是在实际实现中，仅应答文本被存储在存储器110，根据要由处理器120进行语音合成的文本句子来选择应答文本，并且应答语音可与所选择的应答文本进行合成并通过扬声器140输出。

通信器130是被配置为根据各种类型的通信方法与各种类型的外部装置执行通信的通信接口。这里，与电子设备100通信的外部装置可以是服务器、用户终端装置等。

通过通信器130与外部装置的通信可包括经由第三装置(例如，中继器、集线器、接入点、服务器、网关等)的通信。通信器130可以是用于无线通信的无线通信接口，该无线通信包括使用以下中的任何一个或任何组合的蜂窝通信，例如，长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)和通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)等。根据实施例，无线通信可包括例如无线保真(Wi-Fi)、蓝牙、蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)、磁安全传输、射频(RF)或体域网(BAN)中的任何一个或任何组合。通信器130可以是用于执行有线通信的有线通信接口，例如以太网接口控制器(NIC)，其中，该有线通信包括例如通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)、电力线通信或普通老式电话服务(POTS)中的任何一个或任何组合。在其上执行无线或有线通信的网络可包括电信网络(例如，计算机网络(例如，局域网(LAN)或广域网(WAN))、互联网或电话网络中的任何一个或任何组合。

处理器120可经由通信器130将关于文本句子获得的语音信息发送到外部装置，并使外部装置能够通过设置在外部装置中的扬声器输出该语音信息。

处理器120可通过通信器130将除了通过分割文本句子而获得的多个句子元素中的一些句子元素之外的其余句子元素发送到外部装置。这里，外部装置可以是用于语音合成的外部服务器、外部终端装置等。在这种情况下，处理器120可将文本句子的韵律信息与句子元素一起发送，使得韵律信息由外部服务器反映并且语音合成被执行。

处理器120可通过将韵律信息反映到多个句子元素中的一些句子元素来并行获得一些句子元素的语音。

另外，处理器120可获得从外部装置发送的句子元素的语音。另外，处理器120可通过扬声器140并行输出接收的语音和获得的语音。在这种情况下，处理器120可基于索引信息对接收的语音和获取的语音进行并行合并，并通过扬声器140输出合并的语音。

此外，处理器120可将文本句子分割成多个句子元素，使得并行合成多个句子元素所需的处理时间小于预定时间，然后将分割的多个句子元素中的一些句子元素发送到外部装置，但是用于由电子设备100进行语音合成的文本句子的其余部分可不被分割并被发送到外部装置。在这种情况下，外部装置可通过划分接收的文本句子的其余部分来获得多个句子元素。

由电子设备100合成的文本句子的一部分可以是文本句子的开始部分。在这种情况下，处理器120可通过扬声器140输出所获得的关于一些句子元素的语音，然后通过扬声器140输出从外部装置接收的语音。此时，可在输出由处理器120获得的语音之前或期间接收在外部装置处合成的语音。

即使当文本句子的后面部分在外部装置处被语音合成时，处理器120也可在对多个句子元素的一部分进行语音合成时输出应答语音。在这种情况下，可将由TTS模块合成的或者从外部装置接收的输出应答语音预先存储在存储器110中。

当从外部装置接收应答语音时，外部装置可基于关于与电子设备100共享的文本句子的信息(语言、说话者、情绪等)来选择应答语音。另外，外部装置可基于估计的合成时间来选择具有特定语音长度的应答语音。

在这种情况下，外部装置和电子设备100可使用JavaScript对象表示(JSON)格式共享信息，并且共享信息可从接收输入语音的电子设备100获得，或者从接收来自电子设备100的语音信号的外部装置获得。如上所述，将参照图17进一步描述在外部装置中对文本句子的一部分进行语音合成的实施例。

扬声器140是被配置为输出各种通知声音或语音消息以及由音频处理器执行诸如解码、放大和噪声滤波的各种处理操作的各种音频数据的硬件。特别地，扬声器140可输出对用户查询的响应音频信号。具体地，扬声器140可将对用户查询的响应输出为自然语言格式的语音消息。输出音频的配置可被实现为扬声器，但是这是示例，并且扬声器140可被实现为用于输出音频数据的输出端子。

已经描述了通过设置在电子设备100中的扬声器140输出合成语音，但是在实际实现中，可通过通信器130将合成音频信号发送到外部装置，并且可由外部装置通过扬声器输出合成语音。

根据实施例，电子设备100还可包括用于与外部终端、相机、显示器、麦克风、各种传感器等连接的各种外部输入端口。

图4和图5是根据实施例的控制电子设备的方法的流程图。

参照图4，在操作S410，当文本句子被输入时，电子设备可获取文本句子的韵律信息。在这种情况下，韵律信息包括整个文本句子的音素信息、语调信息和重音信息，并且可基于句子形式、语法结构和上下文中的至少一个。

具体地，如图5所示，当对文本句子510(作为要输出为语音的句子的文本信息)的输入被获得时，电子设备可获得整个文本句子510的韵律信息520。

在操作S420，电子设备可将文本句子分割成多个句子元素。具体地，如图5所示，电子设备可将文本句子510分割为n个句子元素530。

在这种情况下，电子设备可分割文本句子，使得句子元素被合并为语音所需的处理时间小于预定时间。具体地，电子设备可通过根据预设标准对文本句子进行一次或多次分割来获得小于预设长度的句子元素。在这种情况下，当需要执行两次或更多次分割时，可顺序地应用预定标准，诸如标点符号标准、子句标准、短语标准、单词标准和间距标准。在这种情况下，电子设备可按照句子元素的顺序将索引信息分配给每个句子元素。

在操作S430，电子设备可将文本句子的韵律信息和多个句子元素输入到TTS模块111，以并行获得韵律信息被反映在多个句子元素中的每个句子元素中的语音。例如，电子设备可通过TTS模块111将韵律信息520反映到句子元素1来合成语音，从而获取句子元素1的语音540-1。电子设备可通过TTS模块111将韵律信息520反映到句子元素2来合成语音，从而获取句子元素2的语音540-2。电子设备可通过TTS模块111将韵律信息520反映到句子元素n来合成语音，从而获取句子元素n的语音540-n。

具体地，TTS模块111可使用如图6所示的存储的参数650通过文本预处理、文本编码器、音频解码器和声码器将文本信息合成为语音，以更详细地描述TTS模块的语音合成操作。这里，文本预处理、文本编码器、音频解码器和声码器可用至少一个芯片或软件来实现。在这种情况下，参数650被训练，并且将参照图8和图9详细描述学习参数650的方法。

为了便于描述，在图6中仅示出了将一个句子元素合成为语音的步骤，但是对于从文本句子分割的多个句子元素中的每个句子元素，可并行执行步骤S610至S640。也就是说，可根据n个句子元素并行地执行n个语音合成处理。

参照图6，可将通过分割文本句子1而生成的多个句子元素1.1至1.N和索引信息输入到TTS模块111中。在操作S610，TTS模块111可对输入句子元素的文本信息执行文本预处理。文本预处理可指将以除了预设语言之外的语言显示的文本(诸如包括在文本信息中的符号和外语等)转换为预设语言。例如，如果文本信息包括“$”，则“$”可被转换为预设语言“美元”。

在操作S620，TTS模块111可通过文本编码器将预处理的文本转换为设备可处理的代码。例如，文本编码器可将文本信息转换为美国信息交换标准码(ASCII)代码。在一个实施例中，TTS模块111可将“美元”转换为ASCII代码，再转换为“100 111 108 108 97 114”。除了ASCII代码之外，TTS模块111还可使用诸如统一码(Unicode)、二进制编码十进制(BCD)码、扩展二进制编码十进制交换码(EBCDIC)代码等的各种标准代码来转换文本。

在操作S630，TTS模块111可使用音频解码器将转换后的代码转换为频谱。这里，频谱可以是能量值按频率的分布，并且TTS模块111可通过数据库将代码转换为频谱。TTS模块111可通过反映文本句子的韵律信息520来将代码转换为频谱。

如上所述，每个句子元素反映有整个文本句子的韵律信息，并且语音被合成，并且合成的语音可针对多个句子元素具有共同的韵律。另外，通过同时对长度短于文本句子的多个句子元素进行语音合成，可减少语音合成所需的时间。

在操作S640，TTS模块111可使用声码器将频谱合成为声音。也就是说，可针对N个句子元素获得合成语音1.1至1.N。这里，合成语音1.1至1.N可与针对图5的多个句子元素的语音540-1、540-2、...、540-n相应。

另外，在操作S440，电子设备可对并行获取的多个句子元素的语音540-1、540-2、...、540-n进行合并，并获得文本句子的合并语音550。具体地，电子设备可基于索引信息对获得的多个句子元素的语音540-1、540-2、...、540-n进行合并，并获得整个文本句子的合并语音550。同时，关于图5，已经描述了在TTS模块111中合并语音。然而，在实际实现中，可在TTS模块111中仅执行语音合成，并且语音合并操作可用用于顺序地输出多个句子元素的语音540-1、540-2、...、540-n的操作来代替。

图7是应用上述图4-图6的语音合成方法的方法的流程图。

参照图7，例如，当文本句子710“we obtained such a good result by applyingvarious attempts with a lot of efforts”被输入时，电子设备可获得整个文本句子710的韵律信息720。具体地，电子设备可对文本句子710进行分析，并且使用文本句子710是陈述句、肯定句形式、语法结构、上下文等来获得包括语音信息、重音信息和语调信息的韵律信息。

另外，电子设备可将文本句子710分割成多个句子元素730。具体地，电子设备可分割文本句子710，使得并行地对多个句子元素730-1、730-2和730-3执行语音合成所需的处理时间小于预设时间。例如，电子设备可将文本句子710“we obtained such a goodresult by applying various attempts with a lot of efforts”分割成三个句子元素“with a lot of efforts”730-1、“by applying various attempts”730-2、“we obtainedsuch a good result”730-3。在这种情况下，当估计出即使在基于标点符号分割文本句子710之后语音合成句子元素所需的时间超过预定时间时，可基于短语再次分割长句子元素。电子设备可将与顺序相关的索引信息分配给每个句子元素。同时，将参照图10至图12描述特定句子分割处理。

电子设备可通过TTS模块111将韵律信息720反映到多个句子元素730-1、730-2和730-3中的每个句子元素，并且并行地执行语音合成。

具体地，电子设备可通过TTS模块111将韵律信息720反映到句子元素“with a lotof efforts730-1”来合成“with a lot of efforts”的语音740-1。电子设备可通过TTS模块111将韵律信息720反映到句子元素“by applying various attempts”来合成“byapplying various attempts”的语音740-2。电子设备可通过TTS模块111将韵律信息720反映到句子元素“we obtained such a good result730-3”，来合成“we obtained such agood result”的语音740-3。

电子设备可对获得的多个语音740-1、740-2和740-3进行合并，并获得整个文本句子710的语音750。电子设备可基于包括在每个句子元素中的索引信息来合并多个语音740-1、740-2和740-3。

电子设备可输出合成的语音760。

如上所述，整个文本句子的韵律信息被反映并合成在每个句子元素中，使得针对多个句子元素合成的语音可具有共同的韵律。此外，通过同时合成长度比文本句子短的多个句子元素，可减少语音合成所需的总处理时间。

图8和图9是描述TTS模块的训练操作的示图。在图8和图9中，并行处理多个句子元素的处理以粗箭头显示。同时，参数740-n可包括应用于每个步骤的至少一个参数。

参照图8，电子设备可接收用于训练TTS模块的参数840的文本句子1810、与文本句子1相应的语音1 820以及条件1 830。

在训练期间，由说话者的训练可进行分配语音风格和韵律的统一性，并且如果同时训练多个说话者或各种语音风格，则可添加用于划分说话者和语音风格的附加元数据，以适当地执行对说话者或语音风格的训练。

这里，条件1 830是除了语言信息之外传送到TTS模块的元数据，并且可以是用于将韵律添加到文本句子1 810的合成语音的信息。例如，条件1 830可包括语音的速度、情绪信息(诸如悲伤、喜悦和愤怒)、语言信息(诸如韩语或英语)、语调信息(诸如方言)等。

在操作S801，电子设备可基于输入的文本句子1 810、语音1 820和条件1 830来获取文本句子1 810的韵律信息。具体地，电子设备可将文本句子1810转换为可由设备通过编码器处理的代码。电子设备可将转换的代码输入到学习模型中以获得整个文本句子1 810的韵律信息。例如，学习模型可以是深度神经网络(DNN)。可训练学习模型以根据多个说话者的语音风格获取不同的韵律信息。

具体地，电子设备可通过学习模型使用以下中的至少一个来生成韵律信息：数字特征(诸如文本句子1 810的句子格式和短语数量)、语义特征(诸如语法结构、整个句子的肯定或否定、情绪状态等)、以及元数据格式的上下文特征(诸如风格标记)，并且通过反映条件1 830来修改所生成的韵律信息。另外，进一步考虑作为文本句子1 810的真实语音的语音1 820的韵律信息，电子设备可迭代地修改修改过的韵律信息。

在操作S802，电子设备可分割文本句子1 810。具体地，电子设备可将文本句子1810分割成多个句子元素1.1至1.N，使得合成语音所需的处理时间小于预定时间。在这种情况下，多个句子元素1.1至1.N中的每个句子元素可包括与文本句子1 810中的顺序相关的索引信息。

在操作S803，电子设备可并行获取所分割的句子元素的语音。在这种情况下，电子设备可使用预先存储的参数840来合成句子元素的语音。具体地，电子设备可通过在合成多个句子元素时反映所获得的韵律信息来获得合成语音。已经参照图5和图6描述了详细的语音合成过程，因此省略冗余的描述。

在操作S804，电子设备可基于针对并行获得的多个句子元素的合成语音1.1至1.N和包括在每个语音中的索引信息来对合成语音进行合并。具体地，通过基于索引信息顺序地合并语音1.1至1.N，电子设备可获得合成语音1。此时，合成语音1可以是文本句子1的语音。

在操作S805，电子设备可通过将获得的合成语音1与语音1 820进行比较来计算损失。具体地，电子设备可通过比较合成语音1和语音1 820之间的频率特性(诸如频率、幅度、频率、分贝和频谱)来获得合成语音1的损失，对模块进行优化使得合成语音1与语音1 820相应，并且在操作S806更新参数820。

如图9所示，在操作S802，电子设备可基于风格标记获得韵律信息。这里，风格标记可指用于确定包括语音的韵律信息的风格的任意因素。例如，风格标记可以是全局风格标记(GST)。

具体地，风格标记可以是预先存储的多个任意元素，并且可根据语音风格向每个任意元素分配权重。电子设备可对加权的任意元素求和以获得期望的语音风格。例如，如果基于通过合并加权风格标记而生成的风格来执行语音合成，则可表达说话者(女性、男性、名人等)、情绪和个性状态(喜悦、愤怒、忙碌、温柔、直率)等。在这种情况下，可在学习之后存储根据语音风格的每个风格标记的权重的参数。

参照图9，电子设备可基于作为文本句子的句子1和与句子1相应的条件1来预测风格标记。详细地，电子设备可使用包括情绪信息和语调信息等的条件1来预测要应用于将文本句子的句子1合成为语音的多个风格标记的权重。在这种情况下，电子设备可使用预先存储的多个风格中包括的权重来预测要应用于句子1的语音合成的每个风格标记的权重。

电子设备可将语音1的各种长度的韵律信息转换为预定长度的向量，以获取与句子1相应的语音1的风格标记(参考编码器)。电子设备可通过分析转换的向量来获取预先存储的多个风格标记的权重(风格标记层)。

电子设备可进一步考虑从语音1获得的每个风格标记的权重来获取每个风格标记的权重，该语音1是预测风格标记的真实语音，并且通过添加反映有所获取的权重的风格标记来获得风格(风格嵌入)。

另外，电子设备可使用在并行合成多个句子元素的语音时获得的风格信息作为韵律信息。具体地，电子设备可通过使用风格标记获得的韵律信息来合成通过分割句子1获得的多个句子元素，并对合成语音进行合并以获得句子1的语音。通过对合并的语音和输入的语音1进行比较，可更新参数，使得合并的语音与语音1匹配。

图10至图12是描述根据实施例的分割文本句子的方法的流程图和示图。

在操作S1010，电子设备可接收文本句子。例如，如图11所示，可输入文本句子1110“we obtained such a good result by applying various attempts with a lot ofefforts”。

在操作S1020，电子设备可识别响应时限。这里，响应时限可以是用于向用户提供响应语音的时限。当需要长于或等于所识别的时限的时间来提供响应语音时，用户可能感觉到对话不自然。该响应时限可在制造时由制造商预设，或者可由用户设置。

例如，如图12所示，电子设备可将提供响应语音所允许的最大响应时限识别为约束条件1210。在操作S1030，电子设备可将文本句子1110分割成多个句子元素，使得句子元素的长度和对句子元素的语音合成所需的处理时间小于时限1210。具体地，因为要合成的文本的长度和语音合成时间彼此成比例，所以可基于要合成的文本的长度来估计语音合成所需的时间。在这种情况下，可基于在其上执行语音合成的设备的性能以统计方式来估计语音合成所需的时间。

例如，当基于统计数据在服务器中执行语音合成时，如果假设当句子的长度为20帧时语音合成需要约0.1秒，则由终端装置执行语音合成时，当句子的长度为20帧时语音合成花费约0.2秒，如果输入句子长度为40帧的文本句子并且在服务器中执行语音合成，可估计将花费大约0.2秒用于语音合成，并且如果在终端装置中执行语音合成，则可估计将花费大约0.4秒用于语音合成。

这里，帧是指语音合成过程中的处理单元。可通过以特定采样率捕获连续语音信号来生成样点，并且预定数量的样点可被称为一个帧。例如，当电子设备在一秒内捕获语音信号约16000次并生成约16000个样点，并且按1024处理所生成的样点时，1024个样点可形成一个帧。在这种情况下，1帧可以是大约64ms。帧的长度可根据采样率和形成一个帧的样点的数量而变化，但是可基于统计数据来确定基于句子长度的帧数量，并且可预测基于帧数量的语音合成所需的时间。

当文本句子1110的语音合成所花费的估计时间小于约束条件1210时，电子设备可按照文本句子1110执行语音合成。如果文本句子1110的语音合成所花费的估计时间大于或等于约束条件1210，则可基于预定条件来分割文本句子1110。

具体地，可基于图11所示的树结构来分割文本句子1110。首先，电子设备可基于第一标准将文本句子1110分割成多个句子元素1120-1和1120-2。例如，电子设备可基于标点符号来分割文本句子“we obtained such a good result by applying variousattempts with a lot of efforts”1110，并且获得句子元素“by applying variousattempts with a lot of efforts”1120-1和句子元素“we obtained such a goodresult”1120-2。

在操作S1040，电子设备可估计获得的多个句子元素的合成时间。在操作S1050，电子设备可基于估计的合成时间来确定通过并行处理句子元素是否可在时限内处理语音合成时限。

例如，如图12所示，电子设备可确定将句子元素“by applying various attemptswith a lot of efforts”1120-1合成到语音所需的处理时间是否小于时间约束1210。电子设备可确定“we obtained such a good result”1120-2所花费的时间是否小于约束条件1210。在这种情况下，因为多个句子元素1120-1和1120-2被并行地语音合成，所以电子设备可同时开始对多个句子元素1120-1和1120-2进行语音合成，并且确定合成所有多个句子元素1120-1和1120-2所需的时间是否小于约束条件1210。

在这种情况下，如果在操作S1050-N预测出语音合成将需要长于时限的处理时间，则电子设备可在操作S1030基于第二标准分割句子元素。这里，第二标准可用于比第一标准更缩短句子元素的长度。

例如，如图11所示，电子设备可基于子句标准将句子元素“by applying variousattempts with a lot of efforts”1120-1分割为句子元素“with a lot of efforts”1130-1和“by applying various attempts”1130-2。

同时，句子元素“we obtained such a good result”1120-2(被识别为使得估计的语音合成的时间小于约束条件1210)可不被进一步分割。

在操作S1040，电子设备可估计基于第二标准获得的多个句子元素的合成时间，并且在操作S1050基于估计的合成时间确定是否可在时限内处理语音合成。

例如，如图12所示，电子设备可确定估计的将句子元素“with a lot of efforts”1130-1合成为语音所需的处理时间是否小于约束条件1210。另外，电子设备可预测将“byapplying various attempts”1130-2合成到语音所花费的估计时间是否小于约束条件1210。在这种情况下，因为多个句子元素1130-1、1130-2和1120-2被并行地语音合成，所以电子设备可同时开始对多个句子元素1130-1、1130-2和1120-2进行语音合成，并且确定所有多个句子元素1130-1、1130-2和1120-2到语音的语音合成的估计时间是否小于约束条件1210。

在这种情况下，如果在操作S1050-Y预测出用于并行合成所有句子元素的估计时间小于时限，则在操作S1060，电子设备可将获得的多个句子元素合成为语音。具体地，电子设备可将多个句子元素输入到TTS模块以并行执行语音合成。

根据实施例，如果约束条件1210更短并且通过第二标准获得的句子元素长于约束条件1210，则电子设备可通过应用第三标准获得短于第二标准的句子元素来获得更短的句子元素。

例如，如图11所示，可基于作为短语标准的第三标准来分割通过基于子句进行分割获得的多个句子元素1130-1和1130-2以及通过基于标点符号进行分割获得的句子元素1120-2，以获得多个句子元素1140-1、1140-2、1140-3、1140-4、1140-5和1140-6。

参照图13，可识别出“你喜欢三星。”1310、“你喜欢三星？”1320、“你喜欢三星吗？”1330和“你喜欢三星，是吗？”1340彼此不同。具体地，可确认每个文本句子1310、1320、1330和1340包括根据句子格式、语法结构、上下文、情绪信息等而具有不同韵律的“你喜欢三星”。

参照图14，作为“I am planning for a trip this weekend.”的一部分的“for atrip this weekend.”1410和作为“What do you think is the best for a trip thisweekend？”的一部分的“for a trip this weekend？”1420是相同的文本，并且如果没有反映整个文本句子的韵律信息，则执行分割的语音合成时，“for a trip this weekend.”1410和“for a trip this weekend？”1410可用相同的韵律合成。在这种情况下，当每个分割的句子元素的合成语音被合并时，语音可能不自然。同时，即使“for a trip thisweekend.”1410和“for a trip this weekend？”1420是通过标点符号被合成为具有不同韵律的语音，当针对“I am planning”合成的语音和针对“What do you think is the best”合成的语音被合并而生成一个句子的语音时，每个句子元素是被独立地语音合成的，并且合并的语音的边界可能不自然。

然而，根据本公开，当处理器120分割文本句子并且通过分别各个句子元素“for atrip this weekend.”1411和“for a trip this weekend？”1421反映整个文本句子的韵律信息来并行执行语音合成时，尽管文本是相同的，但是可基于文本句子的韵律信息将语音合成为具有不同的韵律。

具体地，图15示出了作为韵律信息之一的语音的音调。这里，语音的音调可以是声音的高度，并且基于声音的振动的次数。

参照图15，示出了通过将文本句子“我去学校”分割成句子元素“我”、“去”和“学校”，并行地进行语音合成并且进行合并而获得的语音的音调。具体地，参照在对每个句子元素进行语音合成时反映整个文本句子的韵律信息的结果1510，确认即使在句子元素的边界1501和边界1502处，语音的音调也是自然连接的。由此，用户可感觉到整个语音“我去学校”是一个自然的句子。

同时，参照在每个句子元素的语音合成时不反映整个文本句子的韵律信息的结果1520，可确认语音的音调在句子元素的边界1501和边界1502没有连接。换句话说，用户可能从作为一个句子的整个语音“我去学校”中感觉到不自然。

图16是在语音合成期间输出应答语音的方法的流程图。

参照图16，在操作S1610，电子设备可接收文本句子。在这种情况下，电子设备可接收文本句子以及与文本句子相应的特征信息。这里，特征信息可包括文本句子的语言信息、文本句子的情绪信息、关于讲话者的信息(例如，讲话者的性别、特定人等)等。

在操作S1620，电子设备可估计文本句子的语音合成要花费的时间。例如，电子设备可基于文本句子的长度来估计语音合成所需的处理时间。

在操作S1630，电子设备可基于估计的合成时间来获得应答语音。具体地，如果估计的合成时间超过时限，则电子设备可获取应答语音，并且可与估计的合成时间成比例地确定应答语音的长度。在这种情况下，电子设备可基于顺序地合成文本句子所需的时间来确定应答语音的长度，或者基于分割文本句子并且并行合成语音所需的时间来确定应答语音的长度。

这里，可从预先存储在电子设备中的多个记录的语音中选择应答语音，或者可在预先存储在电子设备中的多个应答文本和由TTS模块合成的语音之中选择应答语音。可选地，考虑到吞吐量和带宽效率，可通过高速缓存方法等重新使用先前再现的语音信号来获得应答语音。在另一实施例中，可从如图17所示的外部装置接收应答语音，以及将应答语音存储在电子设备中。

另外，电子设备可基于与文本句子相应的特征信息来选择应答语音。例如，当特征信息包括关于作为说话者的特定人的身份的信息时，电子设备可基于关于相应人的性别、频繁使用的应答语等的信息来获取应答语音。

在操作S1640，电子设备可在对输入的文本句子执行语音合成时输出所获取的应答语音。在这种情况下，电子设备可在顺序地对整个文本句子进行语音合成时输出应答语音。可选地，电子设备可在分割文本句子之后通过反映整个文本句子的韵律信息来并行对分割的句子元素执行语音合成时输出应答语音。可选地，电子设备可在仅执行对文本句子的开始部分的语音合成时输出应答语音。

作为又一实施例，当由外部装置正执行语音合成时，电子设备可输出应答语音，并且这将参照图17进一步描述。

在操作S1650，电子设备可输出应答语音之后输出合成语音。具体地，可在输出应答语音时输出文本句子的合成语音。在这种情况下，如果合成语音是整个文本句子的语音，则电子设备可继续输出合成语音。同时，如果合成语音与文本句子的开始部分相应，则电子设备可输出该合成语音并对所述开始部分之后的文本执行语音合成。

如上所述，通过在执行语音合成时输出应答语音，可减少用户可能感觉到的延迟，并且可实现更自然的AI对话系统。

图17是示出在外部服务器中对文本句子的至少一部分的语音合成的顺序图。

参照图17，在操作S1710，电子设备100可获得文本句子。具体地，电子设备100可识别从麦克风或外部装置接收的输入语音，并且获得与所识别的语音相应的响应文本句子。此外，电子设备100可从外部装置接收文本句子。在这种情况下，电子设备可获得文本句子以及与文本句子相应的特征信息。这里，特征信息可包括文本句子的语言信息、文本句子的情绪信息、关于讲话者的信息(例如，讲话者的性别、特定人等)等。

在操作S1720，电子设备100可获得整个文本句子的韵律信息。

在操作S1730，电子设备100可估计对文本句子的语音合成所需的时间。具体地，电子设备100可基于估计的合成时间来确定应答语音的长度。在这种情况下，如果用于对文本句子的语音合成的估计时间大于或等于时限，则在操作S1740，电子设备100可基于预设条件分割文本句子。已经参照图10至图12详细描述了文本句子分割操作，并且将省略冗余描述。

在操作S1750，电子设备100可将在通过分割用于语音合成的文本句子而获得的多个句子元素中的除了一些句子元素之外的其余句子元素和韵律信息发送到服务器200。在这种情况下，电子设备100可将除了与文本句子的开始部分相应的至少一个句子元素之外的句子元素发送服务器200。

在操作S1750，电子设备100可将关于应答语音的文本句子的信息和估计的合成时间的信息发送到服务器200。关于文本句子的信息是与文本句子相应的特征信息，包括测试语言的类型和关于说话者的信息等，并且可由电子设备100和服务器200作为元数据格式共享。

在操作S1755，服务器200可基于关于文本句子的信息和估计的合成时间将所选择的应答语音信息发送到电子设备100。在这种情况下，应答语音信息可以是存储在服务器200中的记录文件、由服务器200合成的应答语音文件、关于应答语音的文本信息等。如果电子设备100从服务器200接收到关于应答语音的文本信息，则电子设备100可使用TTS模块合成应答语音并输出合成语音。

图17示出了从服务器200接收应答语音，但是可将由设置在电子设备100中的TTS模块合成的语音输出为应答语音。

图17示出了输出应答语音，但是应答语音输出操作是可选的。如果不输出应答语音，则可省略在操作S1755将应答语音信息从服务器200发送到电子设备100的步骤和输出应答语音的步骤。

在操作S1760，电子设备100可合成文本句子的未被发送到服务器200的开始部分的句子元素的语音，并且在正执行语音合成时输出应答语音。

在操作S1765，服务器200可合成从电子设备100接收的其余句子元素的语音。在这种情况下，服务器200可通过分别反映从电子设备100接收的整个文本句子的韵律信息来并行地对句子元素执行语音合成。作为结果，可保持由电子设备100合成的语音的风格与由服务器200合成的语音的风格之间的相似性。

在操作S1770，电子设备100可输出文本句子的开始部分的句子元素的合成语音。如果电子设备100已经输出应答语音，则电子设备100可完成输出应答语音，然后输出关于文本句子的开始部分的句子元素的合成语音。

在操作S1780，电子设备100可从服务器200接收合成语音。具体地，电子设备100可从服务器200接收关于除了文本句子的开始部分之外的其余句子元素的合成语音。

图17示出了服务器200在电子设备100输出合成语音之后接收合成语音，但是从服务器200接收合成语音的步骤可在电子设备100输出合成语音之前或期间开始。

在操作S1790，电子设备100可输出从服务器200接收的语音。具体地，电子设备100可输出从服务器200接收的除了文本句子的开始部分之外的其余句子元素的合成语音。也就是说，电子设备100可首先输出文本句子的开始部分的合成语音，然后输出从服务器200接收的其余句子元素的合成语音。

这样，通过由电子设备100首先合成文本句子的开始部分并输出该开始部分，与由服务器200合成整个文本语句的语音相比，响应语音输出在更短的时间内可用。

同时，在图17中，示出了电子设备100在获得韵律信息、估计语音合成时间并执行文本句子分割操作之后，将获得的信息和分割的句子元素发送到服务器200。但是，当电子设备100接收到用户语音时，可将接收的用户语音发送到服务器200，并且服务器200可执行诸如生成用户语音的响应文本句子、获得韵律信息和估计语音合成时间等的操作。在这种情况下，服务器200可通过基于获得的响应文本信息和估计的语音合成时间将关于应答语音的信息发送到电子设备100，并行执行对分割文本句子的句子元素的语音合成，并将合成语音发送到电子设备100，使得电子设备100能够在输出应答语音之后输出合成语音。

作为又一实施例，当电子设备100接收到语音时，电子设备100可将接收的语音发送到服务器200，并且服务器200可执行诸如生成用户语音的响应文本句子、获得韵律信息、估计语音合成时间、分割文本句子等操作。

另外，服务器200可将获得的韵律信息和文本句子的开始部分发送到电子设备100。在这种情况下，服务器200可基于获得的响应文本句子的信息和估计的语音合成时间将关于应答语音的信息发送到电子设备100。电子设备100可在通过在从服务器200接收的文本句子的开始部分中反映韵律信息来进行语音合成期间输出应答语音。

服务器200可对来自文本句子的发送到电子设备100的部分执行语音合成，并将合成语音发送到电子设备100。

图18是示出包括由服务器执行的一些操作的语音合成的顺序图。

参照图18，首先，在操作S1710，电子设备100可获得文本句子。具体地，电子设备100可识别从麦克风或外部装置接收的输入语音，并且获得与所识别的语音相应的响应文本句子。此外，电子设备100可从外部装置接收文本句子。在这种情况下，电子设备可获得文本句子以及与文本句子相应的特征信息。特征信息可包括文本句子的语言信息、文本句子的情绪信息、关于说话者的信息(例如，说话者的性别、特定人等)等。

在操作S1815，电子设备100可将所获得的关于文本句子的信息发送到服务器200。电子设备100可一起发送与文本句子相应的特征信息。

在操作S1820，服务器200可获得接收的整个文本句子的韵律信息。

在操作S1830，服务器200可估计对文本句子的语音合成所需的处理时间。此时，如果估计的用于文本句子的语音合成的处理时间大于或等于时限，则在操作S1840，服务器200可基于预定条件分割文本句子。已经参照图10至图12详细描述了文本句子分割操作，并且省略了冗余描述。

在操作S1850，服务器200可基于关于文本句子的信息和估计的合成时间来识别语音信息。具体地，服务器200可基于估计的合成时间来识别应答语音的长度。可选地，服务器200可基于与文本句子相应的特征信息(包括文本句子的语言类型、关于说话者的信息等)来识别应答语音。

在操作S1855，服务器200可将所识别的应答语音信息发送到电子设备100。应答语音信息可以是存储在服务器200中的记录文件、由服务器200语音合成的应答语音文件、关于应答语音的文本的信息等。

在操作S1860，电子设备100可基于接收的应答语音信息输出应答语音。如果服务器200将应答语音信号发送到电子设备100，则电子设备100可输出接收的应答语音信号。当电子设备100从服务器200接收到关于应答语音的文本信息时，电子设备100可使用TTS模块合成并输出应答语音。

作为又一实施例，当服务器200将关于估计的合成时间的信息发送到电子设备100时，可从存储在电子设备100中的记录语音中输出与估计的合成时间相应的应答语音。

在操作S1870，服务器200可合成分割文本句子的句子元素的语音。服务器200可分别反映整个文本句子的韵律信息，并且并行执行对句子元素的语音合成。

在操作S1875，服务器200可将文本句子的合成语音发送到电子设备100。在操作S1880，电子设备100可输出从服务器200接收的文本句子的合成语音。

此外，图18示出了服务器200对整个文本句子执行语音合成，但是在实际实现中，文本句子的开始部分和韵律信息可被发送到电子设备100，并且韵律信息由电子设备100反映，使得文本句子的开始部分被合成并首先输出。

此外，尽管已经描述了图18使得电子设备100获得文本句子并且服务器200获取关于文本句子的韵律信息，但是电子设备100可获得文本句子，获得文本句子的韵律信息。当关于文本句子的信息和韵律信息被发送到服务器200时，服务器200可估计合成时间并执行用于分割文本句子的操作。在又一实施例中，当电子设备100获得文本句子、获得韵律信息、估计合成时间，并且将关于文本信息的信息、关于韵律信息的信息和关于估计的合成时间的信息发送到服务器200时，服务器200可基于接收的信息执行文本句子分割操作。

根据上述各种实施例，通过在合成分割文本句子的多个句子元素中的每个句子元素时反映整个文本句子的韵律信息，可实现能够快速响应用户查询并输出对用户查询的回复的自然响应的自然发声AI对话系统。

上述各种实施例可在非暂时性计算机可读记录介质中实现，该非暂时性计算机可读记录介质可由计算机或类似于计算机的装置使用软件、硬件或软件和硬件的组合读取。通过硬件实现，可使用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或用于执行其他功能的电气单元中的至少一个来实现本公开的实施例。在一些情况下，本文描述的实施例可由处理器本身实现。根据软件实现，诸如本文描述的过程和功能的实施例可用单独的软件模块来实现。上述软件模块中的每一个可执行本文描述的功能和操作中的一个或更多个。

根据上述各种实施例的方法可被存储在非暂时性可读介质中。非暂时性可读介质可被存储在各种设备中以供使用。

非暂时性计算机可读介质是指半永久地存储数据而不是短暂地存储数据的介质，诸如寄存器、高速缓存、存储器等，并且可由设备读取。详细地，上述各种应用或程序可被存储在非暂时性计算机可读介质(例如，光盘(CD)、数字通用盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等)中，并且可被提供。

根据实施例，本文公开的方法可在计算机程序产品的软件中提供。计算机程序产品可作为商品在卖方和买方之间交易。计算机程序产品可以以机器可读存储介质(例如，CD-ROM)的形式发布或通过应用商店(例如，PlayStore^TM)在线发布。在在线发布的情况下，计算机程序产品软件的至少一部分可被临时地或至少临时地存储在存储介质中，诸如制造商的服务器、应用商店中的服务器或中继服务器中的存储器。

前述示例实施例和优点仅是示例，而不应被解释为限制。本教导可容易地应用于其他类型的设备。此外，示例实施例的描述旨在是说明性的，而不是限制权利要求的范围，并且许多替代、修改和变化对于本领域技术人员将是显而易见的。

Claims

1.一种电子设备，包括：

存储器，被配置为存储至少一个指令；以及

处理器，被配置为执行存储在存储器中的所述至少一个指令，所述至少一个指令在被执行时使处理器进行控制以进行以下操作：

基于获得文本输入，获得所述文本输入的韵律信息，

将所述文本输入分割成多个片段，

通过将所述多个片段和所述韵律信息输入到文本到语音TTS模块来并行地获得语音片段，其中，在语音片段中所述韵律信息被反映到所述多个片段中的每个片段，以及

通过对语音片段进行合并来获得所述文本输入的语音。

2.根据权利要求1所述的电子设备，其中，处理器在执行所述至少一个指令时还被配置为：

通过基于第一标准分割所述文本输入来获得多个第一片段，并且基于用于将所述多个第一片段转换为语音片段的第一处理时间小于预定时间，将所述多个第一片段输入到TTS模块，

基于用于将所述多个第一片段中的至少一个第一片段转换为语音片段的第一处理时间大于或等于所述预定时间，通过基于第二标准分割所述至少一个第一片段来获得多个第二片段，以及

基于用于将所述多个第二片段转换为语音片段的第二处理时间小于所述预定时间，将所述多个第二片段输入到TTS模块。

3.根据权利要求2所述的电子设备，其中，第一标准包括标点符号标准并且第二标准包括子句标准，或者第一标准包括所述子句标准并且第二标准包括短语标准。

4.根据权利要求1所述的电子设备，其中，所述韵律信息基于所述文本输入的格式、语法结构和上下文中的至少一个包括所述文本输入的语调信息和重音信息。

5.根据权利要求1所述的电子设备，其中，所述多个片段中的每个片段包括与所述文本输入中的顺序相关的索引信息，并且

其中，处理器在执行所述至少一个指令时还被配置为通过基于所述索引信息对语音片段进行合并来获得所述文本输入的语音。

6.根据权利要求1所述的电子设备，其中，TTS模块是深度神经网络文本到语音DNN TTS模块。

7.根据权利要求1所述的电子设备，还包括：

扬声器，

其中，处理器在执行所述至少一个指令时还被配置为控制扬声器输出应答语音并且在所述应答语音之后输出所述文本输入的语音。

8.根据权利要求7所述的电子设备，其中，存储器还被配置为存储多个应答语音，并且

其中，处理器在执行所述至少一个指令时还被配置为：

基于用于获得所述文本输入的语音的处理时间从所述多个应答语音中识别所述应答语音。

9.根据权利要求1所述的电子设备，还包括：

通信器；以及

扬声器，

其中，处理器在执行所述至少一个指令时还被配置为：

通过将所述多个片段中的第一片段和所述韵律信息输入到文本到语音TTS模块来并行地获得第一片段，其中，在第一片段中所述韵律信息被反映到第一片段中的每个第一片段，

通过通信器将所述多个片段中的其余片段和所述韵律信息发送到用于语音合成的外部装置，

通过通信器从对所述其余片段执行语音合成的所述外部装置获得所述其余片段的其余语音，以及

通过对并行地获得的第一片段和从所述外部装置接收的所述其余语音进行合并来通过扬声器输出语音。

10.根据权利要求9所述的电子设备，其中，第一片段与所述文本输入的开始部分相应，并且

其中，处理器在执行所述至少一个指令时还被配置为通过输出第一片段并在输出第一片段之后输出从所述外部装置接收的所述其余语音来通过扬声器输出语音。

11.一种控制电子设备的方法，所述方法包括：

基于文本输入，获得所述文本输入的韵律信息；

将所述文本输入分割成多个片段；

通过将所述多个片段和所述韵律信息输入到文本到语音TTS模块来并行地获得所述韵律信息被反映到所述多个片段中的每个片段的语音片段；以及

通过对语音片段进行合并来获得所述文本输入的语音。

12.根据权利要求11所述的方法，其中，分割步骤包括：

通过基于第一标准分割所述文本输入来获得多个第一片段，并且基于用于将所述多个第一片段转换为语音片段的第一处理时间小于预定时间，将所述多个第一片段输入到TTS模块；

13.根据权利要求12所述的方法，其中，第一标准包括标点符号标准并且第二标准包括子句标准，或者第一标准包括所述子句标准并且第二标准包括短语标准。

14.根据权利要求11所述的方法，其中，所述韵律信息基于所述文本输入的格式、语法结构和上下文中的至少一个包括所述文本输入的语调信息和重音信息。

15.根据权利要求11所述的方法，其中，所述多个片段中的每个片段包括与所述文本输入中的顺序相关的索引信息，并且

其中，获得所述文本输入的语音的步骤包括通过基于所述索引信息对语音片段进行合并来获得所述文本输入的语音。