CN116884390A

CN116884390A - 一种提高用户交互流畅度的方法和装置

Info

Publication number: CN116884390A
Application number: CN202311140532.0A
Authority: CN
Inventors: 王帅; 谭克强; 周舒婷; 蒋维中; 赵磊
Original assignee: Sichuan Shutian Information Technology Co ltd
Current assignee: Sichuan Shutian Information Technology Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-10-13
Anticipated expiration: 2043-09-06
Also published as: CN116884390B

Abstract

本发明提供了一种提高用户交互流畅度的方法和装置，包括：用户终端采集用户的语音输入数据并发送给后端服务器，以使后端服务器对语音输入数据进行语音识别和语义理解处理得到预处理文本，并将预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；接收后端服务器发送的流处理后的文本信息；将流处理后的文本信息进行分割处理得到文字队列，并将文字队列中的第一元素转化为音频文件，从而构成音频队列；将音频队列中的音频按顺序进行播放并响应动画播放优先级指令；利用文字队列与音频队列协同工作，实现对应答文本实时播报，缩短端到端的响应时长进而减少用户等待时间，同时配合动画播放优先级指令提高用户在听觉、视觉上交互流畅度。

Description

一种提高用户交互流畅度的方法和装置

技术领域

本发明涉及电数字数据处理技术领域，尤其是涉及一种提高用户交互流畅度的方法和装置。

背景技术

随着人工智能的不断发展，智能问答也开始应用在各个领域中，以实现智能化的人机交互，从而可以有效提高业务处理效率、提高用户体验以及降低成本等。

现有的机器人在问答场景下接收到用户发起的问题后，基于自然语言处理技术对该问题进行处理，并匹配出对应的答案后将其进行音频输出。但是，当进行音频播报的过程中，是将答案对应的全部文本转化为音频文件后才进行播报，若答案对应的文本较长，则用户需要等待较长的时间，才能得到客户端机器人的回复，较长的作答等待时间会增加用户的时间成本，致使用户满意度降低，体验感较差。

发明内容

有鉴于此，本发明的目的在于提供一种提高用户交互流畅度的方法和装置，利用文字队列与音频队列协同工作，实现了对应答文本能够实时播报，缩短端到端的响应时长进而减少用户的等待时间，提升用户体验感和满意度；设置了动画播放优先级指令，通过动画动作变化与音频的播放状态相互匹配输出来提高用户在听觉、视觉上交互的流畅度。

第一方面，本发明实施例提供了一种提高用户交互流畅度的方法，应用于用户终端，所述方法包括：

采集用户的语音输入数据并发送给后端服务器，以使所述后端服务器对所述用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将所述预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

接收所述后端服务器发送的所述流处理后的文本信息；

将所述流处理后的文本信息进行分割处理得到文字队列，并将所述文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；其中每个所述第一元素为所述文字队列对应数组中某一存储单元存储的经过分割处理后的某一文字片段数据；

当在单音频模态时，将所述音频队列中的音频按顺序进行播放，并根据所述音频队列确定播放是否完毕。

第二方面，本发明实施例提供了一种提高用户交互流畅度的方法，应用于用户终端，所述方法包括：

接收所述后端服务器发送的所述流处理后的文本信息；

当在音视频多模态时，将所述音频队列中的音频按顺序进行播放，并根据音频是否播放结束的状态确定响应或停止响应动画播放优先级指令；

根据所述动画播放优先级指令使所述音频和视频相互匹配播放。

第三方面，本发明实施例提供了提高用户交互流畅度的装置，应用于用户终端，所述装置包括：

第一采集模块，用于采集用户的语音输入数据并发送给后端服务器，以使所述后端服务器对所述用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将所述预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

第一接收模块，用于接收所述后端服务器发送的所述流处理后的文本信息；

第一分割模块，用于将所述流处理后的文本信息进行分割处理得到文字队列，并将所述文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；其中每个所述第一元素为所述文字队列对应数组中某一存储单元存储的经过分割处理后的某一文字片段数据；

第一播放模块，用于当在单音频模态时，将所述音频队列中的音频按顺序进行播放，并根据所述音频队列确定播放是否完毕。

第四方面，本发明实施例提供了提高用户交互流畅度的装置，应用于用户终端，所述装置包括：

第二采集模块，用于采集用户的语音输入数据并发送给后端服务器，以使所述后端服务器对所述用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将所述预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

第二接收模块，用于接收所述后端服务器发送的所述流处理后的文本信息；

第二分割模块，用于将所述流处理后的文本信息进行分割处理得到文字队列，并将所述文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；其中每个所述第一元素为所述文字队列对应数组中某一存储单元存储的经过分割处理后的某一文字片段数据；

响应模块，用于当在音视频多模态时，将所述音频队列中的音频按顺序进行播放，并根据音频是否播放结束的状态确定响应或停止响应动画播放优先级指令；

第二播放模块，用于根据所述动画播放优先级指令使所述音频和视频相互匹配播放。

本发明实施例提供了一种提高用户交互流畅度的方法和装置，应用于用户终端，包括：采集用户的语音输入数据并发送给后端服务器，以使后端服务器对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；接收后端服务器发送的流处理后的文本信息；将流处理后的文本信息进行分割处理得到文字队列，并将文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；当在单音频模态时，将音频队列中的音频按顺序进行播放，并根据音频队列确定播放是否完毕；当在音视频多模态时，将所述音频队列中的音频按顺序进行播放，并根据音频是否播放结束的状态确定响应或停止响应动画播放优先级指令；根据动画播放优先级指令使音频和视频相互匹配播放；利用文字队列与音频队列协同工作，实现了对应答文本能够实时播报，缩短端到端的响应时长进而减少用户的等待时间，提升用户体验感和满意度；设置了动画播放优先级指令，通过动画动作变化与音频的播放状态相互匹配输出来提高用户在听觉、视觉上交互的流畅度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种提高用户交互流畅度的方法流程图；

图2为本发明实施例二提供的单音频模态下的一种提高用户交互流畅度的方法流程图；

图3为本发明实施例三提供的另一单音频模态下的一种提高用户交互流畅度的方法流程图；

图4为本发明实施例四提供的另一一种提高用户交互流畅度的方法流程图；

图5为本发明实施例五提供的音视频多模态下的一种提高用户交互流畅度的方法流程图；

图6为本发明实施例六提供的提高用户交互流畅度的装置示意图；

图7为本发明实施例七提供的另一提高用户交互流畅度的装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术是将答案对应文本全部转化为音频后再进行播放。本申请中对答案文本进行分割形成文字队列，然后对文字队列中第一元素形成的先后顺序依次生成待播放音频，一边对下一段文字进行断句的同时，一边将上一段完整断句的文字转为音频并播放，加快虚拟数字人响应用户问题的速率。

本申请利用文字队列与音频队列协同工作，保证了对检索到的较长的应答文本一边进行文字分割，一边将语义分割完整的文字转为音频进行播放，实现了对应答文本能够实时播报，缩短端到端的响应时长进而减少用户的等待时间，提升用户体验感和满意度。

本申请是基于音频的播放状态对相应的动画类型进行驱动切换，保证了不同动画类型的播放画面能与音频播放的状态相互匹配输出，使得动画切换随音频播放状态进行驱动，进而在视觉、听觉上的呈现显得更加仿真、生动、流畅。

本申请设置了动画播放优先级指令，当上一条待播放音频播放完成之后，并不能及时进行下一条待播放音频的播放，在等待期间其所对应的当前动画还处于运动状态动画，视觉呈现会给人造成由于动画卡顿而出现画面延时的错觉，因此，将待机状态的动画加载进来直至下一条待播放音频被播放时，再将待机状态动画切换为运动状态下的动画，通过动画动作变化与音频的播放状态相互匹配输出来提高用户在听觉、视觉上交互的流畅度，解决因动画动作变化与音频播放状态不匹配造成的视觉上动画卡顿、播放不流畅的问题。在音频播放的整个期间通过动画播放优先级指令对动画类别进行切换，可以增加视觉呈现上的趣味性和生动性。

本申请对可适用的应用场景以及该应用场景下的系统架构进行介绍。本申请可以应用于传媒、教育、金融、医疗和体育等领域由用户终端或服务器提供的人机语音交互场景，例如虚拟综艺、虚拟主播、AI基金培训师、虚拟客服人员、虚拟教师和新闻播报等。

为便于对本实施例进行理解，下面对本发明实施例进行详细介绍。

实施例一：

图1为本发明实施例一提供的一种提高用户交互流畅度的方法流程图。

参照图1，应用于用户终端，该方法包括以下步骤：

步骤S101，采集用户的语音输入数据并发送给后端服务器，以使后端服务器对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

具体地，用户终端可以通过麦克风等语音采集设备采集用户的语音输入数据；将用户的语音输入数据传输至后端服务器，后端服务器对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将预处理文本提交给对话平台进行处理，得到对应的答案文本，然后将答案文本进行流处理，得到流处理后的文本信息；将流处理后的文本信息发送给用户终端。

在AI智能虚拟客服的问答场景下，当智能客户响应用户提问对应的应答文本较长时，若后端服务器将其全部传送给用户终端进行文字的断句处理，会造成传输时间较长致使网络响应时间较慢的问题。而本申请中利用流处理对该文本进行特定时长或特定字符数的文字传输，以便于对文本进行分批传输，达到加快网络响应速度的效果，缩短后续对文本进行分割处理的等待时间，也能缩短后端服务器到用户终端的响应时长，进而减少用户的等待时间。

步骤S102，接收后端服务器发送的流处理后的文本信息；

步骤S103，将流处理后的文本信息进行分割处理得到文字队列；

步骤S104，将文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；

步骤S105，当在单音频模态时，将音频队列中的音频按顺序进行播放，并根据音频队列确定播放是否完毕。

进一步的，步骤S103包括以下步骤：

步骤S201，将流处理后的文本信息分别采用分隔符和预设字符数进行断句分割，得到多个第二文字片段；

具体地，用户终端对流处理后的文本信息先利用分隔符进行初次分割，其中，分隔符为顿号、句号和问号等；然后基于初次分割后的片段利用预设字符数进行二次分割，得到多个第二文字片段。本申请中，预设字符数分割情况为：若第二文字片段的字符数超过40个，则强行断句；若第二文字片段字符数小于5个，则不能进行断句。

针对字数较多的长句子，利用分隔符和特定字符数先后对其进行分割，可以保证将长句子文本分割为短句子后再将其转化为音频，减少了文本转音频的等待时长，加快文本转音频的处理效率，为后期虚拟数字人能流畅播报音频的实现提供了基础。

步骤S202，判断每个第二文字片段是否为完整句子；

步骤S203，如果否，则将当前第二文字片段与下一第二文字片段进行拼接，对拼接后的第二文字片段重新进行分割并判断每个第二文字片段是否为完整句子；

步骤S204，如果是，基于第二文字片段得到第一元素，多个第一元素构成文字队列。

具体地，本申请中，判断是否为完整句子的标准是判断第二文字片段中是否含有分隔符或第二文字片段对应字符是否为预设最大字符数，优选地，本申请中预设最大字符数为40个。

进一步的，步骤S104包括：

步骤S301，将每个完整句子分别形成文字队列的第一元素，其中，第一元素为文字队列对应数组中某个存储单元存储的分割后文字片段数据；

步骤S302，通过事件监听器对文字队列进行监测；

步骤S303，如果监测到新的第一元素，则将新的第一元素发送给后端服务器，以使后端服务器将新的第一元素进行音频转化，构成与文字队列同时工作的待播放的音频队列；

具体地，若监测到有新的第一元素，则对应将其发送至后端服务器进行音频转化，形成同时工作的文字队列与待播放音频队列；一边对下一段文字进行分割形成文字队列（此处的文字队列是下一段即将转化为播放音频所需要的文本信息），一边对上一段完整句子文本信息对应转化为播放音频，然后进行播放。

步骤S304，如果没有监测到新的第一元素，则判断答案文本是否被全部流处理完毕；其中，流处理完毕则说明对当前用户提问对话任务的答案文本已经完成所有的文字分割处理，不存在待转音频的第一元素；

步骤S305，如果是，则继续判断是否存在新的待播放音频；

步骤S306，如果否，则继续对流处理后的文本信息进行分割。

与现有技术中将文本全部转为音频后进行播放相比，本申请是利用文字队列与音频播放队列协同工作，实现了对检索到的较长的应答文本一边进行文字分割，一边将分割后的文字转为音频并进行播放，保证了对应答文本能够实时播报，缩短端到端的响应时长进而减少用户的等待时间，提升用户的体验感和满意度。

进一步的，该方法还包括以下步骤：

步骤S401，当文字队列中相邻的第一元素之间字符数长短不同时，将文字队列中单字转化速率与音频队列中单字播报速率的比值调整为大于1，得到第一音频文件，多个第一音频文件构成音频队列。其中，单字播报速率为每个第一音频文件中对应每个文字播放时所需时间，单字转化速率为每个第一元素中对应单个文字转为音频所需时间；

具体地，若文字队列中相邻第一元素之间文字长短不一，而造成当前音频播放时间短于当前文字转音频耗费时间，即当前音频播放完毕后下一待播放音频尚未完成转化而存在等待时间的行场景下，本申请通过调整文字转音频的速率与音频播放速率的倍数比，将倍数比设置较大一些，使得音频播放队列在短时间内可得到多条待播放音频，即使当前文字转语音还未转化完成而要进行音频播放，音频队列中多条待播放音频可以在播放时间连续性上起到缓冲作用，保证相邻待播放音频在时间轴上能够紧密衔接，提高客户端音频播放的流畅度，以解决文字长短不一而导致的音频播报卡顿问题。

而当文字队列中相邻两个第一元素之间的字数相差不大且倍数比设置不是很大的情景下，由于文字转语音的速率始终要快于音频播放速率，能在一定程度上对音频队列播放连续性起到一定的缓冲作用，提高客户端音频播放的流畅度，避免出现音频卡顿的问题而造成用户体验感不佳。

或者，

步骤S402，当文字队列中各个第一元素之间字符数无规律且存在字符数的差值大于预设阈值时，固定单字转化速率；

步骤S403，遍历文字队列中相邻两个第一元素的文字长度，确定字数差，其中，相邻两个第一元素包括前一第一元素和后一第一元素；

步骤S404，将后一第一元素按照字数差进行分割，并将后一第一元素拼接至前一第一元素的文字末尾，直至文字队列中的文字呈倒金字塔型（针对同一个流处理后的文本信息进行倒金字塔处理）；即将后一第一元素的前N个文字按照字数差进行分割，其中，N与字数差相同；

步骤S405，基于倒金字塔型对应的文字队列分别按顺序进行文字转语音处理得到第二音频文件，基于多个第二音频文件得到音频队列。

具体地，对同一个流处理后的文本信息对应的文字队列进行处理，使得同一文字队列中前一个第一元素的总字数始终多于后一个第一元素的总字数，在文字转语音速率固定的场景下，文字越多则得到的音频播放时长越长，则保证了当前音频还未播放完毕时下一项文本转音频的任务已经被执行完毕，则使得相邻待播放音频之间衔接更为流畅，不存在文字转语音的等待时间，解决由于句子之间字数不一而造成的音频播放卡顿的问题。

进一步的，步骤S105包括以下步骤：

步骤S501，判断音频队列是否存在新的待播放音频；

步骤S502，如果是，则对新的待播放音频按顺序进行播放；

步骤S503，如果否，则判断当前音频是否播放完毕；

步骤S504，如果是，则结束；

步骤S505，如果否，则播放当前音频。

进一步的，步骤S103还包括：

步骤S601，将流处理后的文本信息以固定字符长度进行分割，得到多个第一元素；

步骤S602，将多个第一元素构成文字队列。

进一步的，步骤S104还包括：将文字队列中的每个第一元素以固定的音频单字转化速率将文本转化为音频文件，从而构成音频队列；其中，音频单字转化速率与音频单字播放速率的比值设置为大于或等于1。

另外，步骤S104还包括：

步骤S701，判断文字队列中是否存在新的第一元素；

步骤S702，如果是，则基于新的第一元素，以固定的音频单字转化速率将文本转化为音频文件，从而构成音频队列；其中，音频单字转化速率与音频单字播放速率的比值设置为大于或等于1；

步骤S703，如果否，则判断答案文本是否被全部流处理完毕；

步骤S704，如果是，则判断当前音频是否播放完毕；

步骤S705，如果否，则继续对流处理后的文本信息进行分割。

具体地，对流处理后的文本信息进行固定字数的分割，得到多个第一元素，将多个第一元素构成文字队列；判断文字队列中是否有新的第一元素生成，若有新的第一元素生成，则以固定的文本转语音的音频单字转化速率将第一元素转化为音频文件，同时调整音频播放慢于或等同文本转音频的速度，在当前音频被播放完毕的同时或还未播放完毕时，下一条文本转音频的任务也被执行完毕，保证了待播音频在时间轴上衔接的紧密度，解决因句子字数长短不一出现的音频播放卡顿的问题，提高用户交互流畅度。

实施例二：

图2为本发明实施例二提供的单音频模态下的一种提高用户交互流畅度的方法流程图。

参照图2，该方法包括以下步骤：

步骤S901，前端（用户终端）采集用户的语音输入数据；

步骤S902，前端采集的语音输入数据发送给后端（后端服务器），以使后端（后端服务器）对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将其提交对话平台生成答案文本返回后端；

步骤S903，将答案文本进行流处理，得到流处理后的文本信息，并将流处理后的文本信息传输至前端；

步骤S904，前端利用分隔符和字符数对流处理后的文本信息进行分割，得到多个第二文字片段；

步骤S905，对每个第二文字片段分别判断是否为完整的句子；如果是，则执行步骤S906；如果否，则执行步骤S907；

步骤S906，基于多个完整句子对应的第一元素在前端形成文字队列；

步骤S907，将当前第二文字片段与下一第二文字片段进行拼接，基于拼接后的第二文字片段按照步骤S904的方法进行分割并返回至步骤S905；

步骤S908，基于文字队列中的第一元素分别发送至后端进行预处理得到音频文件，并形成音频队列；

步骤S909，对音频队列中的音频按顺序进行播放；

步骤S910，判断音频队列是否存在新的待播放音频数据；如果否，则执行步骤S911；如果是，则执行步骤S909；

步骤S911，判断当前音频是否播放完毕；如果是，则结束；如果否，则执行步骤S912；

步骤S912，播放音频。

实施例三：

图3为本发明实施例三提供的另一单音频模态下的一种提高用户交互流畅度的方法流程图。

参照图3，该方法包括以下步骤：

步骤S1001，前端（用户终端）采集用户的语音输入数据；

步骤S1002，前端采集的语音输入数据发送给后端（后端服务器），以使后端（后端服务器）对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将其提交对话平台生成答案文本返回后端；

步骤S1003，将答案文本进行流处理，得到流处理后的文本信息，并将流处理后的文本信息传输至前端；

步骤S1004，前端以固定字符长度对流处理后的文本信息进行分割得到多个第一元素；

步骤S1005，基于多个第一元素在前端形成文字队列；

步骤S1006，基于文字队列中的每个第一元素分别以固定的音频单字转化速率将文本转为音频，并设置音频单字转化速率与音频单字播放速率的比值大于或等于1，得到音频文件，多个音频文件在前端形成音频队列；

步骤S1007，对音频队列中的待播放音频按顺序进行播放；

步骤S1008，判断音频队列是否存在新的待播放音频数据；如果否，则执行步骤S1009；如果是，则执行步骤S1007；

步骤S1009，判断当前音频是否播放完毕；如果是，则结束；如果否，则执行步骤S1010；

步骤S1010，播放音频。

实施例四：

图4为本发明实施例四提供的另一一种提高用户交互流畅度的方法流程图。

参照图4，应用于用户终端，该方法包括以下步骤：

步骤S2001，采集用户的语音输入数据并发送给后端服务器，以使后端服务器对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

步骤S2002，接收后端服务器发送的流处理后的文本信息；

步骤S2003，将流处理后的文本信息进行分割处理得到文字队列，并将文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；

步骤S2004，当在音视频多模态时，将音频队列中的音频按顺序进行播放，并根据音频是否结束播放的状态确定响应或停止响应动画播放优先级指令；

步骤S2005，根据动画播放优先级指令使音频和视频相互匹配播放。

进一步的，步骤S2005包括以下步骤：

步骤S2006，判断音频队列是否存在新的待播放音频；

步骤S2007，如果是，则对新的待播放音频按顺序进行播放；

步骤S2008，如果否，则判断当前音频是否播放完毕；

步骤S2009，如果是，则停止响应动画播放优先级指令，将运动状态动画转化为待机动画；

步骤S2010，如果否，则响应动画播放优先级指令，将待机动画转化为运动状态动画。

具体地，当音频队列中有新的待播放音频产生时，对新的待播放音频按顺序进行播放，同时响应于动画播放优先级指令，将待机状态动画转化为运动状态模式下的动画。当音频播放队列中没有新的待播放音频产生时，判断当前音频是否播放完毕；如果当前音频未播放完毕，则持续响应动画播放优先级指令；如果在当前音频被播放完之后，停止响应于动画播放优先级指令，将运动状态模式下的动画转化为待机状态动画。

具有以下有益效果：第一，基于音频播放的开始与结束对相应的动画类型进行驱动变化，保证了运动状态的画面能与音频播放的状态高度一致，实现音画相互匹配输出，保证动画随音频进行驱动，显得更加仿真、生动和流畅。第二，当相邻两条音频播放之间存在较长等待时间时，若不对原动画进行处理则会一直处于运动状态动画，画面显示会给人造成动画卡顿造成延时的错觉。本申请中，利用动画播放优先级指令根据音频开始播放的节点对动画的类别进行切换，在两条音频播放的等待时间中插入待机动画解决视觉上造成的动画卡顿的问题，使得视觉呈现上动画的播放更加流畅，且在音频播放的整个期间通过动画播放优先级对动画类别进行切换，可以增加视觉呈现上的趣味性和生动性。

实施例五：

图5为本发明实施例五提供的音视频多模态下的一种提高用户交互流畅度的方法流程图。

在获取用户的提问语音数据之前，虚拟数字人服务器加载数字人待机状态和运动状态模式下的动画，并设置动画播放优先级指令。

其中，本申请在three.js渲染引擎内添加1个或多个基础模型（虚拟数字人的建模模型），且每个基础模型对应匹配的2种及以上的视觉动画。视觉动画至少包括两类，一类是用于在静音状态或暂停音频播报状况下对应的待机状态动画，一类是用于播放音频时对应的运动状态模式下的动画，并且设置动画播放优先级指令，使得在进行音频播报时运动状态的画面优先于待机状态动画被播放。

服务器初始化显示界面为待机状态的动画，并将该动画设置为重复循环播放。

其中，在three.js内置音频播放器没有播放音频之前，页面一直是待机状态的动画且该动画重复循环播放。

参照图5，该方法包括以下步骤：

步骤S3001，前端（用户终端）采集用户的语音输入数据；

步骤S3002，前端采集的语音输入数据发送给后端（后端服务器），以使后端（后端服务器）对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将其提交对话平台生成答案文本返回后端；

步骤S3003，将答案文本进行流处理，得到流处理后的文本信息，并将流处理后的文本信息传输至前端；

步骤S3004，对流处理后的文本信息进行分割得到文字片段，在前端形成文字队列；

步骤S3005，基于文字队列中的元素分别发送至后端进行音频转化，传输至前端形成音频队列；

步骤S3006，对音频队列中的音频按顺序进行播放并响应动画播放优先级指令，将待机动画转化为运动状态动画；

步骤S3007，判断音频队列是否存在新的待播放音频；如果是，则执行步骤S3006；如果否，则执行步骤S3008；

步骤S3008，判断当前音频是否播放完毕；如果是，则执行步骤S3009；如果否，则执行步骤S3010；

步骤S3009，停止响应动画播放优先级指令，将运动状态动画转化为待机动画；

步骤S3010，响应动画播放优先级指令，将待机动画转化为运动状态动画。

实施例六：

图6为本发明实施例五提供的提高用户交互流畅度的装置示意图。

参照图6，应用于用户终端，该装置包括：

第一采集模块，用于采集用户的语音输入数据并发送给后端服务器，以使后端服务器对用户的语音输入数据进行语音识别和语义理解处理得到问题文本，并将问题文本对应的答案文本进行流处理，得到流处理后的文本信息；

第一接收模块，用于接收后端服务器发送的流处理后的文本信息；

第一分割模块，用于将流处理后的文本信息进行分割处理得到文字队列，并将文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；

第一播放模块，用于当在单音频模态时，将音频队列中的音频按顺序进行播放，并根据音频队列确定播放是否完毕。

实施例七：

参照图7，应用于用户终端，该装置包括：

第二采集模块，用于采集用户的语音输入数据并发送给后端服务器，以使后端服务器对用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

第二接收模块，用于接收后端服务器发送的流处理后的文本信息；

第二分割模块，用于将流处理后的文本信息进行分割处理得到文字队列，并将文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；

响应模块，用于当在音视频多模态时，将音频队列中的音频按顺序进行播放并响应动画播放优先级指令；

第二播放模块，用于根据动画播放优先级指令使音频和视频相互匹配播放。

本申请在单音频模态输出的问答场景下，利用文字队列与音频播放队列之间的协同工作，进行实时播报问答文字对应的音频文本，以及解决音频播放卡顿的技术问题。

本申请在音视频多模态输出问答场景下，设置了动画播放优先级指令，使得音频、视频相互匹配播放，以解决视觉、听觉上的卡顿、播放不流畅的问题。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的一种提高用户交互流畅度的方法的步骤。

本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，计算机可读介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例的一种提高用户交互流畅度的方法的步骤。

本发明实施例所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种提高用户交互流畅度的方法，其特征在于，应用于用户终端，所述方法包括：

接收所述后端服务器发送的所述流处理后的文本信息；

2.根据权利要求1所述的一种提高用户交互流畅度的方法，其特征在于，将所述流处理后的文本信息进行分割处理得到文字队列，包括：

将所述流处理后的文本信息分别采用分隔符和预设字符数进行断句分割，得到多个第二文字片段；

判断每个所述第二文字片段是否为完整句子；

如果否，则将当前第二文字片段与下一第二文字片段进行拼接，对拼接后的第二文字片段重新进行分割并判断每个所述第二文字片段是否为所述完整句子；

如果是，则基于所述第二文字片段得到所述第一元素，多个所述第一元素构成所述文字队列。

3.根据权利要求1所述的一种提高用户交互流畅度的方法，其特征在于，将所述文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列包括：

当所述文字队列中相邻的所述第一元素之间字符数长短不同时，将所述文字队列中单字转化速率与所述音频队列中单字播报速率的比值调整为大于1，得到第一音频文件，多个所述第一音频文件构成音频队列，其中，所述单字播报速率为每个所述第一音频文件中对应每个文字播放时所需时间，所述单字转化速率为每个所述第一元素中对应单个文字转为音频所需时间；

或者，

当所述文字队列中各个所述第一元素之间字符数无规律且存在所述字符数的差值大于预设阈值时，固定所述单字转化速率；

遍历所述文字队列中相邻两个所述第一元素的字符长度，确定字数差，其中，所述相邻两个所述第一元素包括前一第一元素和后一第一元素；

将所述后一第一元素按照所述字数差进行分割，并将所述后一第一元素拼接至所述前一第一元素的文字末尾，直至所述文字队列中所有的所述第一元素对应字符长度呈倒金字塔型；

基于所述倒金字塔型对应的所述文字队列分别按顺序进行文字转语音处理得到第二音频文件，基于多个所述第二音频文件得到所述音频队列。

4.根据权利要求1所述的一种提高用户交互流畅度的方法，其特征在于，根据所述音频队列确定播放是否完毕，包括：

判断所述音频队列是否存在新的待播放音频；

如果是，则对所述新的待播放音频按顺序进行播放；

如果否，则判断当前音频是否播放完毕；

如果是，则结束；

如果否，则播放所述当前音频。

5.根据权利要求1所述的一种提高用户交互流畅度的方法，其特征在于，将所述流处理后的文本信息进行分割处理得到文字队列，包括：

将所述流处理后的文本信息以固定字符长度进行分割，得到多个所述第一元素；

基于所述第一元素构成所述文字队列。

6.根据权利要求5所述的一种提高用户交互流畅度的方法，其特征在于，将所述文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列，包括：

将所述文字队列中的每个所述第一元素以固定的音频单字转化速率将文本转化为所述音频文件，从而构成所述音频队列；其中，所述音频单字转化速率与音频单字播放速率的比值设置为大于或等于1。

7.一种提高用户交互流畅度的方法，其特征在于，应用于用户终端，所述方法包括：

接收所述后端服务器发送的所述流处理后的文本信息；

8.根据权利要求7所述的一种提高用户交互流畅度的方法，其特征在于，根据所述动画播放优先级指令使所述音频和视频相互匹配播放，包括：

当所述音频队列中的音频播放时，响应所述动画播放优先级指令，将待机动画转化为运动状态动画；

当所述音频队列中的所有音频播放完毕时，将所述运动状态动画转化为所述待机动画。

9.一种提高用户交互流畅度的装置，其特征在于，应用于用户终端，所述装置包括用于执行权利要求1至6任一项所述的一种提高用户交互流畅度的方法的各个模块，所述模块包括第一采集模块、第一接收模块、第一分割模块和第一播放模块，其中：

所述第一采集模块，用于采集用户的语音输入数据并发送给后端服务器，以使所述后端服务器对所述用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将所述预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

所述第一接收模块，用于接收所述后端服务器发送的所述流处理后的文本信息；

所述第一分割模块，用于将所述流处理后的文本信息进行分割处理得到文字队列，并将所述文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；其中每个所述第一元素为所述文字队列对应数组中某一存储单元存储的经过分割处理后的某一文字片段数据；

所述第一播放模块，用于当在单音频模态时，将所述音频队列中的音频按顺序进行播放，并根据所述音频队列确定播放是否完毕。

10.一种提高用户交互流畅度的装置，其特征在于，应用于用户终端，所述装置包括用于执行权利要求1至8任一项所述的一种提高用户交互流畅度的方法的各个模块，其中所述模块包括第二采集模块、第二接收模块、第二分割模块、响应模块和第二播放模块，其中：

所述第二采集模块，用于采集用户的语音输入数据并发送给后端服务器，以使所述后端服务器对所述用户的语音输入数据进行语音识别和语义理解处理得到预处理文本，并将所述预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；

所述第二接收模块，用于接收所述后端服务器发送的所述流处理后的文本信息；

所述第二分割模块，用于将所述流处理后的文本信息进行分割处理得到文字队列，并将所述文字队列中的每个第一元素分别转化为音频文件，从而构成音频队列；其中每个所述第一元素为所述文字队列对应数组中某一存储单元存储的经过分割处理后的某一文字片段数据；

所述响应模块，用于当在音视频多模态时，将所述音频队列中的音频按顺序进行播放，并根据音频是否结束播放的状态确定响应或停止响应动画播放优先级指令；

所述第二播放模块，用于根据所述动画播放优先级指令使所述音频和视频相互匹配播放。