CN113591489B

CN113591489B - 语音交互方法、装置及相关设备

Info

Publication number: CN113591489B
Application number: CN202110875402.6A
Authority: CN
Inventors: 李少军; 杨杰
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-07-18
Anticipated expiration: 2041-07-30
Also published as: CN113591489A

Abstract

本申请涉及数据处理技术，提供一种语音交互方法、装置、计算机设备及存储介质，包括：基于目标人物判定模型对初始讲解文本与评价文本分析，判定人物是否为目标人物；获取目标人物的初始讲解文本集，得到若干聚类簇；对聚类簇中的初始讲解文本提取目标特征，得到第一讲解文本集，对第一讲解文本进行组合，得到目标讲解文本；解析目标讲解文本，得到业务流程文本；生成业务流程语音，构建虚拟人物，获取虚拟人物的面部特征以及音频特征；解析语音指令，得到业务流程节点信息；根据业务流程节点信息得到与业务流程节点信息匹配的目标业务流程语音。本申请能够提高业务讲解效率，可用于智慧城市的各个功能模块中，促进智慧城市的快速发展。

Description

语音交互方法、装置及相关设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音交互方法、装置、计算机设备及介质。

背景技术

在保险行业“金融+科技”、“金融+生态”战略的指引下，科技加速保险数字化转型这一重要节点上，如何快速整合AI能力对广大业务代理人进行赋能以提高业务讲解效率是一个重要任务。

在实现本申请的过程中，发明人发现现有技术存在如下技术问题：现有技术在输出待播报视频以实现业务讲解时，能够对待播报的业务讲解文本进行语音播报，同时显示播报虚拟人物进行播报，从而使待播报视频能够同时满足用户的视觉和听觉上的感官需求。然而，现有技术中待播报的业务讲解文本大多是由相关人员通过人工编辑的方式完成的，待播报的业务讲解文本的生成成本高、生成效率低下，进而导致业务讲解的效率低下；且由于是人工编辑的方式，无法保证待播报的业务讲解文本的生成准确性，从而无法保证业务讲解的准确性。

因此，有必要提供一种虚拟人物的语音交互方法，能够提高业务讲解的效率与准确性。

发明内容

鉴于以上内容，有必要提出一种语音交互方法、语音交互装置、计算机设备及介质，能够提高业务讲解的效率与准确性。

本申请实施例第一方面提供一种语音交互方法，所述语音交互方法包括：

获取初始讲解文本以及参与者对所述初始讲解文本的评价文本，并基于预先训练好的目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定人物是否为目标人物；

获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇，其中，每一所述聚类簇中包含满足阈值条件的初始讲解文本；

对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集，根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本；

解析所述目标讲解文本，得到业务流程文本；

生成所述业务流程文本对应的业务流程语音，根据预设数学模型构建虚拟人物，获取所述虚拟人物的面部特征以及所述虚拟人物输出的与所述业务流程语音相应的音频特征；

当接收语音指令时，解析所述语音指令，得到业务流程节点信息；

根据所述业务流程节点信息得到与所述业务流程节点信息匹配的目标业务流程语音。

进一步地，在本申请提供的上述语音交互方法中，所述获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇包括：

获取所述初始讲解文本集中每一初始讲解文本对应的讲解主题；

计算所述讲解主题之间的文本相似度；

将所述文本相似度超过预定相似度阈值的讲解主题作为一个聚类中心，由所述讲解主题对应的初始讲解文本组成所述聚类中心对应的聚类簇。

进一步地，在本申请提供的上述语音交互方法中，所述对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集包括：

获取所述聚类簇中的初始讲解文本，并采用按序分割的方法将所述初始讲解文本数据拆分成若干段落；

调用预先训练好的特征定位模型筛选出若干段落中包含有用信息最多的目标段落；

调用预先训练好的特征提取模型对所述目标段落分别进行词级、句子级以及段落级分层特征提取，得到第一讲解文本；

组合每一所述聚类簇对应的第一讲解文本得到第一讲解文本集。

进一步地，在本申请提供的上述语音交互方法中，所述根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本包括：

获取所述第一讲解文本所属的目标聚类簇以及所述目标聚类簇对应的目标讲解主题；

获取所述目标讲解主题间的逻辑关系，并根据所述逻辑关系确定所述目标讲解主题间的主题顺序；

根据所述主题顺序获取预设文本顺序，并所述根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本。

进一步地，在本申请提供的上述语音交互方法中，在所述确定目标业务对应的业务流程框架之后，所述方法还包括：

确定所述业务流程框架中多个业务项之间的父子关系；

设定多个业务项之间的调整属性与约束条件；

根据所述调整属性与所述约束条件确定所述业务项之间的自适应调整关系。

进一步地，在本申请提供的上述语音交互方法中，所述解析所述目标讲解文本，得到业务流程文本包括：

确定候选主题词；

获取所述候选主题词在所述目标讲解文本中的词频以及所述候选主题词与所述目标讲解文本中的文本词之间的语义相似度；

根据所述词频与所述语义相似度确定文本分别与各个候选主题词之间的相关度，并将所述相关度高于预设相关度阈值的所述候选主题词填充至所述目标讲解文本中，得到业务流程文本。

进一步地，在本申请提供的上述语音交互方法中，所述生成所述业务流程文本对应的业务流程语音包括：

获取预先设置的文本与语音的映射表，所述映射表中存储了字符或者字符串与发音音素之间的对应关系；

识别所述业务流程文本对应的字符或者字符串；

遍历所述映射表检索到与所述字符或者字符串对应的发音因素，并拼接所述发音音素，得到所述业务流程文本对应的业务流程语音。

本申请实施例第二方面还提供一种语音交互装置，所述语音交互装置包括：

目标判定模块，用于获取初始讲解文本以及参与者对所述初始讲解文本的评价文本，并基于预先训练好的目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定人物是否为目标人物；

聚类分析模块，用于获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇，其中，每一所述聚类簇中包含满足阈值条件的初始讲解文本；

特征提取模块，用于对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集，根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本；

文本解析模块，用于解析所述目标讲解文本，得到业务流程文本；

语音生成模块，用于生成所述业务流程文本对应的业务流程语音，根据预设数学模型构建虚拟人物，获取所述虚拟人物的面部特征以及所述虚拟人物输出的与所述业务流程语音相应的音频特征；

指令解析模块，用于当接收语音指令时，解析所述语音指令，得到业务流程节点信息；

语音确定模块，用于根据所述业务流程节点信息得到与所述业务流程节点信息匹配的目标业务流程语音。

本申请实施例第三方面还提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述语音交互方法。

本申请实施例第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述语音交互方法。

本申请实施例提供的上述语音交互方法、语音交互装置、计算机设备以及计算机可读存储介质，先基于预先训练好的目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定人物是否为目标人物，之后通过特征提取的方式将目标人物对应的所述初始讲解文本中的目标特征进行整理，得到目标讲解文本，使得业务内容的讲解风格统一；且无需人工编辑目标讲解文本，能够节省人工编辑成本，提高业务讲解的效率；且本申请通过对多个目标人物的初始讲解文本集进行聚类分析，得到若干聚类簇，并对每一聚类簇中的有用特征进行提取，使得有用特征均能够被提取出来，从而保证目标讲解文本的全面性；此外，本申请构建虚拟人物，并匹配所述虚拟人物的面部特征与所述业务流程语音的音频特征。在接收到参与者触发的语音指令时，解析所述语音指令，得到业务流程节点信息，并输出目标业务流程语音，实现虚拟人物的业务讲解，能够提高业务讲解效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于虚拟人物的语音交互模块等，能够促进智慧城市的快速发展。

附图说明

图1是本申请实施例一提供的语音交互方法的流程图。

图2是本申请实施例二提供的语音交互装置的结构图。

图3是本申请实施例三提供的计算机设备的结构示意图。

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本发明实施例提供的语音交互方法由计算机设备执行，相应地，语音交互装置运行于计算机设备中。

图1是本申请第一实施方式的语音交互方法的流程图。如图1所示，所述语音交互方法可以包括如下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，获取初始讲解文本以及参与者对所述初始讲解文本的评价文本，并基于预先训练好的目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定人物是否为目标人物。

在本申请的至少一实施例中，初始讲解文本是指针对目标业务中各项业务内容的讲解文本。目标业务是指需要进行业务内容讲解的业务，例如，所述目标业务可以为保险业务、财务报销业务或者收发邮件业务等。所述目标人物是指所述目标业务对应的业务优秀的代理人。以所述目标业务为保险业务为例，对应的所述初始讲解文本是指代理人用于向用户解释保险产品相关信息的文本。可以理解的是，由于不同代理人的语言习惯、工作经验等影响，不同代理人对应的初始讲解文本可能不同。所述评价文本是指不同参与者对相应代理人的初始讲解文本的评价内容，参与者可以是指参与学习初始讲解文本的人，所述评价文本可以包括评价等级等内容，所述评价等级可以包括A级、B级和C级等。

在一实施例中，所述目标人物可以是综合考量代理人的讲解行为确定的，所述讲解行为可以包括讲解文本的熟练程度、逻辑程度以及普通话标准程度等维度，例如，代理人对于讲解文本的熟练程度、逻辑程度以及普通话标准程度越高，表明代理人越优秀，标识该代理人为目标人物；反之，表明代理人的讲解素质较低，不能标识该代理人为目标人物。其中，所述讲解文本的逻辑程度可通过检测所述初始讲解文本的逻辑是否符合预设逻辑要求来确定，所述讲解文本的熟练程度与普通话标准程度可通过解析所述评价文本确定。本申请可以通过深度学习网络模型训练目标人物判定模型，并调用所述目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定代理人是否为目标人物。

其中，所述讲解文本的逻辑程度可通过检测所述初始讲解文本的逻辑是否符合预设逻辑要求来确定可以包括：获取所述讲解文本的逻辑关键词；根据所述逻辑关键词构建待审核逻辑架构；计算所述待审核逻辑架构与预先设置的参考逻辑架构之间的架构相似度，并检测所述架构相似度是否超过预设架构相似度阈值；当检测结果为所述架构相似度超过预设架构相似度阈值时，确定所述初始讲解文本的逻辑符合预设逻辑要求；当检测结果为架构相似度未超过预设架构相似度阈值时，确定所述初始讲解文本的逻辑未符合预设逻辑要求。其中，所述参考逻辑架构是指符合预设逻辑要求的讲解文本对应的逻辑架构，所述逻辑架构由若干个逻辑关键词组成，每个逻辑关键词可以是讲解文本中某一个段落对应的讲解主题，某一个段落的讲解主题可以由每个逻辑关键词出现的次数确定，一般来说，选取出现次数最多的逻辑关键词作为某一个段落的讲解主题。所述逻辑构架由若干个逻辑关键词组成，逻辑关键词之间存在并列关系和/或包含关系，例如，对于逻辑关键词A，其下包含两个逻辑关键词B与C，此时，逻辑关键词A与逻辑关键词B、逻辑关键词A与逻辑关键词C均属于包含关系，逻辑关键词B与逻辑关键词C属于并列关系。所述计算所述待审核逻辑架构与预先设置的参考逻辑架构之间的架构相似度也即确定所述待审核逻辑架构中是否存在包含关系错误或者并列关系错误的逻辑关键词，对于存在较多包含关系错误或者并列关系错误的待审核逻辑架构，确定所述初始讲解文本的逻辑未符合预设逻辑要求；对于存在较少或不存在包含关系错误或者并列关系错误的待审核逻辑架构，确定所述初始讲解文本的逻辑符合预设逻辑要求。

所述讲解文本的熟练程度与普通话标准程度可通过解析所述评价文本确定可以包括：参与者分别对所述讲解文本的熟练程度与普通话标准程度进行评价，按照预设数据格式存储评价结果，可构成评价文本，所述评价文本可以包括评价等级等内容，所述评价等级可以包括A级、B级和C级等。其中，当所述参与者的数量为多个时，可以对每个参与者的评价等级进行均值处理，以均值标识所述讲解文本的熟练程度与普通话标准程度。

所述通过深度学习网络模型训练目标人物判定模型可以包括：将所述初始讲解文本对应的逻辑程度以及所述评价文本对应的熟练程度与普通话标准程度作为输入数据，将代理人是否目标人物的判定结果作为输出数据构建训练样本与测试样本；调用初始神经网络模型处理所述训练样本，得到目标人物判定模型；调用所述目标人物判定模型处理所述测试样本，计算模型准确率，并在所述模型准确率超过预设模型准确率阈值时，确定目标人物判定模型训练完成。其中，所述预设模型准确率阈值为预先设置的值，在此不做限制。

所述调用所述目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定代理人是否为目标人物可以包括：获取所述初始讲解文本对应的逻辑程度；获取所述评价文本对应的熟练程度与普通话标准程度；将所述逻辑程度、所述熟练程度与所述普通话标准程度作为输入数据；调用所述目标人物判定模型处理所述输入数据，得到所述代理人是否为目标人物的判定结果。

本申请通过解析评价文本得到讲解文本的熟练程度与普通话标准程度的方式代替训练较多模型并由模型来解析讲解行为得到讲解文本的熟练程度与普通话标准程度的方式，能够减少模型训练时标注训练文本导致的计算量较大的问题。

S12，获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇，其中，每一所述聚类簇中包含满足阈值条件的初始讲解文本。

在本申请的至少一实施例中，目标人物的数量可以为1个，也可以为多个，当目标人物的数量为多个时，所述初始讲解文本的数量也为多个，将多个所述初始讲解文本进行组合，能够得到初始讲解文本集。预处理所述目标人物的初始讲解文本集可以包括：删除所述初始讲解文本集中每一所述初始讲解文本中的无关信息，所述无关信息包括停用词(例如“的”、“和”、“也”等词)、重复词及标点符号等。通过对所述初始讲解文本中的无关信息的删除，能够减少无关信息的干扰，提高聚类分析的准确性。

在一实施例中，所述初始讲解文本集中包含若干个不同目标人物的初始讲解文本，每个初始讲解文本中包含多个讲解主题，且多个讲解主题并不相同，所述讲解主题可以理解为所述初始讲解文本中包含的不同的讲解单元，每个讲解主题均有相应的讲解片段。不同目标人物对于同一讲解主题的讲解片段可能存在较小差距。通过聚类分析所述初始讲解文本集中的讲解主题，将文本相似度超过预定相似度阈值的讲解主题下的不同目标人物的讲解片段划分为同一聚类簇中，所述预定相似度阈值为预先设置的相似度值。在每一个聚类簇中，存在相同或相近的讲解主题对应的不同目标人物的若干讲解片段。

可选地，所述获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇包括：

计算所述讲解主题之间的文本相似度；

其中，一个初始讲解文本对应的讲解主题的数量为多个，将一个初始讲解文本的讲解主题按照向量形式排列，得到第一讲解主题向量；通过获取所述初始讲解文本集中所有初始讲解文本的讲解主题，并进行向量形式排列，能够得到第二讲解主题向量、第三讲解主题向量至第n讲解主题向量。分别计算第一讲解主题向量至第n讲解主题向量中的讲解主题之间的相似度，并将相似度超过预定相似度阈值的讲解主题对应的不同目标人物的若干讲解片段作为一个聚类簇，由此得到若干个聚类簇。

S13，对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集，根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本。

在本申请的至少一实施例中，所述第一讲解文本集是指从每一所述聚类簇中提取出的关键文本组成的集合，所述目标讲解文本是指由若干个所述聚类簇对应的第一讲解文本组合而成的关键文本。

可选地，所述对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集包括：

其中，由于所述聚类簇中包含相同或相近讲解主题下的不同目标人物的讲解片段，因而对所述聚类簇中的讲解片段进行特征提取时，得到的第一讲解文本的数量可能为多个，且多个第一讲解文本间存在相同或相近特征，因此，还可对每一聚类簇中提取的第一讲解文本进行去重处理，去除多个第一讲解文本中相同或相近特征，最终得到特征非重复的第一讲解文本。

其中，还可以对初始讲解文本进行预处理例如包括删除初始讲解文本中的非常规单词(如特殊符号，标点等)。所述特征定位模型用于对段落中的有用信息进行定位，所述有用信息可以是预先设置的对讲解有正向作用的信息。在训练所述特征定位模型时，以若干信息为输入向量，以若干信息对应的是否为有用信息的标签为输出向量训练初始神经网络，能够得到特征定位模型。

其中，所述特征提取模型可以包括卷积神经网络和双向长短期记忆网络，可以包括句子级注意层，通过使用层次结构，对目标段落分层提取特征。句子级注意层先经过卷积神经网络获取各个句子的局部特征，然后利用双向长短期记忆网络关联各个句子的前后文本特征，引入软注意力层计算每个句子的权重，每若干个句子级特征加权求和构成每个段落的特征向量，该特征向量可作为第一讲解文本。

本申请通过对目标人物的初始讲解文本集进行聚类分析，得到若干聚类簇，并对每一聚类簇中的有用特征进行提取，使得有用特征均能够被提取出来，从而保证目标讲解文本的全面性。

可选地，所述根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本包括：

根据所述主题顺序获取预设文本顺序，并根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本。

其中，所述目标讲解主题间存在逻辑关系，所述逻辑关系可通过遍历逻辑架构中的逻辑关键词确定，逻辑关键词之间存在并列关系和/或包含关系，例如，对于逻辑关键词A，其下包含两个逻辑关键词B与C，此时，逻辑关键词A与逻辑关键词B、逻辑关键词A与逻辑关键词C均属于包含关系，逻辑关键词B与逻辑关键词C属于并列关系。根据所述逻辑关系的并列关系和/或包含关系确定所述目标讲解主题间的主题顺序，所述主题顺序与预设文本顺序存在映射关系，通过查询所述映射关系，能够得到所述主题顺序对应的预设文本顺序。

S14，解析所述目标讲解文本，得到业务流程文本。

在本申请的至少一实施例中，业务流程框架对应业务内容讲解的框架，以所述目标业务为保险业务为例，所述业务流程框架可以包括：产品信息、业务团队、运营方式以及支付管理等框架，其中，对于所述业务流程框架中的每一框架，可能对应一个或多个子框架，例如，“运营方式”框架中还包含“线上运营”与“线下运营”两个子框架。在一实施例中，所述业务流程框架可以为业务人员预先设置的框架。在其他实施例中，为提高所述业务流程框架设置的准确性与效率，采用机器学习设置所述业务流程框架的方式替代人工设置所述业务流程框架的方式。

可选地，当采用机器学习方式设置所述业务流程框架时，所述确定目标业务对应的业务流程框架包括：

获取所述目标业务对应的业务系统；

确定所述业务系统中的讲解主题以及每一所述讲解主题对应的业务项；

根据所述讲解主题与所述业务项构建业务关系树，将所述业务关系树作为业务流程框架。

其中，所述目标业务存在与之对应的业务系统，所述业务系统中包含若干个讲解主题，例如，所述讲解主题可以为产品信息、业务团队、运营方式以及支付管理等主题。所述讲解主题是指若干个业务项的总称，一个讲解主题可能对应1个业务项，也可能对应多个业务项，例如，对于讲解主题为“运营方式”来说，其对应的业务项可以包括“线上运营”与“线下运营”两项。将所述讲解主题作为树的父节点，所述业务项作为树的子节点构建业务关系树。所述业务流程框架可以为关系树的形式。

可选地，在所述确定目标业务对应的业务流程框架之后，所述方法还包括：

确定所述业务流程框架中多个业务项之间的父子关系；

设定多个业务项之间的调整属性与约束条件；

其中，所述父子关系可以包括一对一的父子关系，也可以包括一对多的父子关系。所述约束条件可以是：设定子对象随着父对象的位置移动和/或大小调整进行相应的位置移动和/或大小调整。所述调整属性可以是：设定最大、最小宽度和/或高度；和/或,设定可调整特征,包括宽度可调整、高度可调或按比例可调。

可以理解的是，在采用机器学习的方式构建好业务流程框架后，还可以将所述业务流程框架显示于前端页面，供系统人员确认所述业务流程框架是否需要调整，并在所述业务流程框架需要调整时，由系统人员进行框架调整。

可选地，所述解析所述目标讲解文本，得到业务流程文本包括：

确定候选主题词；

其中，所述候选主题词可以是由人工设置的与所述节点标识存在映射关系的主题词；也可以是在人工设置的候选主题词的基础上，通过主题扩展算法自动生成的主题词；还可以是通过主题发现算法自动从语料库中抽取出的主题词。对于中文形式的目标讲解文本，可通过中文分词技术，获取所述目标讲解文本包含的词。中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。由于中文分词技术属较为成熟的现有技术，因此，此处不再赘述。

本申请调用深度学习模型学习目标人物的初始讲解文本，将所述初始讲解文本中的重要语句进行整理，得到目标讲解文本，使得业务内容的讲解风格统一；且无需人工编辑目标讲解文本，能够节省人工编辑成本，提高业务讲解的效率。

S15，生成所述业务流程文本对应的业务流程语音，根据预设数学模型构建虚拟人物，获取所述虚拟人物的面部特征以及所述虚拟人物输出的与所述业务流程语音相应的音频特征。

在本申请的至少一实施例中，按照预设语音要求生成所述业务流程文本对应的业务流程语音，所述预设语音要求为系统人员预先设置的要求，例如，所述预设语音要求可以包括音色要求与语种要求，其中，所述音色要求包括男音与女音，所述语种要求包括中文与英文等，在此不做限制。本申请通过生成所述业务流程文本对应的统一的业务流程语音，能够避免代理人讲解素质较低导致的语音讲解不清晰、内容讲解不规范等问题，提高业务讲解的水平。

可选地，所述生成所述业务流程文本对应的业务流程语音包括：

识别所述业务流程文本对应的字符或者字符串；

其中，转换出来的语音数据中的声色、声调、强弱等声音取决于文本/语音映射表中存储的发音音素。同一个文本数据可以通过不同的文本/语音映射表分别转换为不同人的声音的语音数据。

可选地，所述根据预设数学模型构建虚拟人物包括：

获取若干要素特征，所述要素特征包括人体的语言要素、行为要素、形象要素和场景要素；

根据若干所述要素特征，建立要素数据库；

从所述要素数据库中选取目标要素特征进行组合后建立虚拟人物模型，并调用虚拟VR设备，将所述虚拟人物模型还原为虚拟人物。

其中，通过预先存储的视频片段，采集人体的多个要素特征；通过采集设备在预设时间段内，采集人体的多个要素特征。所述获取多个要素特征，所述要素特征包括人体的语言、行为、形象和场景包括:采集预设时间段内，人体的说话时的平均语速、平均语调和习惯性用语；采集人体的面部表情，所述面部表情包括开心、伤心、愤怒、恐惧、厌恶、惊讶时的表情；采集人体的常用动作，所述常用动作包括皱眉、扶额头、咬唇、抖腿、摸鼻、戴眼镜；其中，对人体的语言要素、行为要素和形象要素的采集，是通过麦克风、摄像装置、扫描仪和传感器进行采集。

本申请使虚拟人物形象赋予特定的人格、语言、习惯动作以及相应的场景等。通过AI智能技术，对大数据进行处理后，存储在装置上，通过VR设备展现出来。

可选地，所述获取所述虚拟人物的面部特征以及所述虚拟人物输出的与所述业务流程语音相应的音频特征包括：

确定语音对应的音素序列，所述音素序列中包括各时间点对应的音素；

确定所述音素序列中各音素对应的唇形关键点信息与眼睛关键点信息；

分别根据确定出的各唇形关键点信息与各眼睛关键点信息，检索预先建立的唇形库与眼形库，得到各音素的唇形图像与眼形图像；

分别将检索到的各音素的唇形图像以及眼形图像与所述各时间点相对应，得到所述语音对应的唇形图像序列与眼形图像序列。

本申请可以有效避免虚拟人物的语音输出状态和面部状态显示不一致的问题，提高语音合成的准确度，进而提升用户使用体验。

S16，当接收语音指令时，解析所述语音指令，得到业务流程节点信息。

在本申请的至少一实施例中，所述业务流程框架中包含多个业务流程节点，所述业务流程节点信息是指所述业务流程框架中的某一节点信息。

可选地，所述解析所述语音指令，得到业务流程节点信息包括：

获取参与者输入的语音指令，并对所述语音指令进行语义识别，得到参与者的会话意图；

根据所述会话意图查询业务流程框架，得到业务流程节点信息。

其中，所述语音指令可以包括自定义起始章节的指令，所述会话意图是指包含自定义起始章节的意图，所述会话意图可包含业务流程框架中具体业务流程节点的指示信息，例如，所述会话意图可包含具体业务流程节点的名称或者标识。根据所述会话意图查询业务流程框架，能够得到具体业务流程节点的相关信息。

S17，根据所述业务流程节点信息得到与所述业务流程节点信息匹配的目标业务流程语音。

在本申请的至少一实施例中，所述业务流程框架中包含多个业务流程节点，所述业务流程节点信息是指所述业务流程框架中的某一节点信息。根据所述业务流程节点信息遍历所述业务流程框架，确定所述业务流程节点信息在所述业务流程框架中的位置，并获取该位置处的业务流程语音作为目标业务流程语音。

可选地，所述根据所述业务流程节点信息遍历所述业务流程框架，得到与所述业务流程节点信息匹配的目标业务流程语音包括：

所述根据所述业务流程节点信息遍历所述业务流程框架，得到所述业务流程节点在所述业务流程框架中的目标位置；

获取所述目标位置处的业务流程语音作为与所述业务流程节点信息匹配的目标业务流程语音。

在本申请的至少一实施例中，所述控制所述虚拟人物输出所述目标业务流程语音包括：

获取所述目标业务流程语音对应的音素序列；

根据所述音素序列确定所述虚拟人物对应的唇形图像序列；

调用虚拟VR设备控制所述虚拟人物输出所述目标业务流程语音。

本申请实施例提供的上述语音交互方法，先基于预先训练好的目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定代理人是否为目标人物，之后通过特征提取的方式将目标人物对应的所述初始讲解文本中的重要语句进行整理，得到目标讲解文本，使得业务内容的讲解风格统一；且无需人工编辑目标讲解文本，能够节省人工编辑成本，提高业务讲解的效率；且本申请通过对多个目标人物的初始讲解文本集进行聚类分析，得到若干聚类簇，并对每一聚类簇中的有用特征进行提取，使得有用特征均能够被提取出来，从而保证目标讲解文本的全面性；此外，本申请构建虚拟人物，并匹配所述虚拟人物的面部特征与所述业务流程语音的音频特征。在接收到参与者触发的语音指令时，解析所述语音指令，得到业务流程节点信息，并控制所述虚拟人物输出所述业务流程节点信息对应的所述目标业务流程语音，实现虚拟人物的业务讲解，能够提高业务讲解效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于虚拟人物的语音交互模块等，能够促进智慧城市的快速发展。

图2是本申请实施例二提供的语音交互装置的结构图。

在一些实施例中，所述语音交互装置20可以包括多个由计算机程序段所组成的功能模块。所述语音交互装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)语音交互的功能。

本实施例中，所述语音交互装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：目标判定模块201、聚类分析模块202、特征提取模块203、文本解析模块204、语音生成模块205、指令解析模块206以及语音确定模块207。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

目标判定模块201用于获取初始讲解文本以及参与者对所述初始讲解文本的评价文本，并基于预先训练好的目标人物判定模型对所述初始讲解文本与所述评价文本进行自动化分析，以判定人物是否为目标人物。

所述通过深度学习网络模型训练目标人物判定模型可以包括：将所述初始讲解文本对应的逻辑程度以及所述评价文本对应的熟练程度与普通话标准程度作为输入数据，将代理人是否目标人物的判定结果作为输出数据构建训练样本与测试样本；调用初始神经网络模型处理所述训练样本，得到目标人物判定模型；调用所述目标人物判定模型处理所述测试样本，计算模型准确率，并正在所述模型准确率超过预设模型准确率阈值时，确定目标人物判定模型训练完成。其中，所述预设模型准确率阈值为预先设置的值，在此不做限制。

聚类分析模块202用于获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇，其中，每一所述聚类簇中包含满足阈值条件的初始讲解文本。

在本申请的至少一实施例中，判定为目标人物的数量可以为1个，也可以为多个，当判定为目标人物的数量为多个时，所述初始讲解文本的数量也为多个，将多个所述初始讲解文本进行组合，能够得到初始讲解文本集。所述预处理所述目标人物的初始讲解文本集可以包括：删除所述初始讲解文本集中每一所述初始讲解文本中的无关信息，所述无关信息包括停用词(例如“的”、“和”、“也”等词)、重复词及标点符号等。通过对所述初始讲解文本中的无关信息的删除，能够减少无关信息的干扰，提高聚类分析的准确性。

计算所述讲解主题之间的文本相似度；

特征提取模块203用于对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集，根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本。

文本解析模块204用于解析所述目标讲解文本，得到业务流程文本。

获取所述目标业务对应的业务系统；

确定所述业务流程框架中多个业务项之间的父子关系；

设定多个业务项之间的调整属性与约束条件；

确定候选主题词；

语音生成模块205用于生成所述业务流程文本对应的业务流程语音，根据预设数学模型构建虚拟人物，获取所述虚拟人物的面部特征以及所述虚拟人物输出的与所述业务流程语音相应的音频特征。

识别所述业务流程文本对应的字符或者字符串；

可选地，所述根据预设数学模型构建虚拟人物包括：

根据若干所述要素特征，建立要素数据库；

指令解析模块206用于当接收语音指令时，解析所述语音指令，得到业务流程节点信息。

语音确定模块207用于根据所述业务流程节点信息得到与所述业务流程节点信息匹配的目标业务流程语音。

获取所述目标业务流程语音对应的音素序列；

根据所述音素序列确定所述虚拟人物对应的唇形图像序列；

参阅图3所示，为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的语音交互方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的语音交互方法的全部或者部分步骤；或者实现语音交互装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种语音交互方法，其特征在于，所述语音交互方法包括：

获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇，包括：获取所述初始讲解文本集中每一初始讲解文本对应的讲解主题；计算所述讲解主题之间的文本相似度；将所述文本相似度超过预定相似度阈值的讲解主题作为一个聚类中心，由所述讲解主题对应的初始讲解文本组成所述聚类中心对应的聚类簇；其中，每一所述聚类簇中包含满足阈值条件的初始讲解文本；

对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集，包括：获取所述聚类簇中的初始讲解文本，并采用按序分割的方法将所述初始讲解文本数据拆分成若干段落；调用预先训练好的特征定位模型筛选出若干段落中包含有用信息最多的目标段落；调用预先训练好的特征提取模型对所述目标段落分别进行句子级分层特征提取，得到第一讲解文本；组合每一所述聚类簇对应的第一讲解文本得到第一讲解文本集；

根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本，包括：获取所述第一讲解文本所属的目标聚类簇以及所述目标聚类簇对应的目标讲解主题；获取所述目标讲解主题间的逻辑关系，并根据所述逻辑关系确定所述目标讲解主题间的主题顺序；根据所述主题顺序获取预设文本顺序，并所述根据预设文本顺序对所述第一讲解文本集中的每一第一讲解文本进行组合，得到目标讲解文本；

解析所述目标讲解文本，得到业务流程文本；

2.根据权利要求1所述的语音交互方法，其特征在于，所述获取所述虚拟人物的面部特征以及所述虚拟人物输出的与所述业务流程语音相应的音频特征包括：

3.根据权利要求1所述的语音交互方法，其特征在于，所述解析所述目标讲解文本，得到业务流程文本包括：

确定候选主题词；

4.根据权利要求1所述的语音交互方法，其特征在于，所述生成所述业务流程文本对应的业务流程语音包括：

识别所述业务流程文本对应的字符或者字符串；

5.一种语音交互装置，其特征在于，所述语音交互装置包括：

聚类分析模块，用于获取所述目标人物的初始讲解文本集并进行预处理，得到若干聚类簇，包括：获取所述初始讲解文本集中每一初始讲解文本对应的讲解主题；计算所述讲解主题之间的文本相似度；将所述文本相似度超过预定相似度阈值的讲解主题作为一个聚类中心，由所述讲解主题对应的初始讲解文本组成所述聚类中心对应的聚类簇；其中，每一所述聚类簇中包含满足阈值条件的初始讲解文本；

特征提取模块，用于对每一所述聚类簇中的所述初始讲解文本提取目标特征，得到第一讲解文本集，包括：获取所述聚类簇中的初始讲解文本，并采用按序分割的方法将所述初始讲解文本数据拆分成若干段落；调用预先训练好的特征定位模型筛选出若干段落中包含有用信息最多的目标段落；调用预先训练好的特征提取模型对所述目标段落分别进行句子级分层特征提取，得到第一讲解文本；组合每一所述聚类簇对应的第一讲解文本得到第一讲解文本集；

6.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述语音交互方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述语音交互方法。