CN115497465A

CN115497465A - 语音交互方法、装置、电子设备和存储介质

Info

Publication number: CN115497465A
Application number: CN202211086105.4A
Authority: CN
Inventors: 李骁; 于欣璐; 赖众程; 常鹏; 高洪喜; 聂文尚; 冯晋飞; 苏杰; 胡云飞; 张莉; 邓兆卉
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-20
Anticipated expiration: 2042-09-06
Also published as: CN115497465B

Abstract

本发明公开了一种语音交互方法、装置、电子设备和存储介质，对用户输入的语音进行语义解析，得到语音的语义解析结果；通过基于部分可观察的马尔科夫决策过程建立的预测模型对语义解析结果进行类型预测，得到语义解析结果对应的目标对话类型；将目标对话类型输入至预设的知识图谱网络，生成知识图谱向量，将知识图谱向量输入至推荐网络，得到目标对话类型对应的回复文本，并对回复文本进行语音转换，得到回复文本对应的回复语音，输出回复语音；本发明能够对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性。

Description

语音交互方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种语音交互方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和人工智能的发展，以往线下传统的业务开始逐渐迁移至线上，而且已经形成一种不可逆转的趋势。例如远程面签，其主要用于帮助使馆、银行等机构开展，目前可以通过虚拟人物进行面签可以提高面签效率，但是在通过虚拟人物进行面签过程中，当用户存在疑问需要咨询和沟通时，由于当前虚拟人物只能在设定好的选项中寻找答案，不能准确识别用户的意图，造成“答非所问”的现象，造成虚拟人物的语音交互准确度低。

发明内容

本发明实施例提供一种语音交互方法、装置、电子设备和存储介质，以提高现有通过虚拟人物进行面签时的语音交互的准确度。

一方面，本发明实施例提供一种语音交互方法，所述方法包括：

对用户输入的语音进行语义解析，得到所述语音的语义解析结果；

通过预设的预测模型对所述语义解析结果进行类型预测，得到所述语义解析结果对应的目标对话类型；所述预测模型是基于部分可观察的马尔科夫决策过程建立的，所述目标对话类型用于指示所述语音对应的用户意图；

将所述目标对话类型和所述语义解析结果输入至预设的知识图谱网络，生成知识图谱向量；

将所述知识图谱向量输入至推荐网络，得到所述目标对话类型对应的回复文本；

对所述回复文本进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音。

另一方面，本发明实施例提供一种语音交互装置，所述装置包括：

解析模块，用于对用户输入的语音进行语义解析，得到所述语音的语义解析结果；

预测模块，用于通过预设的预测模型对所述语义解析结果进行类型预测，得到所述语义解析结果对应的目标对话类型；所述预测模型是基于部分可观察的马尔科夫决策过程建立的，所述目标对话类型用于指示所述语音对应的用户意图；

推理模块，用于将所述目标对话类型输入至预设的知识图谱网络，生成知识图谱向量；

推荐模块，用于将所述知识图谱向量输入至推荐网络，得到所述目标对话类型对应的回复文本；

输出模块，用于对所述回复文本进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音。

另一方面，本发明实施例提供一种电子设备，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行所述的语音交互方法中的操作。

另一方面，本发明实施例提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行所述的语音交互方法中的步骤。

本发明实施例对用户输入的语音进行语义解析，得到语音的语义解析结果；通过基于部分可观察的马尔科夫决策过程建立的预测模型对语义解析结果进行类型预测，得到语义解析结果对应的目标对话类型，识别用户意图；将目标对话类型输入至预设的知识图谱网络，生成知识图谱向量，将知识图谱向量输入至推荐网络，得到目标对话类型对应的回复文本，并对回复文本进行语音转换，得到回复文本对应的回复语音，输出回复语音；本发明实施例能够对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音交互方法的一个流程示意图；

图2是本发明实施例提供的语义解析模型的一个结构示意图；

图3是本发明实施例提供的POMDP模型的更新过程示意图；

图4是本发明实施例提供的语音交互装置的一个结构示意图；

图5是本发明实施例提供的电子设备的一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术所述，通过虚拟人物进行面签审核可以提高业务办理效率，现有的虚拟人物与用户的沟通大部分是输出预先设定的选项给用户，通过确定用户基于选项输入的操作，输出相应的答复，交互方式比较单一，适用场景较少；并且当用户输入的操作不属于预先设定的选项时，虚拟人物可能不能给出准确的答复，造成“答非所问”的状况，而在用户进行面签审核以及业务办理中，可能存在疑问需要咨询和沟通，这些疑问可能是与当前办理业务相关的，也可能是与当前办理业务不相关的，如果虚拟人物只在设定好的选项中寻找答案，而不是识别用户的意图，根据用户的意图进行回复，这将降低虚拟人物与用户之间的语音交互的准确度，进而造成用户线上业务办理不成功，虽然现有的线上业务办理在虚拟人物不能解答用户疑问时，可以由业务人员与用户沟通，但是这需要不断监测虚拟人物与用户的交互情况，增加成本。

基于此，本发明实施例提供一种语音交互方法，该方法能够对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程(POMDP，全称：Partially ObservableMarkov Decision Process)根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性。

如图1所示，图1是本发明实施例提供的语音交互方法的一个流程示意图，所示的语音交互方法包括步骤101～105：

101，对用户输入的语音进行语义解析，得到语音的语义解析结果。

在本发明一些实施例中，存在多种方式对用户输入的语音进行语义解析，示例性的包括：

(1)可以将用户输入的语音转换为文本，对文本进行语义解析，得到用户输入的语音的语义解析结果。

在本发明一些实施例中，可以通过语音转换模型将用户输入的语音转换为文本，其中，语音转换模型为训练完成的神经网络模型，语音转换模型通过语音识别技术实现了将用户输入的语音转换为文本，语音识别技术(ASR，Automatic Speech Recognition)是以语音为研究对象，通过语音信号处理和模式自动识别出语音中的文字，语音文本转换的过程为语音转换模型对用户输入的语音进行预处理(VAD，即首尾端的静音切除)及声音分帧，将声音分帧后的每一帧进行特征提取，提取出每一帧的包含声音信息的特征向量，在将每一特征向量进行声学模型的转换，转成与其对应的音素向量，通过字典库中查找每一个音素向量对应的中文或者英文，再通过语音模型识别出字与字之间或者词语与词语之间的相互关联的概率，最后得出最高概率的文本。

(2)可以将输入的语音转换为时域信号或频域信号，通过对时域信号或频域信号进行信号识别对用户输入的语音进行语义解析，得到语音的语义解析结果。

(3)可以将用户输入的语音输入至预设的语义解析模型进行语义解析，得到语音的语义解析结果。

在本发明一些实施例中，语义解析模型可以是基于机器学习的语义解析模型，例如基于逻辑回归的语义解析模型、基于随机森林的语义解析模型、基于字典学习的语义解析模型等；在本发明一些实施例中，语义解析模型可以是概率模型，例如高斯模型、正态分布模型、马尔可夫随机过程模型等；在本发明一些实施例中，语义解析模型还可以是基于神经网络的语义解析模型，例如基于长短期记忆(LSTM)、卷积神经网络(ConvolutionalNeural Networks，CNN)、基于反卷积神经网络(De-Convolutional Networks，DN)、深度神经网络(Deep Neural Networks，DNN)、基于深度卷积逆向图网络(Deep ConvolutionalInverse Graphics Networks，DCIGN)、基于区域的卷积网络(Region-basedConvolutional Networks，RCNN)、基于区域的快速卷积网络(Faster Region-basedConvolutional Networks，Faster RCNN)和基于双向编解码(Bidirectional EncoderRepresentations from Transformers，BERT)模型。

需要说明的是，上述语义解析方法仅为示例性说明，不构成对本发明实施例提供的语音交互方法的限定，可以根据实际应用场景选取相应的语义解析方法。

102，通过预设的预测模型对语义解析结果进行类型预测，得到语义解析结果对应的目标对话类型。

预测模型是基于部分可观察的马尔科夫决策过程建立的，目标对话类型用于指示语音对应的用户意图。示例性，当目标对话类型为“01”时，相应的用户意图为“A”，当目标对话类型为“02”时，相应的用户意图为“B”，例如在金融业务办理时，当目标对话类型为查询时，相应的用户意图为业务查询、用户数据查询，例如当用户输入的语音为“明细查询”，则确定目标对话类型为数据查询，即用户意图为用户数据查询。

在本发明一些实施例中，步骤102包括：将语义解析结果输入至预设的预测模型，通过预测模型的Bellman最优性方程进行近似值的计算，通过策略搜索的方式，先计算策略对应的值函数，通过找到回报值最高的策略来获得最优策略，将该最优策略设置为目标对话类型。

103，将目标对话类型和语义解析结果输入至预设的知识图谱网络，生成知识图谱向量。

在本发明一些实施例中，知识图谱网络根据目标对话类型对语义解析结果进行信息抽取，得到头语义实体、语义关系和尾语义实体，进而得到知识图谱向量，识图谱向量中每个二维矩阵切片代表一种语义关系。

104，将知识图谱向量输入至推荐网络，得到目标对话类型对应的回复文本。

在本发明一些实施例中，步骤104包括：将知识图谱向量输入至推荐网络进行特征抽取，得到因子矩阵，其中因子矩阵中每一行代表一个语义实体，由知识图谱向量和因子矩阵还原的结果即为每个候选文本对应的概率，根据每个候选文本对应的概率得到目标对话类型对应的回复文本。在本发明一些实施例中，可以将概率最大值对应的候选文本设置为回复文本。

在本发明一些实施例中，步骤104包括：将知识图谱向量输入至推荐网络进行特征抽取，得到因子矩阵，根据因子矩阵得到每个候选文本对应的分值，将分值大于或等于预设分值的候选文本设置为目标对话类型对应的回复文本。其中，预设分值可以是预先设定的分值，也可以是候选文本对应的分值中的最大值。

在本发明一些实施例中，步骤104包括：将知识图谱向量输入至推荐网络进行特征抽取，得到因子矩阵，根据知识图谱向量和因子矩阵还原的结果，得到所有知识原子的原子集合，其中，原子集合中每个知识原子为一个候选文本，每个知识原子包括头语义实体、语义关系和尾语义实体，对于原子集合每个知识原子，通过预设的得分函数确定每个知识原子之间的关联紧密程度，根据每个知识原子之间的关联紧密程度得到每个候选文本对应的得分，根据每个候选文本对应的得分选取出得分大于或等于预设分值的目标候选文本，将选取出的目标候选文本设置为目标对话类型对应的回复文本。

105，对回复文本进行语音转换，得到回复文本对应的回复语音，输出回复语音。

在本发明一些实施例中，可以通过对回复文本进行文本分析，得到回复文本的上下文信息，根据回复文本的上下文信息进行语音转换，得到回复文本相应的频谱参数，并获取预设声学特征，根据频谱参数和预设声学特征生成平滑的目标声学特征序列，将目标声学特征序列输入至预设的声音合成器得到回复文本对应的回复语音，输出回复语音。其中，声学特征表征音色、声纹、声调，在本发明一些实施例中，预设声学特征可以通过梅尔倒谱系数表示，频谱参数表征回复文本中每一个词或字对应的音频信号。在本发明一些实施例中，预设声学特征可以是用户选取的虚拟人物对应的声学特征。

在本发明实施例能够对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性。

在本发明一些实施例中，为了保障面签审核以及业务办理过程中的数据安全性，可以在步骤101之前，对用户进行身份验证，若验证通过，则接收用户输入的语音，基于用户输入的语音通过虚拟人物与用户进行语音交互，引导用户进行面签审核或业务办理；若验证不通过，则输出提示信息。

在本发明一些实施例中，存在多种方式进行身份验证，示例性的包括：

(1)可以获取用户输入的验证信息，将用户输入的验证信息与预存的核验信息进行比对；若用户输入的验证信息与预存的核验信息一致，确定验证通过；若用户输入的验证信息与预存的核验信息不一致，则确定验证不通过。七张，验证信息可以是口令或密码，其中，口令可以是验证码，密码可以数字、字符、字母、图形中的一种或多种。

(2)可以获取用户输入的人脸图像，对人脸图像进行人脸检测，得到检测结果，根据检测结果对用户进行身份验证；其中，检测结果表示人脸图像与预存的基准人脸图像是否一致，如果人脸图像与预存的基准人脸一致，则确定验证通过；如果人脸图像与预存的基准人脸不一致，则确定验证不通过。基准人脸是用户预先输入的用于人脸识别的人脸图像。

(3)可以获取用户输入的验证语音，根据用户输入的验证语音进行声纹识别，得到待检测声纹特征，将声纹特征与预存的基准声纹特征；若待检测声纹特征与预存的基准声纹特征一致，则确定验证通过；若待检测声纹特征与预存的基准声纹特征不一致，则确定验证不通过。

需要说明的是，上述身份验证方式仅为示例性说明，不够成对本发明实施例提供的语音交互方法的限定。

在本发明一些实施例中，在验证通过时，输出交互页面视图，在交互页面视图上显示虚拟人物，该虚拟人物可以是通过3D建模得到的虚拟人物，该虚拟人物可以是二维动画人物。

在本发明一些实施例中，获取用户基于交互页面视图输入的语音。

在本发明一些实施例中，为了提高语义解析结果，可以将用户输入的语音进行文本转换，得到文本信息，基于文本信息进行语义解析，得到语义解析结果，具体地语义解析方法包括步骤a1～a5：

步骤a1，对用户输入的语音进行文本转换，得到语音对应的文本信息。

在本发明一些实施例中，用户输入的语音可以是不同国家的语音，也可以是不同地区的方言。

在本发明一些实施例中，可以通过基于高斯混合-隐马尔可夫模型(HMM-GMM)的ASR对用户输入的语音进行文本转换，得到语音对应的文本信息。

在本发明一些实施例中，为了保证文本信息的准确度，可以根据对转换得到的文本进行文本纠错，具体地，通过基于HMM-GMM的ASR对用户输入的语音进行文本转换，得到初始文本信息，将初始文本信息进行通过预设的纠错算法进行文本纠错，得到语音对应的文本信息。例如，当根据用户输入的语言进行文本转换得到的初始文本为“数字查找”，通过预设的纠错算法进行文本纠错，得到语音对应的文本信息“数据查询”。

在本发明一些实施例中，预设的纠错算法可以是基于LSTM建立的语言模型；预设的纠错算法可以是结合Burkhard-Keller树(离散度量空间的度量树)算法与最小编辑距离法的语言模型。其中，Burkhard-Keller树算法与最小编辑距离法用于确定将初始文本信息转换为文本信息需要的距离。

步骤a2，对文本信息进行词向量提取，得到文本信息的词向量。

在本发明一些实施例中，为了提高词向量的确定度，可以对文本信息进行分词处理，得到多个词汇，对每个词汇进行词向量转换，得到文本信息的词向量，具体地，包括词向量转换的方法包括：

(1)将文本信息进行分词处理，得到文本信息中的多个词汇，确定每个词汇的词性、词序和关联关系。

(2)根据每个词汇的词性、词序和关联关系，确定每个词汇之间的相似度。

(3)根据每个词汇之间的相似度进行实体消歧，得到目标词汇。

(4)通过将目标词汇转换为词向量，得到文本信息的词向量。

其中，词性指的是每个词汇的属性，其包括但不限于名词、动词、形容词等，关联关系表征词汇与词汇之间的相互依存关系，关键词指的是命名实体，用于确定词汇是否为专有名词，词序用于确定每个词汇之间的顺序关系。

在本发明一些实施例中，可以通过HanLP与Stanford parser中的条件随机场(CRF)句法分析器与最大熵依存句法分析器将文本划分为词或短语得到多个词汇，并获取每个词汇的词性、词序、关联关系。

在本发明一些实施例中，实体消歧用于识别多个词汇中指向同一个实体的不同表述的词汇，在本发明一些实施例中，可以通过映射-规约方法计算词性、词序和关联关系的笛卡尔积，得到每个词汇之间的相似度，依据

计算每个词汇之间的相似度。其中，对于n个数据记录，i和j都为0到n之间的自然数，e_i和e_j表示n个多个词汇中的某一个，w表示权重，通过自适应阈值的选取词性、词序和关联关系相似的词汇进行融合，完成实体的实体消歧，得到目标词汇。其中，融合指的将词性、词序和关联关系相似的词汇的词性、词序和关联关系进行融合。

在本发明一些实施例中，可以通过Word2Vec将目标词汇转化为词向量。

步骤a3，根据每个词向量的词序、词序、关联关系进行融合处理，得到融合词向量。

在本发明一些实施例中，融合处理包括的那不限于拼接、加权融合和哈希计算。

在本发明一些实施例中，融合处理是将相似的词序、词序、关联关系进行融合，得到新的词序、新的词序、新的关联关系，进而得到融合词向量。

在本发明一些实施例中，将两个或两个以上相似的词序、词序、关联关系直接拼接，得到融合词向量，也可以确定两个或两个以上相似的词序、词序、关联关系中每个词向量的词序、词序、关联关系对应的权重，根据每个词向量的词序、词序、关联关系对应的权重对两个或两个以上相似的词序、词序、关联关系进行组合，得到融合词向量；还可以两个或两个以上相似的词序、词序、关联关系中每个词向量的词序、词序、关联关系对应的哈希值，将每个词汇的词序、词序、关联关系对应的哈希值进行组合，得到融合词向量。

步骤a4，将每个融合词向量输入已训练的编码器进行稀疏编码，得到融合词向量的稀疏编码。

在本发明一些实施例中，编码器可以是稀疏边缘降噪编码器。

在本发明一些实施例中，可以在深置信度神经网络的隐藏层神经元中引入稀疏限制和正则项，得到稀疏边缘降噪自动编码器，将融合词性、词序、依存关系的融合词向量输入至该稀疏边缘降噪自动编码器得到测试编码结果，通过预设的损失函数和测试编码结果确定稀疏边缘降噪自动编码器的训练损失，根据训练损失调整稀疏边缘降噪自动编码器的权值、偏置、稀疏限制和正则限制项等参数得到已训练的编码器。

步骤a5，将融合词向量的稀疏编码输入至已训练的语义解析模型进行语义解析，得到语音的语义解析结果。

在本发明一些实施例中，语义解析模型可以是基于级联卷积神经网络建立的，示例性的如图2所示，图2是本发明实施例提供的语义解析模型的一个结构示意图，图2中的(a)图所示的语义解析模型包括级联的卷积层1、第一级联抑制分类器、卷积层2、第二级联抑制分类器、卷积层3和第三级联抑制分类器，其中，级联抑制分类器用于过滤干扰信息，增加语义解析的准确率。如图3所示，卷积层1的输出输入至第一级联抑制分类器，第一级联抑制分类器的输出经过第一最大池化层池化处理后输入卷积层2，卷积层2的输出输入第二级联抑制分类器，第二级联抑制分类器的输出经过第二最大池化层池化处理后输入至卷积层3，卷积层3的输出输入第三级联抑制分类器，第三级联抑制分类器的输出经过第三最大池化层池化处理后由输出层输出最后的语义解析结果。

在本发明一些实施例中，如图2中的(b)图所示，级联抑制分类器包括级联的第一全连接层、第二全连接层和选择层，其中，第一全连接层和第二全连接层之间通过激活函数连接，在本发明一些实施例中激活函数可以是TanH函数。

在本发明一些实施例中，在得到语音的语义解析结果后，可以将语义解析结果输入至预设的预测模型进行类型预测，得到多个候选对话类型以及每个候选对话类型的置信度，并根据每个候选对话类型的置信度进行递减排序，从排序后的多个候选对话类型中选取出预设数量的目标候选对话类型，将选取出的目标候选对话类型设置为目标对话类型。例如，在金融业务中，当语义解析结果为“数据查询”，通过预设的预测模型进行类型预测，确定候选对话类型为支出明细查询、收入明细查询、用户数据查询，并确定用户数据查询的置信度为90％，支出明细查询为80％，收入明细查询为60％，则根据每个候选对话类型的置信度对多个候选对话类型进行置信度递减排序：用户数据查询--支出明细查询--收入明细查询，并选取用户数据查询和支出明细查询作为目标对话类型。

在本发明一些实施例中，预测模型是基于部分可观察的马尔科夫决策过程建立的，基于部分可观察的马尔科夫决策过程(POMDP)是将语音交互演变为马尔可夫过程，通过POMDP给用户语音交互环境状态施加动作，使语音交互环境状态发生变化，获得一定回报，并根据所获得的累计回报来衡量所执行一系列策略的可能性，进而将语音交互问题转换成策略选择问题，根据用户输入的语音的语义解析结果选择相应的候选对话类型。其中，策略即为本发明实施例中的候选对话类型。

具体地，该POMDP从语音交互的某个初始状态s₀开始，每个后续状态通过转移概率p(s₁|s_t-1,a_t-1)建模，由于状态s_t不能直接观察到反映用户输入的语音的语义解析的不确定性，因此在每一个回合中，将用户输入的语音的语义解析结果作为具有概率p(o_t|s_t)的用户输入的噪声观察o_t。将转移概率和噪声观察概率通过第一随机模型进行表示，并将该第一随机模型设置为对话模型，即通过对话模型求解每个后续状态通过转移概率以及噪声观察的概率；在每个回合中选取哪一个行动的决策则由第二随机模型确定，将该第二随机模型设置为策略模型，即通过策略模型确定每一回合中的候选对话类型。在语音交互中，每一步分配一个回报函数，通过每一步分配的回报函数反映语音交互中的期望特征，在本发明一些实施例中，可以通过与用户的在线交互或在离线相似域内收集的语音交互语料库来最大化回报函数的预期累积总和，来优化对话模型和策略模型，得到预测模型。

在本发明一些实施例中，可以通过深度增强学习来优化对话模型和策略模型，得到预测模型，具体地，预测模型的建立方法包括：

(1)将部分可观察的马尔可夫决策过程用一个多元组<S,A,T,O,Q,β>表示，其中，该多元组中每一个元素的含义如表一所示，表一是本发明实施例提供的部分可观察的马尔可夫决策过程的元组含义的一个示意。

表一部分可观察的马尔可夫决策过程的元组含义

(2)在POMDP概率分布中的置信状态表示为B＝{b_t}，其t时刻的概率分布为b_t＝{b_t(s₁),...,b_t(s_m)}。其中，b_t(s_i)表示t时刻环境状态为s_i的概率。通过对当前时刻对话环境的观察与动作的选择，POMDP推导出下一时刻环境状态的置信值。具体地，假设起始时刻的置信状态为b₀，执行动作a₀与观察o₀，获得下一时刻置信状态b₁。当处于状态s₁，模型获得的观察为o₁，模型内部状态为i₁。通过

计算，并根据问题引导策略选择相应的动作a₁，导致环境状态从s₁转移到s₂，模型获得回报r₁与观察o₂，此时模型内部状态从i₁(b₁)转移到i₂(b₂)，然后模型依此继续运行，得到预测模型，其中，η是归一化常数。如图3所示，图3是本发明实施例提供的POMDP模型的更新过程示意图。

在本发明一些实施例中，在根据问题引导策略选择相应的动作中，可以通过建立问题的引导策略估计函数实现对话状态的跟踪，其中，问题的引导策略估计函数为：

其中，

是对应节点n的动作向量状态s的值，s`是当前时刻的动作向量状态，ψ(n)表示输出的与节点n相关的动作，通过策略演化，得到下一时刻的问题的引导策略估计函数

其中，b`是当前时刻的置信值，

是最优策略，即

为候选对话类型，V_t ^*是上一时刻的问题的引导策略函数。

在本发明一些实施例中，可以通过基于深度增强学习的策略优化方法求解

得到候选对话类型。具体地，包括：通过增强学习定义POMDP模型的预期总回报

其中，回报r_t由每个时间步长的因子γ∈[0，1]折算，T是终止步骤。采用动作值函数Q^π(s,a)观察状态s_t的预期回报，并利用神经网络Q(s,a)＝(Q(s,a；θ))近似动作值函数。根据最优动作值函数Q^π(s,a)＝E,R_t|s_t＝a,a₁＝a,π]通过策略

得到基于动作a下的引导策略π，并构建含有动作值a的贝尔曼方程

其中，a`是当前时刻的动作值，通过调整Q-网络对迭代的贝尔曼方程的目标参数进行求解，进而得到多个候选对话类型。

在本发明一些实施例中，在目标对话类型的选取中，可以将语义解析结果输入至预设的预测模型进行类型预测，得到多个候选对话类型以及每个候选对话类型的置信度；将每个候选对话类型的置信度与预设的置信度阈值进行比较；若每个候选对话类型的置信度都大于或等于预设的置信度阈值，则将每个候选对话类型进行置信度递减排序，根据排序后的候选对话类型，确定目标对话类型。

在本发明一些实施例中，若每个候选对话类型的置信度都小于预设的置信度阈值，则通过预先训练的识别模型对语义解析结果进行类别预测，得到语义解析结果对应的目标对话类型。在本发明一些实施例中，识别模型可以是LSTM+CRF的模型。

在本发明一些实施例中，在得到目标对话类型后，将目标对话类型和语义解析结果输入至预设的知识图谱网络，知识图谱网络根据目标对话类型对语义解析结果进行信息抽取，得到知识图谱向量，其中知识图谱向量包括每个知识原子的头语义实体、语义关系和尾语义实体。

在本发明一些实施例中，在得到知识图谱向量之后，可以通过实时计算知识图谱向量中知识原子关联分值

和嵌入代价的上下界，利用上下界搜寻最优的k个嵌入，得到目标对话类型对应的回复文本。其中，l_w,v和n_u,v分别为知识原子u和知识原子v之间最短路径的长度和数目，α是一个预定义的常量，其取值在0与1之间，N是一个取值小于

的常量。当n_u,v>N时，u和v之间的关联分值的上界为

在本发明一些实施例中，当语音交互方法应用场景为单一的业务场景时，例如将语音交互方法应用于金融业务中的面签审核时，可以通过知识图谱确定目标对话类型对应的回复文本中，可以按照步骤104中步骤得到所有知识原子的原子集合A，对于原子集合A每个知识原子，通过预设的得分函数s(h,l,t)＝s₁(h,l,t)+s₂(h,l,t)确定每个知识原子之间的关联紧密程度，根据每个知识原子之间的关联紧密程度得到每个候选文本对应的得分，根据每个候选文本对应的得分选取出得分大于或等于预设分值的目标候选文本，将选取出的目标候选文本设置为目标对话类型对应的回复文本。

在本发明一些实施例中，当语音交互方法的应用场景为多个业务场景时，例如，将语音交互方法应用于金融业务中的业务办理时，与单一业务场景类似，将集合边界扩大到所有业务场景中，构成新的知识原子可能组合集B，通过预设的得分函数s(h,l,t)＝s₁(h,l,t)+s₂(h,l,t)，获得集合全局得Q₁分，并将集合B中的知识原子及其附带的路径嵌入(向量)与类型嵌入进行共享，并分提交给多列卷积神经网络，完成约定种类的有监督场景分类，获得答案类型、答案路径、答案周围实体三种特征向量，将这三种特征向量两两做相似度计算并求和得到全局得分值Q₂。通过对Q₁与Q₂进行点积运算，获得融合的全局得分值Q₃，根据Q₃数值的高低来判断多场景的知识原子之间的关联紧密程度，根据每个知识原子之间的关联紧密程度得到每个候选文本对应的得分，根据每个候选文本对应的得分选取出得分大于或等于预设分值的目标候选文本，将选取出的目标候选文本设置为目标对话类型对应的回复文本。

在本发明一些实施例中，在确定目标对话类型对应的回复文本时，可以将知识图谱向量输入至推荐网络进行特征计算，得到回复文本，具体地，回复文本的确定方法包括：

(1)将知识图谱向量输入至推荐网络，对知识图谱向量的头语义实体、语义关系以及尾语义实体进行处理，得到自主注意力表示。

(2)对头语义实体和自主注意力表示进行和聚合处理，得到聚合信息。

(3)将目标对话类型与聚合信息进行拼接，得到文本矩阵。

(4)根据文本矩阵得到目标对话类型对应的回复文本。

在本发明一些实施例中，推荐网络可以是图神经网络。

在本发明一些实施例中，将知识图谱向量输入至推荐网络，推荐网络将知识图谱向量的头语义实体和尾语义实体转换为度矩阵，将知识图谱向量中的语义关系转换为邻接网络，对度矩阵进行归一化处理后，将归一化处理后的度矩阵与邻接网络相乘，得到注意力表示。其中，该注意力表示用于提取上下文之间的依赖关系，用于知识图谱的信息传播。

在本发明一些实施例中，将头语义实体、语义关系和尾语义实体输入推荐网络的第一线性网络层，将经过第一线性网络层的头语义实体和语义关系相加得到第一中间数据，将第一中间数据输入第一激活函数进行处理，并将经过第一激活函数处理后的第一中间数据与经过第一线性网络层的尾语义实体进行相乘，得到自主注意力表示。

在本发明一些是实施例中，可以将头语义实体与自主注意力表示进行相加，得到第二中间数据，将第二中间数据输入第二线性网络层，第二线性网络层的输出输入第二激活函数，得到第一信息；将头语义实体与自主注意力表示进行相乘得到第三中间数据，将第三中间数据输入第三线性网络层，第三网络层的输出输入第三激活函数，得到第二信息；将第一信息与第二信息进行相加，得到聚合信息。

在本发明一些实施例中，目标对话类型与聚合信息进行拼接，得到文本矩阵，对于文本矩阵中的每一个元素，可以按照步骤104中的步骤，得到文本矩阵中每个元素之间关联紧密程度，根据每个元素之间的关联紧密程度得到每个元素对应的得分，其中每个元素对应一个候选文本，根据每个候选文本对应的得分选取出得分大于或等于预设分值的目标候选文本，将选取出的目标候选文本设置为目标对话类型对应的回复文本。

在本发明一些实施例中，在得到回复文本之后，可以按照步骤105中的方法对回复文本进行语音转换，生成回复文本对应的回复语音，输出回复语音。

在本发明一些实施例中，可以将回复文本输入至预设的隐马尔可夫模型的语音合成模型，得到频谱参数和声学特征序列，根据频谱参数和声学特征序列进行语音转换，得到回复文本对应的回复语音，输出回复语音。

在本发明一些实施例中，为了生成平滑的回复语音，以及确保虚拟人物的输出的回复语音生动，可以根据频谱参数和声学特征序列得到初始声学特征序列，获取预设声学特征，根据预设声学特征调整初始声学特征序列，得到目标声学特征序列，对目标声学特征序列进行平滑处理，将平滑处理后的目标声学特征序列输入至预设的声音合成器得到回复文本对应的回复语音，输出回复语音。

在本发明一些实施例中，在回复语音生成时，为了增加输出的回复语音的真实性，可以根据回复文本进行语义解析，得到回复文本对应的情绪系数，根据情绪系数调整回复语音的声音特征。其中，情绪系数指示回复文本的情感类型和级别，在本发明一些实施例中，情绪系数包括但不限于悲伤系数、愉快系数、愤怒系数、遗憾系数等。声音特征包括音调和声响。在本发明一些是实施例中，根据情绪系数调整回复语音的声音特征包括：根据情绪系数调整回复语音的音调和声响，调整回复语音的声音特征。例如，当情绪系数为悲伤系数时，可以根据悲伤系数得降低回复语音的音调和声响，使得输出的回复声音低缓。

在本发明一些实施例中，为了增加回复语音的准确性，消除语音交互过程中的模糊性，可以在确定回复文本时，输出询问文本对应的询问语音，并获取用户基于询问语音输入的回答语音，基于回答语音对应的语义解析结果确定多个候选文本对应的得分。示例性，当用户输入“查询”语音时，在得到多个候选文本时，输出“请问您是想查询用户数据还是查询明细”的询问语音，当用户输入的回答语音的语义解析结果为“用户数据”，则根据用户输入的回答语音的语义解析结果，将多个候选文本中与用户数据查询的相似程度低于预设阈值的候选成本剔除，从而消除模糊性，并从剔除处理后的候选文本中选取出回复文本，输出回复文本对应的回复语音。

本发明实施例提供的语音交互方法能够对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性。

为了更好实施本发明实施例提供的语音交互方法，在语音交互方法基础上提供一种语音交互装置，如图4所示，图4是本发明实施例提供的语音交互装置的一个实施例流程示意图，所示的语音交互装置包括：

解析模块401，用于对用户输入的语音进行语义解析，得到语音的语义解析结果；

预测模块402，用于通过预设的预测模型对语义解析结果进行类型预测，得到语义解析结果对应的目标对话类型；预测模型是基于部分可观察的马尔科夫决策过程建立的，目标对话类型用于指示语音对应的用户意图；

推理模块403，用于将目标对话类型输入至预设的知识图谱网络，生成知识图谱向量；

推荐模块404，用于将知识图谱向量输入至推荐网络，得到目标对话类型对应的回复文本；

输出模块405，用于对回复文本进行语音转换，得到回复文本对应的回复语音，输出回复语音。

在本发明一些实施例中，解析模块401，用于：

对用户输入的语音进行文本转换，得到语音对应的文本信息；

对文本信息进行词向量提取，得到文本信息的词向量；

根据每个词向量的词序、词序、依存关系进行融合处理，得到融合词向量；

将每个融合词向量输入已训练的编码器进行稀疏编码，得到融合词向量的稀疏编码；

将融合词向量的稀疏编码输入至已训练的语义解析模型进行语义解析，得到语音的语义解析结果。

在本发明一些实施例中，解析模块401，用于：

将文本信息进行分词处理，得到文本信息中的多个词汇；

确定每个词汇的词性、词序和关联关系；

根据每个词汇的词性、词序和关联关系，确定每个词汇之间的相似度；

根据每个词汇之间的相似度进行实体消歧，得到目标词汇；

通过将目标词汇转换为词向量，得到文本信息的词向量。

在本发明一些实施例中，预测模块402，用于：

将语义解析结果输入至预设的预测模型进行类型预测，得到多个候选对话类型以及每个候选对话类型的置信度；

根据每个候选对话类型的置信度，确定得到目标对话类型。

在本发明一些实施例中，预测模块402，用于：

将每个候选对话类型的置信度与预设的置信度阈值进行比较；

若每个候选对话类型的置信度都大于或等于预设的置信度阈值，则将每个候选对话类型进行置信度递减排序，根据排序后的候选对话类型，确定目标对话类型；

若每个候选对话类型的置信度都小于预设的置信度阈值，则通过预先训练的LSTM+CRF模型对语义解析结果进行类别预测，得到语义解析结果对应的目标对话类型。

在本发明一些实施例中，推荐模块404，用于：

将知识图谱向量输入至推荐网络，对知识图谱向量的头语义实体、语义关系以及尾语义实体进行处理，得到自主注意力表示；

对头语义实体和自主注意力表示进行和聚合处理，得到聚合信息；

将目标对话类型与聚合信息进行拼接，得到文本矩阵；

根据文本矩阵得到目标对话类型对应的回复文本。

在本发明一些实施例中，输出模块405，用于：

将回复文本输入至预设的隐马尔可夫模型的语音合成模型，得到频谱参数和声学特征序列；

根据频谱参数和声学特征序列进行语音转换，得到回复文本对应的回复语音，输出回复语音。

本发明实施例提供的语音交互装置能够对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性。

本发明实施例还提供一种电子设备，如图5所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

电子设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

对用户输入的语音进行语义解析，得到语音的语义解析结果；

通过预设的预测模型对语义解析结果进行类型预测，得到语义解析结果对应的目标对话类型；预测模型是基于部分可观察的马尔科夫决策过程建立的，目标对话类型用于指示语音对应的用户意图；

将目标对话类型和语义解析结果输入至预设的知识图谱网络，生成知识图谱向量；

将知识图谱向量输入至推荐网络，得到目标对话类型对应的回复文本；

对回复文本进行语音转换，得到回复文本对应的回复语音，输出回复语音。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种语音交互方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种语音交互方法中的步骤，因此，可以实现本发明实施例所提供的任一种语音交互方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种语音交互方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音交互方法，其特征在于，所述对用户输入的语音进行语义解析，得到所述语音的语义解析结果包括：

对用户输入的语音进行文本转换，得到所述语音对应的文本信息；

对所述文本信息进行词向量提取，得到所述文本信息的词向量；

根据每个所述词向量的词序、词序、依存关系进行融合处理，得到融合词向量；

将每个所述融合词向量输入已训练的编码器进行稀疏编码，得到融合词向量的稀疏编码；

将所述融合词向量的稀疏编码输入至已训练的语义解析模型进行语义解析，得到所述语音的语义解析结果。

3.如权利要求2所述的语音交互方法，其特征在于，所述对所述文本信息进行词向量提取，得到所述文本信息的词向量包括：

将所述文本信息进行分词处理，得到所述文本信息中的多个词汇；

确定每个所述词汇的词性、词序和关联关系；

根据每个所述词汇的词性、词序和关联关系，确定每个所述词汇之间的相似度；

根据每个所述词汇之间的相似度进行实体消歧，得到目标词汇；

通过将所述目标词汇转换为词向量，得到所述文本信息的词向量。

4.如权利要求1所述的语音交互方法，其特征在于，所述通过预设的预测模型对所述语义解析结果进行类型预测，得到所述语义解析结果对应的目标对话类型得到包括：

将所述语义解析结果输入至预设的预测模型进行类型预测，得到多个候选对话类型以及每个所述候选对话类型的置信度；

根据每个所述候选对话类型的置信度，确定得到目标对话类型。

5.如权利要求4所述的语音交互方法，其特征在于，所述根据每个所述候选对话类型的置信度，确定得到目标对话类型包括：

将每个所述候选对话类型的置信度与预设的置信度阈值进行比较；

若每个所述候选对话类型的置信度都大于或等于预设的置信度阈值，则将每个所述候选对话类型进行置信度递减排序，根据排序后的候选对话类型，确定目标对话类型；

若每个所述候选对话类型的置信度都小于预设的置信度阈值，则通过预先训练的识别模型对所述语义解析结果进行类别预测，得到所述语义解析结果对应的目标对话类型。

6.如权利要求1所述的语音交互方法，其特征在于，所述将所述知识图谱向量输入至推荐网络，得到所述目标对话类型对应的回复文本包括：

将所述知识图谱向量输入至推荐网络，对所述知识图谱向量的头语义实体、语义关系以及尾语义实体进行处理，得到自主注意力表示；

对所述头语义实体和所述自主注意力表示进行和聚合处理，得到聚合信息；

将所述目标对话类型与所述聚合信息进行拼接，得到文本矩阵；

根据所述文本矩阵得到所述目标对话类型对应的回复文本。

7.如权利要求1至6任一项所述的语音交互方法，其特征在于，所述对所述回复文本进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音包括：

将所述回复文本输入至预设的隐马尔可夫模型的语音合成模型，得到频谱参数和声学特征序列；

根据所述频谱参数和所述声学特征序列进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音。

8.一种语音交互装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至7任一项所述的语音交互方法中的操作。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的语音交互方法中的步骤。