CN111858892B

CN111858892B - 基于知识图谱的语音交互方法、装置、设备及介质

Info

Publication number: CN111858892B
Application number: CN202010724563.0A
Authority: CN
Inventors: 邹芳; 李俊蓉; 袁思明
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2023-09-29
Anticipated expiration: 2040-07-24
Also published as: CN111858892A

Abstract

本发明涉及人工智能领域，提供一种基于知识图谱的语音交互方法、装置、设备及介质，所述方法包括：接收到通话用户的包含用户信息和第一语音信息的第一语音对话信息；确定用户标识码，并获取用户样音信息；对通话用户进行身份验证得到验证结果；在验证结果为验证通过时，获取用户知识图谱，并获取与预设的图谱节点对应的三元组信息；通过个性化语音推荐模型进行个性化识别得到个性化推荐结果；同时通过智能交互模型进行交互预测处理得到第一回复文本；通过第一语音合成模型进行语音合成处理得到第一播报语音并播报。本发明实现了个性化交互，提高了交互通话的准确性和可靠性，本发明还涉及区块链技术，本发明中的用户知识图谱可存储于区块链中。

Description

基于知识图谱的语音交互方法、装置、设备及介质

技术领域

本发明涉及人工智能的语音处理领域，尤其涉及一种基于知识图谱的语音交互方法、装置、设备及介质。

背景技术

近年来，随着智能时代的加快到来，智能客服的应用场景也越来越广泛，例如：注册平台的语音客户在线，移动电话的客户服务等等，在现有技术中，智能客服与通话用户进行对话时都是一种口吻，一种音调，一种风格，以及在与智能客服的对话过程中无法有效的解决用户情绪问题，冷冰冰的智能客服也让消费者感觉不真诚，从而导致通话用户的体验参差不齐，并且对于通话用户的疑问只能在设定好的选项中寻找答案，造成“答非所问”的现象，因此，在现有的技术方案中，智能客服的交互通话准确率低，通话用户的体验满意度差。

发明内容

本发明提供一种基于知识图谱的语音交互方法、装置、计算机设备及存储介质，实现了通过基于知识图谱的多维度识别通话用户的个性化特征，并与通话用户进行个性化交互，提高了交互通话的准确性和可靠性，并提升了通话用户的满意度。

一种基于知识图谱的语音交互方法，包括：

接收到通话用户的第一语音对话信息；所述第一语音对话信息包括通话用户的用户信息和第一语音信息；

根据所述用户信息，确定所述通话用户的用户标识码，并获取与所述用户标识码关联的用户样音信息；

通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果；

在所述验证结果为验证通过时，获取与所述用户标识码关联的用户知识图谱，并从所述用户知识图谱中获取与预设的图谱节点对应的三元组信息；

将获取的所有所述三元组信息输入个性化语音推荐模型中，通过所述个性化语音推荐模型进行个性化识别，得到所述通话用户的个性化推荐结果；同时将所述第一语音信息输入智能交互模型，通过所述智能交互模型对所述第一语音信息进行交互预测处理，得到针对所述第一语音信息的第一回复文本；

将所述个性化推荐结果和所述第一回复文本输入第一语音合成模型中，通过所述第一语音合成模型进行语音合成处理，得到与所述第一回复文本对应的第一播报语音，并向所述通话用户播报所述第一播报语音。

一种基于知识图谱的语音交互装置，包括：

接收模块，用于接收到通话用户的第一语音对话信息；所述第一语音对话信息包括通话用户的用户信息和第一语音信息；

获取模块，用于根据所述用户信息，确定所述通话用户的用户标识码，并获取与所述用户标识码关联的用户样音信息；

验证模块，用于通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果；

通过模块，用于在所述验证结果为验证通过时，获取与所述用户标识码关联的用户知识图谱，并从所述用户知识图谱中获取与预设的图谱节点对应的三元组信息；

推荐模块，用于将获取的所有所述三元组信息输入个性化语音推荐模型中，通过所述个性化语音推荐模型进行个性化识别，得到所述通话用户的个性化推荐结果；同时将所述第一语音信息输入智能交互模型，通过所述智能交互模型对所述第一语音信息进行交互预测处理，得到针对所述第一语音信息的第一回复文本；

播报模块，用于将所述个性化推荐结果和所述第一回复文本输入第一语音合成模型中，通过所述第一语音合成模型进行语音合成处理，得到与所述第一回复文本对应的第一播报语音，并向所述通话用户播报所述第一播报语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于知识图谱的语音交互方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于知识图谱的语音交互方法的步骤。

本发明提供的基于知识图谱的语音交互方法、装置、计算机设备及存储介质，通过获取通话用户的含有用户信息和第一语音信息的第一语音对话信息；根据所述用户信息，确定所述通话用户的用户标识码，并获取与所述用户标识码关联的用户样音信息；通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果；在所述验证结果为验证通过时，获取与所述用户标识码关联的用户知识图谱，并从所述用户知识图谱中获取与预设的图谱节点对应的三元组信息；将获取的所有所述三元组信息输入个性化语音推荐模型中，通过所述个性化语音推荐模型进行个性化识别，得到所述通话用户的个性化推荐结果；同时将所述第一语音信息输入智能交互模型，通过所述智能交互模型对所述第一语音信息进行交互预测处理，得到针对所述第一语音信息的第一回复文本；将所述个性化推荐结果和所述第一回复文本输入第一语音合成模型中，通过所述第一语音合成模型进行语音合成处理，得到与所述第一回复文本对应的第一播报语音，并向所述通话用户播报所述第一播报语音。

本发明实现了通过接收到通话用户的第一语音对话信息，对通话用户进行身份验证，在验证通过后，获取与通话用户关联的知识图谱，获取个性化语音推荐模型根据知识图谱中的三元组信息输出的个性化推荐结果，同时获取智能交互模型对第一语音信息进行交互预测处理输出的第一回复文本，再通过第一语音合成模型将所述个性化推荐结果和所述第一回复文本进行语音合成处理得到第一播报语音，从而向通话用户播报最佳的第一播报语音，如此，通过对通话用户进行身份验证，能够准确地获取通话用户的知识图谱，并基于知识图谱自动识别出个性化语音推荐结果，以及通过智能交互模型得到更加符合通话用户的通话内容的回复内容，最后通过第一语音合成模型将个性化语音推荐结果融入回复内容中并播报给通话用户，如此，实现了通过基于知识图谱的多维度识别通话用户的个性化特征，并与通话用户进行个性化交互，提高了交互通话的准确性和可靠性，并提升了通话用户的满意度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于知识图谱的语音交互方法的应用环境示意图；

图2是本发明一实施例中基于知识图谱的语音交互方法的流程图；

图3是本发明一实施例中基于知识图谱的语音交互方法的步骤S60的流程图；

图4是本发明一实施例中基于知识图谱的语音交互方法的步骤S30的流程图；

图5是本发明一实施例中基于知识图谱的语音交互方法的步骤S302的流程图；

图6是本发明另一实施例中基于知识图谱的语音交互方法的步骤S30的流程图；

图7是本发明一实施例中基于知识图谱的语音交互方法的步骤S308的流程图；

图8是本发明一实施例中基于知识图谱的语音交互方法的步骤S40的流程图；

图9是本发明一实施例中基于知识图谱的语音交互装置的原理框图；

图10是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于知识图谱的语音交互方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于知识图谱的语音交互方法，其技术方案主要包括以下步骤S10-S60：

S10，接收到通话用户的第一语音对话信息；所述第一语音对话信息包括通话用户的用户信息和第一语音信息。

可理解地，所述通话用户为需要进行身份验证的且通话中的用户，所述第一语音对话信息为所述通话用户开始交互对话的第一次对话的语音文件，接收所述第一语音对话信息的方式可以根据需求设定，比如可以通过录音的方式，截取识别出的第一次对话的语音文件等，所述用户信息为与所述通话用户相关的信息，比如所述通话用户的身份证号、手机号等等。

S20，根据所述用户信息，确定所述通话用户的用户标识码，并获取与所述用户标识码关联的用户样音信息。

可理解地，所述用户标识码为标识所述通话用户的唯一码，所述用户标识码可以根据需求进行设定，所述用户样音信息为所述通话用户根据样音内容录制并已经被提取声纹特征之后获得的声纹特征数据，所述用户样音信息与所述用户标识码关联。

S30，通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果。

可理解地，所述身份验证的方式为通过声纹验证的方式对身份进行验证，所述声纹验证的方式可以根据需求设定，作为优选所述声纹验证的方式为首先，通过声纹识别模型提取通话用户对话中的第一语音信息的声纹特征，并根据该声纹特征进行识别得到声纹识别结果，其次，将所述声纹识别结果与所述用户样音信息进行对比，根据所述声纹识别结果与所述用户样音信息之间相互匹配的占比，确定出置信度值，最后，根据置信度值确定出所述验证结果包括验证通过和验证失败，所述验证结果表征了所述通话用户在本次对话中的身份验证中是否通过的结果。

在一实施例中，如图4所示，所述步骤S30中，即所述通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果，包括：

S301，将所述第一语音信息和所述用户样音信息输入声纹识别模型中。

可理解地，将所述第一语音信息和所述用户样音信息输入所述声纹识别模型中，所述声纹识别模型为训练完成的神经网络模型，所述声纹识别模型的网络结构可以根据需求设定，比如所述声纹识别模型的网络结构可以为GMM(高斯)模型的网络结构、UBM(通用背景)模型的网络结构、GMM-UBM(混合高斯-通用背景模型)的网络结构、DNN(深度神经网络)的网络结构等等。S302，通过所述声纹识别模型提取所述第一语音信息中的声纹特征，获取所述声纹识别模型根据所述声纹特征和所述用户样音信息输出的声纹匹配结果；所述声纹匹配结果包括所述第一语音信息与所述用户样音信息匹配的置信度值。

可理解地，所述声纹识别模型根据提取出所述第一语音信息中的所述声纹特征输出声纹识别结果，所述声纹特征为与声音的声波频谱相关的特征，所述声纹特征包括音质、音长、音强、音高等，所述声纹识别模型将所述声纹识别结果与所述用户样音信息进行对比验证，得到对比验证后的所述置信度值，即所述声纹识别结果与所述用户样音信息之间相互匹配的占比，确定出所述置信度值，所述置信度值表明了所述识别结果匹配所述用户样音信息的概率值，再根据所述置信度值确定所述声纹匹配结果，所述声纹匹配结果表征了所述第一语音信息和所述用户样音信息之间的声纹匹配程度。

在一实施例中，如图5所示，所述步骤S302中，即所述通过所述声纹识别模型提取所述第一语音信息中的声纹特征，获取所述声纹识别模型根据所述声纹特征和所述用户样音信息输出的声纹匹配结果，包括：

S3021，获取所述声纹识别模型根据提取的所述声纹特征输出的声纹识别结果。

可理解地，所述声纹识别模型的提取过程包括对所述第一语音信息进行预处理，根据所述声纹识别模型的网络结构，对预处理后的所述第一语音信息进行卷积，通过卷积提取预处理后的所述第一语音信息中的声纹特征，输出所述声纹特征对应的声纹特征向量，即为所述声纹识别结果，所述预处理可以根据需求设定，比如预处理包含有VAD，去噪，解混响等。

S3022，通过所述声纹识别模型将所述声纹识别结果与所述用户样音信息进行对比验证，得到对比验证后的所述置信度值。

可理解地，所述对比验证的匹配方法可以根据需求设定，比如对比验证的匹配方法可以为概率统计匹配法、矢量量化匹配法、VQ聚类匹配法等等，作为优选，所述对比验证的匹配方法为概率统计匹配法，通过所述对比验证的匹配方法，将所述声纹识别结果和所述用户样音信息进行对比验证，得到两者匹配程度的概率值，即为对比验证后的所述置信度值。

S3023，通过所述声纹识别模型根据所述置信度值确定所述声纹匹配结果，所述声纹匹配结果表征了所述第一语音信息和所述用户样音信息之间的声纹匹配程度。

可理解地，所述声纹识别模型根据所述置信度值确定出所述声纹匹配结果，所述声纹匹配结果包括所述置信度值和所述声纹识别结果，所述声纹匹配结果表征了所述第一语音信息和所述用户样音信息之间的声纹匹配程度，以及能够传递所述声纹识别结果，即传递提取到的所述第一语音信息的声纹特征。

本发明实现了通过声纹识别模型提取声纹特征，与用户样音信息进行对比验证，得到声纹匹配结果，提升了声纹识别的准确性。

S303，若所述置信度值大于或等于预设阈值，确认所述验证结果为验证通过，验证通过的所述验证结果表明所述通话用户通过身份验证。

可理解地，如果所述置信度值大于或者等于所述预设阈值，就将所述验证结果确认为验证通过，说明所述通话用户通过身份验证，所述预设阈值可以根据需求设定，比如所述预设阈值设为95％、96％、97％等等。

S304，若所述置信度值小于所述预设阈值，确认所述验证结果为验证失败，验证失败的所述验证结果表明所述通话用户未通过身份验证。

可理解地，如果所述置信度值小于所述预设阈值，就将所述验证结果确认为验证失败，说明所述通话用户在本次对话中未通过身份验证。

本发明实现了通过将所述第一语音信息和所述用户样音信息输入声纹识别模型中；通过所述声纹识别模型提取所述第一语音信息中的声纹特征，获取所述声纹识别模型根据所述声纹特征和所述用户样音信息输出的声纹匹配结果；通过判断声纹匹配结果中的置信度值是否大于或等于预设阈值，确认所述验证结果为验证通过还是验证失败，如此，实现了自动提取第一语音信息的声纹特征，识别出是否与用户样音信息匹配，并根据预设阈值，确定身份验证结果，提高了识别的准确性和可靠性。

在一实施例中，如图6所示，所述步骤S30之后，即所述通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果之后，还包括：

S305，在所述验证结果为验证失败时，通过播报预设的再次验证语音提示所述通话用户进行再次验证。

可理解地，如果所述验证结果为验证失败时，通过播报所述再次验证语音，以提示所述通话用户进入再次验证的流程，所述再次验证语音为预设的语音用于对通话用户进行再次验证的语音，比如再次验证语音可以为“验证失败，请说出用户身份证号？”等等。

S306，接收到所述通话用户针对所述再次验证语音回复的再次验证对话信息，获取所述再次验证对话信息中的再次验证语音信息。

可理解地，接收到所述通话用户针对所述再次验证语音进行回复的所述再次验证对话信息之后，获取所述再次验证语音信息，所述再次验证对话信息包含有所述再次验证对话信息，所述再次验证对话信息为所述通话用户听完所述再次验证语音之后做出的回复信息，其中，所述再次验证对话信息还可以包括用户信息，以判断所述用户信息是否有变更，所述再次验证语音信息为所述通话用户回复所述再次验证语音而录音的语音文件。

S307，通过语音转换模型对所述再次验证语音信息进行语音文本转换，得到再次验证文本。

可理解地，所述语音转换模型为训练完成的神经网络模型，所述语音转换模型通过语音识别技术实现了将所述再次验证语音信息转换成与所述再次验证语音信息中的内容对应的文本，所述语音识别技术(ASR，Automatic Speech Recognition)是以语音为研究对象，通过语音信号处理和模式自动识别出语音中的文字，所述语音文本转换的过程为所述语音转换模型对所述再次验证语音信息进行预处理(VAD，即首尾端的静音切除)及声音分帧，将声音分帧后的每一帧进行特征提取，提取出每一帧的包含声音信息的特征向量，在将每一特征向量进行声学模型的转换，转成与其对应的音素向量，通过字典库中查找每一个音素向量对应的中文或者英文，再通过语音模型识别出字与字之间或者词语与词语之间的相互关联的概率，最后得出最高概率的文本，即所述再次验证文本为通过将所述再次验证语音信息输入所述语音转换模型后进行语音文本转换而输出。

S308，根据所述再次验证文本，判断身份验证是否通过。

可理解地，通过所述再次验证语音和所述用户信息，确定出与所述再次验证语音对应的验证基准，如果所述再次验证文本与所述验证基准相符合，则确定身份验证通过，如果所述再次验证文本与所述验证基准不想符合，则确定身份验证不通过。

在一实施例中，如图7所示，所述步骤S308之后，即所述判断身份验证是否通过之后，还包括：

S3081，若身份验证不通过，将所述第一语音信息与所述再次验证语音信息合并成待确认语音信息。

可理解地，如果身份验证不通过，就将所述第一语音信息与所述再次验证语音信息进行合并，所述合并的方式可以为直接将所述第一语音信息与所述再次验证语音信息进行头尾拼接，也可以为去除所述第一语音信息和所述再次验证语音信息的头尾静音后拼接(仅保留含有有效音频的信息)，将合并后的语音文件确定为所述待确认语音信息。

S3082，将所述待确认语音信息输入推荐识别模型，通过所述推荐识别模型对所述待确认语音信息进行人群识别，得到待确认语音推荐结果；同时将所述第一语音信息输入待确认语音交互模型，通过所述待确认交互模型得到待确认语音回复文本。

可理解地，所述推荐识别模型为训练完成的神经网络模型，所述推荐识别模型实现了对输入的语音文件进行人群识别，识别出与其相对应的推荐结果，所述人群识别为提取输入的语音文件中人群特征，所述人群特征为通过聚类方式得出的一类人群的语音文件中的共性特征，通过所述推荐识别模型识别出所述待确认语音信息属于哪一人群类别，根据该人群类别对应的推荐结果确定为所述待确认语音推荐结果，其中，每一人群类别对应一种推荐结果。

其中，所述待确认语音交互模型为训练完成的深度神经网络模型，通过所述待确认语音交互模型对所述第一语音信息进行语音文本转换得到中文文本，识别出与该中文文本对应的回复文本，将该回复文本确定为所述待确认语音回复文本。

S3083，将所述待确认语音推荐结果和所述待确认语音回复文本输入待确认语音合成模型中，通过所述待确认语音合成模型进行语音合成处理，得到与所述待确认语音回复文本对应的待确认播报语音，并向所述通话用户播报所述待确认播报语音。

可理解地，所述待确认语音合成模型可以通过语音合成技术，对所述待确认语音推荐结果和所述待确认语音回复文本进行语音合成处理，从而得出所述待确认播报语音，并向所述通话用户播报所述待确认播报语音，所述语音合成技术简称为TTS，指将文本文件进行实时转换成真人普通话的音频文件的技术，所述语音合成技术的处理过程可以根据需求设定，作为优选，所述语音合成技术可以为对输入的所述待确认问题进行文本分析，运用深度双向长短时记忆网络考虑语义、句法、词性等信息，再经过声码器得到所述认证问题语音，所述深度双向长短时记忆网络缩写为Bi-LSTM，所述声码器为语音信号编译码器能够对输入的信息进行编码成声音。

本发明实现了如果身份验证不通过，就将所述第一语音信息与所述再次验证语音信息合并成待确认语音信息；将所述待确认语音信息输入推荐识别模型，对所述待确认语音信息进行人群识别，得到待确认语音推荐结果；同时将所述第一语音信息输入待确认语音交互模型，获取待确认语音交互模型输出的待确认语音回复文本；将所述待确认语音推荐结果和所述待确认语音回复文本输入待确认语音合成模型中，通过所述待确认语音合成模型进行语音合成处理，得到待确认播报语音，并向所述通话用户播报所述待确认播报语音，如此，在身份验证不通过的情况下，能够根据第一语音信息和再次验证语音信息自动识别出待确认语音推荐结果，同时根据第一语音信息确定给出待确认语音回复文本，通过待确认语音合成模型进行语音合成处理得到待确认播报语音，能够在身份验证不通过的情况下自行识别出通话用户属于哪类人群，并向通话用户播报符合该人群的推荐语音，提高了用户满意度，以及能够稳定通话用户的情绪，提高了交互通话的准确性。

S309，若身份验证通过，将所述验证结果更新为验证通过。

可理解地，如果身份验证通过，则将之前为验证失败的所述验证结果更新为验证通过。

本发明实现了通过在所述验证结果为验证失败时，通过播报预设的再次验证语音提示所述通话用户进行再次验证；接收到所述通话用户针对所述再次验证语音回复的再次验证对话信息，获取所述再次验证对话信息中的再次验证语音信息；通过语音转换模型对所述再次验证语音信息进行语音文本转换，得到再次验证文本；根据所述再次验证文本，判断身份验证是否通过；若身份验证通过，将所述验证结果更新为验证通过，如此，在验证失败的情况下，通过播报预设的再次验证语音提示通话用户进行再次验证，并通过语音转换模型对回复的再次验证语音信息进行语音文本转换得到再次验证文本，根据再次验证文本最终判断身份是否通过，如果身份验证通过，将所述验证结果更新成验证通过，提供了再次验证的模式，避免身份验证的误判情况出现。

S40，在所述验证结果为验证通过时，获取与所述用户标识码关联的用户知识图谱，并从所述用户知识图谱中获取与预设的图谱节点对应的三元组信息。

可理解地，若所述验证结果为验证通过，则获取与所述用户标识码关联的用户知识图谱，所述用户知识图谱为将与所述用户标识码关联的用户数据进行知识融合及关系抽取出图谱节点，并将所有图谱节点按照三元组的方式构建出的与所述用户标识码关联的知识图谱，根据预设的图谱节点，从所述用户知识图谱中获取与该图谱节点关联的三元组信息，三元组信息为按照三元组方式组成对应的图谱节点的信息，例如：按“图谱节点-三元组信息”方式，职业-(张三，职业，程序员)，年龄-(张三，年龄，27)，喜好-(张三，喜好，日漫)等等，所述预设的图谱节点可以根据需求设定，比如所述预设的图谱节点可以为与用户的喜好相关的图谱节点。

在一实施例中，如图8所示，所述步骤S40之前，即所述在所述验证结果为验证通过时，获取与所述用户标识码关联的用户知识图谱之前，包括：

S401，获取与所述用户标识码关联的用户数据。

可理解地，所述用户数据包括与所述用户标识码关联的结构化数据和非结构化数据，所述结构化数据为能够用数据或统一的结构加以表示的信息，如数字、符号，所述结构化数据具有的、明确的关系使得数据运用起来十分方便，比如结构化数据包括：信用卡号码、日期、财务金额、电话号码、地址、产品名称等，所述非结构化数据是不符合任何预定义的模型，存储在非关系数据库中，所述非结构化数据可能是文本或非文本，也可能是人为的或机器生成的图像或视频等等。

S402，对所述用户数据中的结构化数据进行转换得到第一数据，同时对所述用户数据中的非结构化数据进行文本提取得到第二数据。

可理解地，所述结构化数据为获取服务器中的数据库中通过二维表结构来逻辑表达和实现的数据，主要通过关系型数据库进行存储和管理，通过将所述结构化数据按照预设的规则进行转换，获取实体、事件和相关属性等知识从而得到所述第一数据；所述非结构化数据为所述用户数据中除去所述结构化数据得到的数据，所述非结构化数据通常从所述用户标识码关联的访问网站的内容或者评论中及进行文本提取而获得，通过将所述非结构化数据进行文本提取得到所述第二数据，所述文本提取指从所述非结构化数据中进行实体知识抽取、事件抽取和属性抽取。

S403，通过对所有所述第一数据和所有所述第二数据进行知识融合及关系抽取，得到图谱节点，按照三元组的方式构建出与该用户标识码关联且包含所述图谱节点的用户知识图谱，并将所述用户知识图谱存储在区块链中。

可理解地，所述知识融合为将来自不同知识库中的同一实体融合在一起，即将所有所述第一数据和所有所述第二数据中相同的实体进行融合在一起，也可以说叠加在一起，所述关系抽取为通过自然语言文本抽取出特定的事件或事实信息，根据事件或事实信息将两个实体之间进行连接，建立两个实体间的关系，三元组的方式为知识图谱中的RDF(Resource Description Framework，资源描述框架)，比如(张三，身高，185)，(张三，职业，老师)，并将所述用户知识图谱存储在区块链中。

需要强调的是，为进一步保证上述用户知识图谱的私密和安全性，上述用户知识图谱还可以存储于区块链的节点中。

其中，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。区块链提供的去中心化的完全分布式DNS服务通过网络中各个节点之间的点对点数据传输服务就能实现域名的查询和解析，可用于确保某个重要的基础设施的操作系统和固件没有被篡改，可以监控软件的状态和完整性，发现不良的篡改，并确保所传输的数据没用经过篡改，将所述用户知识图谱存储在区块链中，能够确保用户知识图谱的私密和安全性。

本发明通过构建通话用户的用户知识图谱，以供提取出与通话用户重要、频次多的相关信息，能够为后续的识别增强准确性。

S50，将获取的所有所述三元组信息输入个性化语音推荐模型中，通过所述个性化语音推荐模型进行个性化识别，得到所述通话用户的个性化推荐结果；同时将所述第一语音信息输入智能交互模型，通过所述智能交互模型对所述第一语音信息进行交互预测处理，得到针对所述第一语音信息的第一回复文本。

可理解地，所述个性化语音推荐模型为训练完成的多分支深度神经网络模型，所述个性化语音推荐模型实现了根据输入的所有所述三元组信息进行个性化识别后，输出个性化推荐结果，所述个性化识别为通过提取输入的所有三元组信息的方言特征识别出喜好方言，和通过提取输入的所有三元组信息的喜好声音特征识别出喜好合成音类型，以及通过提取输入的所有三元组信息的语速特征识别出喜好语速；所述个性化推荐结果包括喜好方言信息、喜好合成音类型信息和喜好语速信息。

其中，所述智能交互模型为训练完成的多分支深度神经网络模型，所述智能交互模型实现了通过将所述第一语音信息转换成文本信息得到第一语音文本，以及对所述第一语音信息进行交互预测处理，得到所述第一回复文本，其中，所述交互预测处理为提取所述第一语音信息的语速特征和语调特征，根据所述第一语音文本和提取的所述语速特征及所述语调特征，识别出预测概率最高的所述第一回复文本，如此，能够更加精准地对通话用户的通话内容做出更加符合通话用户的回答。

S60，将所述个性化推荐结果和所述第一回复文本输入第一语音合成模型中，通过所述第一语音合成模型进行语音合成处理，得到与所述第一回复文本对应的第一播报语音，并向所述通话用户播报所述第一播报语音。

可理解地，所述第一语音合成模型通过语音合成技术，对所述个性化推荐结果和所述第一回复文本进行语音合成处理，从而得出所述第一播报语音，所述语音合成技术简称为TTS，指将文本文件进行实时转换成真人普通话的音频文件的技术，所述语音合成技术的处理过程可以根据需求设定，作为优选，所述语音合成技术可以为对输入的所述待确认问题进行文本分析，运用深度双向长短时记忆网络考虑语义、句法、词性等信息，再经过声码器得到所述认证问题语音，所述深度双向长短时记忆网络缩写为Bi-LSTM，所述声码器为语音信号编译码器能够对输入的信息进行编码成声音，所述第一播报语音为针对所述第一语音信息进行回复的语音文件，如此，通过将个性化推荐融入第一播报语音中，能够让通话用户更加容易接受第一回复文本，提高了用户满意度，以及能够稳定通话用户的情绪，提高了交互通话的准确性。

本发明实现了通过接收到通话用户的第一语音对话信息，对通话用户进行身份验证，在验证通过后，获取与通话用户关联的知识图谱，获取个性化语音推荐模型根据知识图谱中的三元组信息输出的个性化推荐结果，同时获取智能交互模型对第一语音信息进行交互预测处理输出的第一回复文本，再通过第一语音合成模型将个性化推荐结果和第一回复文本进行语音合成处理得到第一播报语音，从而向通话用户播报最佳的第一播报语音，如此，通过对通话用户进行身份验证，能够准确地获取通话用户的知识图谱，并基于知识图谱自动识别出个性化语音推荐结果，以及通过智能交互模型得到更加符合通话用户的通话内容的回复内容，最后通过第一语音合成模型将个性化语音推荐结果融入回复内容中并播报给通话用户，如此，实现了通过基于知识图谱的多维度识别通话用户的个性化特征，并与通话用户进行个性化交互，提高了交互通话的准确性和可靠性，并提升了通话用户的满意度。

在一实施例中，如图3所示，所述步骤S60之后，即所述向所述通话用户播报所述第一播报语音之后，包括：

S70，接收到所述通话用户针对所述第一播报语音回复的第二语音对话信息，获取所述第二语音对话信息中的第二语音信息。

可理解地，接收到所述通话用户针对所述第一播报语音进行回复的所述第二语音对话信息之后，获取所述第二语音信息，所述第二语音对话信息包含有所述第二语音信息，所述第二语音对话信息为所述通话用户听完所述第一播报语音之后做出的回复信息，所述第二语音信息为所述通话用户回复所述第一播报语音而录音的语音文件。S80，将所述第一语音信息和所述第二语音信息输入用户情绪识别模型中，通过所述用户情绪识别模型对所述通话用户的情绪波动进行识别，得到识别结果。

可理解地，通过对所述第一语音信息和所述第二语音信息的情感特征进行提取，所述情感特征为衡量用户情感的特征，并对提取后的所述第一语音信息的情感特征与提取后的所述第二语音信息的情感特征进行比对，通过比对后的结果识别出情绪波动，得到识别结果，所述识别结果表征了通话用户在第一语音对话信息至第二语音对话信息过程中的情绪波动，即识别出通话用户在听了所述第一播报语音之后的情绪波动情况。

S90，将所述个性化推荐结果、所述识别结果和所述第二语音信息输入动态语音推荐模型中，通过所述动态语音推荐模型进行动态交互调整处理，得到动态推荐信息和针对所述第二语音信息的第二回复文本。

可理解地，将所述个性化推荐结果、所述识别结果和所述第二语音信息输入至所述动态语音推荐模型中，所述动态语音推荐模型为训练完成的深度神经网络模型，所述动态语音推荐模型实现了对输入的个性化推荐结果、识别结果和第二语音信息进行动态交互调整处理，最后识别出动态推荐信息和第二回复文本，所述动态交互调整处理为根据所述识别结果动态调整所述个性化推荐结果中的维度，并结合所述第二语音信息进行动态预测，得到稳定情绪并向更好的情绪进行波动的且符合通话用户做出回答的回复文本，所述动态推荐信息为根据所述识别结果对所述个性化推荐结果进行动态调整的输出结果，所述第二回复文本为针对所述第二语音信息的稳定情绪并向更好的情绪进行波动的回复文本。

S100，将所述动态推荐信息和针对所述第二回复文本输入第二语音合成模型中，通过所述第二语音合成模型进行语音合成处理，得到与所述第二回复文本对应的第二播报语音，并向所述通话用户播报所述第二播报语音。

可理解地，所述第二语音合成模型通过语音合成技术，对所述动态推荐信息和所述第二回复文本进行语音合成处理，从而得出所述第二播报语音，所述第二播报语音为针对所述第二语音信息进行回复的语音文件，如此，通过动态调整推荐语音融入第二播报语音中，能够让通话用户更加容易接受第二回复文本，提高了用户满意度，以及能够稳定及改善通话用户的情绪，提高了交互通话的准确性。

本发明通过向所述通话用户播报所述第一播报语音之后接收到所述通话用户针对所述第一播报语音回复的第二语音对话信息，获取所述第二语音对话信息中的第二语音信息；将所述第一语音信息和所述第二语音信息输入用户情绪识别模型中，通过所述用户情绪识别模型对所述通话用户的情绪波动进行识别，得到识别结果；将所述个性化推荐结果、所述识别结果和第二语音信息输入动态语音推荐模型中，通过所述动态语音推荐模型进行动态交互调整处理，得到动态推荐信息和针对所述第二语音信息的第二回复文本；将所述动态推荐信息和针对所述第二回复文本输入第二语音合成模型中，通过所述第二语音合成模型进行语音合成处理，得到与所述第二回复文本对应的第二播报语音，并向所述通话用户播报所述第二播报语音，如此，实现了通过用户情绪识别模型对第一语音信息和第二语音信息进行识别，识别出通话用户的情绪波动，并通过动态语音推荐模型进行动态交互调整处理，得到第二回复文本。最后通过语音合成得到第二播报语音，因此，根据历史对话识别出情绪波动，并自动进行动态调整个性化推荐，最后动态地做出向更加符合通话用户接收的回答，能够稳定及改善通话用户的情绪，提高了交互通话的准确性和可靠性，并提升了通话用户的满意度。

在一实施例中，提供一种基于知识图谱的语音交互装置，该基于知识图谱的语音交互装置与上述实施例中基于知识图谱的语音交互方法一一对应。如图9所示，该基于知识图谱的语音交互装置包括接收模块11、获取模块12、验证模块13、通过模块14、推荐模块15和播报模块16。各功能模块详细说明如下：

接收模块11，用于接收到通话用户的第一语音对话信息；所述第一语音对话信息包括通话用户的用户信息和第一语音信息；

获取模块12，用于根据所述用户信息，确定所述通话用户的用户标识码，并获取与所述用户标识码关联的用户样音信息；

验证模块13，用于通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果；

通过模块14，用于在所述验证结果为验证通过时，获取与所述用户标识码关联的用户知识图谱，并从所述用户知识图谱中获取与预设的图谱节点对应的三元组信息；

推荐模块15，用于将获取的所有所述三元组信息输入个性化语音推荐模型中，通过所述个性化语音推荐模型进行个性化识别，得到所述通话用户的个性化推荐结果；同时将所述第一语音信息输入智能交互模型，通过所述智能交互模型对所述第一语音信息进行交互预测处理，得到针对所述第一语音信息的第一回复文本；

播报模块16，用于将所述个性化推荐结果和所述第一回复文本输入第一语音合成模型中，通过所述第一语音合成模型进行语音合成处理，得到与所述第一回复文本对应的第一播报语音，并向所述通话用户播报所述第一播报语音。

在一实施例中，所述播报模块16包括：

接收单元，用于接收到所述通话用户针对所述第一播报语音回复的第二语音对话信息，获取所述第二语音对话信息中的第二语音信息；

识别单元，用于将所述第一语音信息和所述第二语音信息输入用户情绪识别模型中，通过所述用户情绪识别模型对所述通话用户的情绪波动进行识别，得到识别结果；

调整单元，用于将所述个性化推荐结果、所述识别结果和所述第二语音信息输入动态语音推荐模型中，通过所述动态语音推荐模型进行动态交互调整处理，得到动态推荐信息和针对所述第二语音信息的第二回复文本；

合成单元，用于将所述动态推荐信息和针对所述第二回复文本输入第二语音合成模型中，通过所述第二语音合成模型进行语音合成处理，得到与所述第二回复文本对应的第二播报语音，并向所述通话用户播报所述第二播报语音。

在一实施例中，所述验证模块13包括：

输入单元，用于将所述第一语音信息和所述用户样音信息输入声纹识别模型中；

提取单元，用于通过所述声纹识别模型提取所述第一语音信息中的声纹特征，获取所述声纹识别模型根据所述声纹特征和所述用户样音信息输出的声纹匹配结果；所述声纹匹配结果包括所述第一语音信息与所述用户样音信息匹配的置信度值；

通过单元，用于若所述置信度值大于或等于预设阈值，确认所述验证结果为验证通过，验证通过的所述验证结果表明所述通话用户通过身份验证；

失败单元，用于若所述置信度值小于所述预设阈值，确认所述验证结果为验证失败，验证失败的所述验证结果表明所述通话用户未通过身份验证。

在一实施例中，所述提取单元包括：

获取子单元，用于获取所述声纹识别模型根据提取的所述声纹特征输出的声纹识别结果；

比对子单元，用于通过所述声纹识别模型将所述声纹识别结果与所述用户样音信息进行对比验证，得到对比验证后的所述置信度值；

确定子单元，用于通过所述声纹识别模型根据所述置信度值确定所述声纹匹配结果，所述声纹匹配结果表征了所述第一语音信息和所述用户样音信息之间的声纹匹配程度。

在一实施例中，所述验证模块13还包括：

再次验证单元，用于在所述验证结果为验证失败时，通过播报预设的再次验证语音提示所述通话用户进行再次验证；

第一获取单元，用于接收到所述通话用户针对所述再次验证语音回复的再次验证对话信息，获取所述再次验证对话信息中的再次验证语音信息；

第一转换单元，用于通过语音转换模型对所述再次验证语音信息进行语音文本转换，得到再次验证文本；

判断单元，用于根据所述再次验证文本，判断身份验证是否通过；

更新单元，用于若身份验证通过，将所述验证结果更新为验证通过。

在一实施例中，所述判断单元包括：

合并子单元，用于若身份验证不通过，将所述第一语音信息与所述再次验证语音信息合并成待确认语音信息；

输入子单元，用于将所述待确认语音信息输入推荐识别模型，通过所述推荐识别模型对所述待确认语音信息进行人群识别，得到待确认语音推荐结果；同时将所述第一语音信息输入待确认语音交互模型，通过所述待确认交互模型得到待确认语音回复文本；

输出子单元，用于将所述待确认语音推荐结果和所述待确认语音回复文本输入待确认语音合成模型中，通过所述待确认语音合成模型进行语音合成处理，得到与所述待确认语音回复文本对应的待确认播报语音，并向所述通话用户播报所述待确认播报语音。

在一实施例中，所述通过模块14包括：

第二获取单元，用于获取与所述用户标识码关联的用户数据；

第二转换单元，用于对所述用户数据中的结构化数据进行转换得到第一数据，同时对所述用户数据中的非结构化数据进行文本提取得到第二数据；

抽取单元，用于通过对所有所述第一数据和所有所述第二数据进行知识融合及关系抽取，得到图谱节点，按照三元组的方式构建出与该用户标识码关联且包含所述图谱节点的用户知识图谱，并将所述用户知识图谱存储在区块链中。

关于基于知识图谱的语音交互装置的具体限定可以参见上文中对于基于知识图谱的语音交互方法的限定，在此不再赘述。上述基于知识图谱的语音交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的语音交互方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于知识图谱的语音交互方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于知识图谱的语音交互方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的语音交互方法，其特征在于，包括：

2.如权利要求1所述的基于知识图谱的语音交互方法，其特征在于，所述向所述通话用户播报所述第一播报语音之后，包括：

接收到所述通话用户针对所述第一播报语音回复的第二语音对话信息，获取所述第二语音对话信息中的第二语音信息；

将所述第一语音信息和所述第二语音信息输入用户情绪识别模型中，通过所述用户情绪识别模型对所述通话用户的情绪波动进行识别，得到识别结果；

将所述个性化推荐结果、所述识别结果和所述第二语音信息输入动态语音推荐模型中，通过所述动态语音推荐模型进行动态交互调整处理，得到动态推荐信息和针对所述第二语音信息的第二回复文本；

将所述动态推荐信息和针对所述第二回复文本输入第二语音合成模型中，通过所述第二语音合成模型进行语音合成处理，得到与所述第二回复文本对应的第二播报语音，并向所述通话用户播报所述第二播报语音。

3.如权利要求1所述的基于知识图谱的语音交互方法，其特征在于，所述通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果，包括：

将所述第一语音信息和所述用户样音信息输入声纹识别模型中；

通过所述声纹识别模型提取所述第一语音信息中的声纹特征，获取所述声纹识别模型根据所述声纹特征和所述用户样音信息输出的声纹匹配结果；所述声纹匹配结果包括所述第一语音信息与所述用户样音信息匹配的置信度值；

若所述置信度值大于或等于预设阈值，确认所述验证结果为验证通过，验证通过的所述验证结果表明所述通话用户通过身份验证；

若所述置信度值小于所述预设阈值，确认所述验证结果为验证失败，验证失败的所述验证结果表明所述通话用户未通过身份验证。

4.如权利要求3所述的基于知识图谱的语音交互方法，其特征在于，所述通过所述声纹识别模型提取所述第一语音信息中的声纹特征，获取所述声纹识别模型根据所述声纹特征和所述用户样音信息输出的声纹匹配结果，包括：

获取所述声纹识别模型根据提取的所述声纹特征输出的声纹识别结果；

通过所述声纹识别模型将所述声纹识别结果与所述用户样音信息进行对比验证，得到对比验证后的所述置信度值；

通过所述声纹识别模型根据所述置信度值确定所述声纹匹配结果，所述声纹匹配结果表征了所述第一语音信息和所述用户样音信息之间的声纹匹配程度。

5.如权利要求1所述的基于知识图谱的语音交互方法，其特征在于，所述通过所述第一语音信息和所述用户样音信息对所述通话用户进行身份验证，得到验证结果之后，还包括：

在所述验证结果为验证失败时，通过播报预设的再次验证语音提示所述通话用户进行再次验证；

接收到所述通话用户针对所述再次验证语音回复的再次验证对话信息，获取所述再次验证对话信息中的再次验证语音信息；

通过语音转换模型对所述再次验证语音信息进行语音文本转换，得到再次验证文本；

根据所述再次验证文本，判断身份验证是否通过；

若身份验证通过，将所述验证结果更新为验证通过。

6.如权利要求5所述的基于知识图谱的语音交互方法，其特征在于，所述判断身份验证是否通过之后，还包括：

若身份验证不通过，将所述第一语音信息与所述再次验证语音信息合并成待确认语音信息；

将所述待确认语音信息输入推荐识别模型，通过所述推荐识别模型对所述待确认语音信息进行人群识别，得到待确认语音推荐结果；同时将所述第一语音信息输入待确认语音交互模型，通过所述待确认语音交互模型得到待确认语音回复文本；

将所述待确认语音推荐结果和所述待确认语音回复文本输入待确认语音合成模型中，通过所述待确认语音合成模型进行语音合成处理，得到与所述待确认语音回复文本对应的待确认播报语音，并向所述通话用户播报所述待确认播报语音。

7.如权利要求4所述的基于知识图谱的语音交互方法，其特征在于，所述在所述验证结果为验证通过时，获取与所述用户标识码关联的用户知识图谱之前，包括：

获取与所述用户标识码关联的用户数据；

对所述用户数据中的结构化数据进行转换得到第一数据，同时对所述用户数据中的非结构化数据进行文本提取得到第二数据；

通过对所有所述第一数据和所有所述第二数据进行知识融合及关系抽取，得到图谱节点，按照三元组的方式构建出与该用户标识码关联且包含所述图谱节点的用户知识图谱，并将所述用户知识图谱存储在区块链中。

8.一种基于知识图谱的语音交互装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于知识图谱的语音交互方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于知识图谱的语音交互方法。