CN117409780B

CN117409780B - 一种应用于ai数字人语音交互方法及系统

Info

Publication number: CN117409780B
Application number: CN202311715465.0A
Authority: CN
Inventors: 张小飞; 周小明
Original assignee: Zhejiang Universe Singularity Technology Co ltd
Current assignee: Zhejiang Universe Singularity Technology Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-02-27
Anticipated expiration: 2043-12-14
Also published as: CN117409780A

Abstract

本发明公开了一种应用于AI数字人语音交互方法及系统，该方法包括：获取说话人的语音，并根据所述说话人的语音获得文本特征和语调特征；对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；将所述文本语调交互特征和所述语调文本交互特征输入注意力网络，得到注意力权重；根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类。本发明通过融合文本特征和语调特征，提高了AI数字人情感识别的准确性。

Description

一种应用于AI数字人语音交互方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种应用于AI数字人语音交互方法及系统。

背景技术

AI数字人语音交互是一种利用人工智能技术和语音交互技术，使虚拟数字人能够通过语音与用户进行交流和互动的技术。然而，目前的聊天机器人在感受使用者情绪方面还存在一些技术挑战。

当前，聊天机器人主要通过语音识别技术将用户的语音转换为文本，然后使用自然语言处理技术进行文本理解和生成回复。这种方式虽然能够实现语音与文本之间的转换，但无法直接感知到使用者的情绪状态。语音识别只能转录用户的语音内容，而无法准确捕捉到语音中的情感信息。

发明内容

为了解决上述提出的至少一个技术问题，本发明提供一种应用于AI数字人语音交互方法及系统。

第一方面，提供了一种应用于AI数字人语音交互方法，所述方法包括：

获取说话人的语音，并根据所述说话人的语音获得文本特征和语调特征；

对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；

将所述文本语调交互特征和所述语调文本交互特征输入注意力网络，得到注意力权重；

根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类。

优选地，在所述获取说话人的语音之后，还包括对所述说话人的语音进行补全，具体包括：

根据说话人的语音的边缘分布概率、联合分布概率/>和Bayes表达式，得到语音Bayes表达式：

其中，为通道数，/>为第/>通道的观测值，/>为说话人的语音的边缘分布，S为说话人不同时段语音的集合，/>、/>为条件概率。

优选地，在所述并根据所述说话人的语音获得文本特征和语调特征之后，还包括提取所述文本特征和所述语调特征的上下文关系特征，具体包括：

对所述文本特征和所述语调特征分别进行前向GRU计算，得到第一文本计算数据和第一语调计算数据；

对所述文本特征和所述语调特征分别进行后向GRU计算，得到第二文本计算数据和第二语调计算数据；

拼接所述第一文本计算数据和所述第二文本计算数据，得具有上下文关系的文本特征，拼接所述第一语调计算数据和所述第二语调计算数据，得具有上下文关系的语调特征；

其过程表达式如下：

其中，为文本特征或语调特征，/>为第一文本计算数据或第一语调计算数据，为第二文本计算数据或第二语调计算数据，/>表示前向GRU计算，/>表示后向GRU计算，/>为拼接操作，/>为具有上下文关系的语调特征或文本特征。

优选地，所述对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征，包括：

对所述文本特征进行矩阵转置后与所述语调特征相乘，得到文本语调交互信息；

对所述文本语调交互信息进行归一化处理，得到文本语调交互注意力分数；

将所述文本特征与所述文本语调交互注意力分数相乘，相乘后的结果再与所述文本特征进行矩阵相乘，得到所述文本语调交互特征；

对所述语调特征进行矩阵转置后与所述文本特征相乘，得到语调文本交互信息；

对所述语调文本交互信息进行归一化处理，得到语调文本交互注意力分数；

将所述语调特征与所述语调文本交互注意力分数相乘，相乘后的结果再与所述语调特征进行矩阵相乘，得到所述语调文本交互特征；

其过程表达式如下：

其中，为文本特征，/>为语调特征，/>表示矩阵转置，/>表示文本语调交互信息，/>表示语调文本交互信息，/>表示归一化处理，/>表示文本语调交互注意力分数，/>表示语调文本交互注意力分数，/>表示文本语调交互特征，/>表示语调文本交互特征。

优选地，在所述得到所述语调文本交互特征之后，还包括：

使用全连接层将所述语调文本交互特征与所述语调特征对应连接；

使用全连接层将所述文本语调交互特征与所述文本特征对应连接；

其过程表达式如下：

其中，、/>、/>和/>为待学习参数，/>为拼接操作，/>和/>为全连接后的语调文本交互特征和文本语调交互特征。

优选地，所述根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，包括：

根据文本注意力权重和语调注意力权重，得到文本隐藏状态和语调隐藏状态；

对所述文本隐藏状态和所述语调隐藏状态分别进行归一化处理，得到文本权重向量和语调权重向量；

根据所述文本权重向量、所述语调权重向量、所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征；

其过程表达式如下：

其中，为文本注意力权重或语调注意力权重，/>为文本隐藏状态或语调隐藏状态，/>、/>分别为全连接层的权重和偏置，/>为文本权重向量或语调权重向量，/>为矩阵转置，/>为情感融合特征。

优选地，所述并根据所述情感融合特征得到所述说话人的语音的情感分类，其过程表达式如下：

其中，、/>为全连接层的权重和偏置，/>、/>为softmax层的权重和偏置，/>为所述说话人的语音的情感分类。

第二方面，提供了一种应用于AI数字人语音交互系统，所述系统包括：

数据获取单元，用于获取说话人的语音，并根据所述说话人的语音获得文本特征和语调特征；

第一数据处理单元，用于对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；

第二数据处理单元，用于将所述文本语调交互特征和所述语调文本交互特征输入注意力网络，得到注意力权重；

第三数据处理单元，用于根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类。

第三方面，提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如上任一项所述的应用于AI数字人语音交互方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行如上任一项所述的应用于AI数字人语音交互方法。

与现有技术相比，本发明的有益效果在于：

本发明公开了一种应用于AI数字人语音交互方法及系统，该方法包括获取说话人的语音，并根据所述说话人的语音获得文本特征和语调特征；对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；将所述文本语调交互特征和所述语调文本交互特征输入注意力网络，得到注意力权重；根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类。本发明通过融合文本特征和语调特征，提高了AI数字人情感识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本发明实施例提供的一种应用于AI数字人语音交互方法的流程示意图；

图2为本发明实施例提供的一种应用于AI数字人语音交互系统的结构示意图；

图3为本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

另外，为了更好地说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样能够实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

聊天机器人主要通过语音识别技术将用户的语音转换为文本，然后使用自然语言处理技术进行文本理解和生成回复，这种方式虽然能够实现语音与文本之间的转换，但无法直接感知到使用者的情绪状态。因此往往存在无法准确捕捉到语音中的情感信息的缺点。为此，本发明提供了一种应用于AI数字人语音交互方法，通过融合文本特征和语调特征，提高了AI数字人情感识别的准确性。

实施例1

提供了一种应用于AI数字人语音交互方法，参考图1，方法包括：

S100，获取说话人的语音，并根据说话人的语音获得文本特征和语调特征；

本实施例中，采用终端设备采集说话人的语音，通过声学模型通过分析说话人的语音信号的频谱、声调、音量等特征，将说话人的语音信号映射到文本，再通过语言模型根据语言的统计规律和语境信息，对声学模型输出的文本进行修正和优化，以得到更准确的文本信息。对优化后的识别文本进行文本特征和语调特征提取，文本特征可以包括词频、词性、情感词汇等信息，语调特征则主要包括声调、语速、音量等信息，其中，声调的高低、变化和强度等特征可以反映说话人的情感状态和语气，语速和音量的分析可以揭示说话人的语言节奏和表达方式。

S200，对文本特征和语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；

本实施例中，通过对文本特征和语调特征进行模态间的交互信息提取，可以得到基于文本的文本语调交互特征和基于语调的语调文本交互特征，这种交互特征提取可以更全面地捕捉文本和语调之间的关联和互动。

S300，将文本语调交互特征和语调文本交互特征输入注意力网络，得到注意力权重；

需要说明的是，人们在进行情感表达时，所采用的表达方式具有多样性，其中字面意思和语气语调是常见的两种。然而，不同的说话人在情感表达时，对于这两种表达方式的重要程度存在差异。有些人更善于利用语气助词来传达自己的情感状态，通过微妙的语气变化来体现自己的喜怒哀乐。而另一些人则更倾向于通过音调的高低来调整情感的表达，以此来更准确地传达自己的情感。通过对不同特征的权重进行计算，我们可以更准确地捕捉到说话人在情感表达中的真实意图和感受。

S400，根据注意力权重对文本语调交互特征和语调文本交互特征进行叠加融合，得到情感融合特征，并根据情感融合特征得到说话人的语音的情感分类。

注意力权重可以用来调整不同特征的贡献度，通过对文本语调交互特征和语调文本交互特征进行加权叠加融合，可以得到更加好的情感融合特征，举例来说，对于一句话“我没生气”，如果只考虑文字内容，我们可能会将其判断为“中性”或“平和”，而忽略了说话人话语中所蕴含的生气情绪。但是，如果我们充分考虑该话语所包含的语调和语音变化，比如“我没[生气]”中的“生气”这个词语被加重语气，我们可以更加准确地推断说话人真实的情感，此时文本语调交互特征的注意力权重较低，语调文本交互特征的注意力权重较高，使得叠加融合后的情感融合特征能够能加准确地推断说话人生气的情绪。

优选地，在获取说话人的语音之后，还包括对说话人的语音进行补全，具体包括：

其中，由实际观测得到，根据/>、/>和部分已知的先验数据，联合语音Bayes表达式，迭代得到精确的缺失语音数据/>以及补全数据后的说话人的语音/>。

本实施例中，Bayes估计可以通过结合语音信号的统计特性和信号先验分布来补全缺失部分。联合Bayes表达式结合了边缘分布和观测数据的信息，充分利用了语音信号中的统计特征，从而可以更准确地进行推断和估计。通过迭代求解，在每个迭代步骤中，我们可以利用当前已知的先验数据和部分观测数据来计算缺失部分的概率分布，并通过这个概率分布来预测缺失的语音信号。迭代过程能够通过逐步更新先验信息，逐渐提高对缺失语音数据的准确性。每一次迭代都可以通过先前的推断结果和新的观测数据来获得更精确的语音信号估计。通过不断迭代和更新，我们可以不断提高对缺失语音数据的预测能力，从而得到更准确的补全结果。总的来说，通过联合Bayes表达式和迭代方法，我们可以根据边缘分布和部分已知的先验数据，逐步精确地补全缺失的语音数据，并获得补全后的说话人的语音。可选地，建立一个大型的语音数据库，这个数据库包含各种可能的语音表达方式，包括完整的句子、短语和关键词等。这些语音样本被精细标注，以准确地使用Bayes公式来计算每个关键词或短语在语音中的概率。举例来说，当说话人发出未完全表达的语音时，使用语音Bayes表达式来计算每个关键词或短语出现的概率。然后，我们可以根据这些概率和已知的语音数据，来推断说话人未完全表达的语音内容。例如，语音A“今天没什么胃口，我（卡顿）想吃了”中，由于“卡顿”的存在，语音识别系统可能无法准确识别出说话人未表达的语音内容。使用语音Bayes表达式来计算未表达出的关键词或短语的概率，并采用了预先训练好的算法来推断出说话人未表达的语音内容，那么我们就可以准确地补全出说话人未表达的语音内容，例如“今天没什么胃口，我（不）想吃了”。

本实施例中，采用语音Bayes表达式对说话人语音进行补全，以解决语音识别中由于口音、发音不清、语速过快、设备录制卡顿等原因导致的不完整或不准确的识别问题。

优选地，并在根据说话人的语音获得文本特征和语调特征之后，还包括提取文本特征和语调特征的上下文关系特征，具体包括：

对文本特征和语调特征分别进行前向GRU计算，得到第一文本计算数据和第一语调计算数据；

对文本特征和语调特征分别进行后向GRU计算，得到第二文本计算数据和第二语调计算数据；

拼接第一文本计算数据和第二文本计算数据，得具有上下文关系的文本特征，拼接第一语调计算数据和第二语调计算数据，得具有上下文关系的语调特征；

其过程表达式如下：

本实施例中，通过对文本特征和语调特征分别应用前向GRU计算和后向GRU计算，以获得第一文本计算数据和第一语调计算数据，以及第二文本计算数据和第二语调计算数据。然后，将第一文本计算数据和第二文本计算数据进行拼接，以获取具有上下文关系的文本特征。同时，将第一语调计算数据和第二语调计算数据进行拼接，以获取具有上下文关系的语调特征。

拼接第一文本计算数据和第二文本计算数据可以将前向和后向计算的结果进行组合，从而获得具有上下文关系的文本特征。使文本特征能够更加全面地反映出上下文信息，从而提供更准确的语义理解和文本表达。拼接第一语调计算数据和第二语调计算数据可以整合前向和后向计算的结果，生成具有上下文关系的语调特征。这有助于确保语调特征在不同时间步的计算中保持一致性，从而提高对语调变化和语言表达方式的理解能力。

需要说明的是，对语调特征进行前向GRU计算，得到每个时间步长上的语调特征，这些语调特征只考虑前文的语音信息而忽略了后续语音的影响，前向GRU计算关注的是每个语音单位（如音节、音素等）在特定语音环境中的发音方式；对语调特征进行后向GRU计算，得到每个时间步长上的语调特征之间的顺序关系，关注的是每个语音中的音韵结构和发音规则，即一个语音单位如何影响或被其他语音单位影响；将前GRU计算结果和后向GRU计算结果进行拼接，得到具有上下文关系的语调特征。通过拼接处理使得语音单位的发音方式和音律结构信息相结合，从而得到更全面、更准确的语调特征。

对文本特征进行前向GRU计算，得到每个单词或短语的文本特征。例如，“你”表达了主体与听者的分离，“不要”表达了否定和劝阻，“再”表达了重复和加强，“说”表达了主张和观点，“了”表达了完成和确定。这些特征只考虑了前文的信息而忽略了后续文本的影响。对文本特征进行后向GRU计算，我们得到每个单词或短语之间的顺序关系。例如，“你不要再说了”与“我没生气！！！”之间的转折关系，“不要”与“再”之间的否定关系等。这些特征关注的是文本中的语法和句法结构。通过拼接处理使得文本特征上下文信息相结合，从而得到更全面、更准确的文本特征。

优选地，对文本特征和语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征，包括：

对文本特征进行矩阵转置后与语调特征相乘，得到文本语调交互信息；

对文本语调交互信息进行归一化处理，得到文本语调交互注意力分数；

将文本特征与文本语调交互注意力分数相乘，相乘后的结果再与文本特征进行矩阵相乘，得到文本语调交互特征；

对语调特征进行矩阵转置后与文本特征相乘，得到语调文本交互信息；

对语调文本交互信息进行归一化处理，得到语调文本交互注意力分数；

将语调特征与语调文本交互注意力分数相乘，相乘后的结果再与语调特征进行矩阵相乘，得到语调文本交互特征；

其过程表达式如下：

本实施例中，通过对文本特征和语调特征进行交互特征提取，可以更加全面地表达文本和语调之间的相互关系，得到的文本语调交互特征和语调文本交互特征能够更好地捕捉到语音信号中包含的信息，提高情感识别准确率。

优选地，在得到语调文本交互特征之后，还包括：

使用全连接层将语调文本交互特征与语调特征对应连接；

使用全连接层将文本语调交互特征与文本特征对应连接；

其过程表达式如下：

本实施例中，使用全连接层将语调文本交互特征与语调特征对应连接与使用全连接层将文本语调交互特征与文本特征对应连接，可以确保不同特征之间的信息可以在神经网络中快速交互，更好地捕获文本和语调之间的关系，从而提高情感识别的准确率和鲁棒性。

优选地，根据注意力权重对文本语调交互特征和语调文本交互特征进行叠加融合，得到情感融合特征，包括：

对文本隐藏状态和语调隐藏状态分别进行归一化处理，得到文本权重向量和语调权重向量；

根据文本权重向量、语调权重向量、文本语调交互特征和语调文本交互特征进行叠加融合，得到情感融合特征；

其过程表达式如下：

本实施例中，通过文本注意力权重和语调注意力权重，可以对文本和语调的重要性进行动态调整，从而更准确地捕捉到文本和语调之间的关系。通过得到文本隐藏状态和语调隐藏状态，并对其进行归一化处理，可以使它们在融合过程中的贡献更加平衡，避免其中某个特征占据主导地位。将文本权重向量和语调权重向量结合文本语调交互特征和语调文本交互特征进行叠加融合，可以将文本和语调的多个表征融合在一起，形成情感融合特征。有助于提取更富有表现力的特征，例如包含了文本和语调多个维度的信息，从而提高情感分析的准确度和性能。

优选地，并根据情感融合特征得到说话人的语音的情感分类，其过程表达式如下：

其中，、/>为全连接层的权重和偏置，/>、/>为softmax层的权重和偏置，/>为说话人的语音的情感分类。

本实施例中，如果情感分类结果是积极的，数字人可以回复一句鼓励或肯定的话。例如，“你做得很好！继续保持下去！”或者“你真棒！再接再厉！”等。这些回复可以激励说话人继续保持积极的态度和行为。如果情感分类结果是消极的，数字人系统可以回复一句安慰或建议的话。例如，“别担心，有困难可以告诉我！”或者“我觉得你需要休息一下，先放松一下自己。”等。这些回复可以让说话人感到被理解和关心，同时也可以提供一些帮助和建议。

实施例2

提供了一种应用于AI数字人语音交互系统，如图2所示，该系统包括：

数据获取单元100，用于获取说话人的语音，并根据说话人的语音获得文本特征和语调特征；

第一数据处理单元200，用于对文本特征和语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征；

第二数据处理单元300，用于将文本语调交互特征和语调文本交互特征输入注意力网络，得到注意力权重；

第三数据处理单元400，用于根据注意力权重对文本语调交互特征和语调文本交互特征进行叠加融合，得到情感融合特征，并根据情感融合特征得到说话人的语音的情感分类。

在一些实施例中，本发明公开实施例提供的系统具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

实施例3

参见图3，图3为本发明实施例提供的一种的电子设备的结构示意图。如图3所示的电子设备600包括：至少一个处理器601、存储器602、至少一个网络接口604和其他用户接口603。电子设备600中的各个组件通过总线系统605耦合在一起。可理解，总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统605。

其中，用户接口603可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器 (Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器 (Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器602存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统6021和应用程序 6022。

其中，操作系统6021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。

在本发明实施例中，通过调用存储器602存储的程序或指令，具体的，可以是应用程序6022中存储的程序或指令，处理器601用于执行各方法实施例所提供的一种应用于AI数字人语音交互方法的步骤。

实施例4

提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序包括程序指令，程序指令当被电子设备的处理器执行时，使处理器执行如上述任意一个实施例所提供的应用于AI数字人语音交互方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本发明各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种应用于AI数字人语音交互方法，其特征在于，所述应用于AI数字人语音交互方法，配置为用AI数字人对说话人进行情感识别，所述方法包括：

根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，并根据所述情感融合特征得到所述说话人的语音的情感分类；

其中，所述对所述文本特征和所述语调特征进行交互特征提取，得到文本语调交互特征和语调文本交互特征，包括：

其过程表达式如下：

其中，E_i为文本特征，Q_i为语调特征，_T表示矩阵转置，表示文本语调交互信息，/>表示语调文本交互信息，softmax()表示归一化处理，/>表示文本语调交互注意力分数，/>表示语调文本交互注意力分数，/>表示文本语调交互特征，/>表示语调文本交互特征。

2.根据权利要求1所述的一种应用于AI数字人语音交互方法，其特征在于，在所述获取说话人的语音之后，还包括对所述说话人的语音进行补全，具体包括：

根据说话人的语音的边缘分布概率P_D(d_obs)、联合分布概率P_s(S)＝P_s(s₁,s₁,...,s_D)和Bayes表达式，得到语音Bayes表达式：

P_D(S|d_obs)＝P_D(d_obs|S)×P_s(S)/P_D(d_obs)

P_D(d_obs)＝∫_SP_D(d_obs|S)×P_s(S)×dS

其中，D为通道数，d_obs为第d通道的观测值，P_D(d_obs)为说话人的语音的边缘分布，S为说话人不同时段语音的集合，P_D(d_obs|S)、P_D(S|d_obs)为条件概率。

3.根据权利要求1所述的一种应用于AI数字人语音交互方法，其特征在于，在所述并根据所述说话人的语音获得文本特征和语调特征之后，还包括提取所述文本特征和所述语调特征的上下文关系特征，具体包括：

其过程表达式如下：

其中，x_it为文本特征或语调特征，为第一文本计算数据或第一语调计算数据，/>为第二文本计算数据或第二语调计算数据，/>表示前向GRU计算，/>表示后向GRU计算，为拼接操作，z_it为具有上下文关系的语调特征或文本特征。

4.根据权利要求3所述的一种应用于AI数字人语音交互方法，其特征在于，在所述得到所述语调文本交互特征之后，还包括：

其过程表达式如下：

其中，W_i ^Q、W_i ^E、和/>为待学习参数，/>为拼接操作，F_i ^Q和F_i ^E为全连接后的语调文本交互特征和文本语调交互特征。

5.根据权利要求4所述的一种应用于AI数字人语音交互方法，其特征在于，所述根据所述注意力权重对所述文本语调交互特征和所述语调文本交互特征进行叠加融合，得到情感融合特征，包括：

其过程表达式如下：

β_m＝softmax(P_m)

其中，F_i ^m为文本注意力权重或语调注意力权重，P_m为文本隐藏状态或语调隐藏状态，分别为全连接层的权重和偏置，β_m为文本权重向量或语调权重向量，T为矩阵转置，F_i ^*为情感融合特征。

6.根据权利要求5所述的一种应用于AI数字人语音交互方法，其特征在于，所述并根据所述情感融合特征得到所述说话人的语音的情感分类，其过程表达式如下：

y_i＝softmax(W_soft(tanh(W_tF_i ^*+b_t))+b_soft)

其中，W_t、b_t为全连接层的权重和偏置，W_soft、b_soft为softmax层的权重和偏置，y_i为所述说话人的语音的情感分类。

7.一种应用于AI数字人语音交互系统，应用于如权利要求1-6任一项所述的应用于AI数字人语音交互方法，其特征在于，所述系统包括：

8.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1至6任一项所述的应用于AI数字人语音交互方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行权利要求1至6中任意一项所述的应用于AI数字人语音交互方法。