CN114051639A

CN114051639A - 使用说话者基线进行情绪检测

Info

Publication number: CN114051639A
Application number: CN202080047662.8A
Authority: CN
Inventors: 丹尼尔·肯尼斯·邦尼; 王超; 维克多·罗兹吉克
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2019-06-28
Filing date: 2020-06-08
Publication date: 2022-02-15
Also published as: GB2602398B; GB202200934D0; GB2602398A; US11545174B2; US10943604B1; DE112020002531T5; US20210249035A1; WO2020263547A1

Abstract

本文描述一种用于使用说话者的基线在音频数据中进行情绪检测的系统。所述基线可表示用户在中性情绪状态下的说话风格。所述系统被配置为将所述用户的基线与表示来自所述用户的语音的输入音频进行比较以确定所述用户的情绪。所述系统可存储所述用户的多个基线，每个基线与不同的背景(例如，环境、活动等)相关联，并且基于背景情况来选择所述基线中的一个基线以与所述输入音频进行比较。

Description

使用说话者基线进行情绪检测

相关申请数据的交叉引用

本申请要求以Daniel Kenneth Bone等人的名义于2019年6月28日提交并且标题为“EMOTION DETECTION USING SPEAKER BASELINE”的美国专利申请号16/456,158的优先权权益。

背景技术

语音识别系统已发展到人类可使用他们的话音与计算装置进行交互的程度。这种系统采用技术来基于所接收的音频输入的各种质量来标识人类用户说出的词语。音频输入还可指示用户在说出词语时的情绪或情感。

计算机、手持装置、电话计算机系统、信息亭和各种各样的其他装置可使用语音处理来改进人机交互。

附图说明

为了更完整地理解本公开，现结合附图来参考以下描述。

图1A示出了根据本公开的实施方案的被配置为登记用户以用于检测音频数据中的情绪的系统。

图1B示出了根据本公开的实施方案的被配置为检测音频数据中的情绪的系统。

图2A和图2B是根据本公开的实施方案的系统的语音处理部件的概念图。

图3是根据本公开的实施方案的其中传感器数据组合以识别一个或多个用户的说明性架构的示意图。

图4是示出了根据本公开的实施方案的用户识别的系统流程图。

图5是示出了根据本公开的实施方案的用于用户登记的情绪检测部件的概念图。

图6是示出了根据本公开的实施方案的情绪检测部件的概念图。

图7是根据本公开的实施方案的使用训练数据构建训练模型的概念图。

图8是示出了根据本公开的实施方案的训练模型的层的概念图。

图9示出了根据本公开的实施方案的神经网络，诸如可用于情绪检测的神经网络。

图10示出了根据本公开的实施方案的神经网络，诸如可用于情绪检测的神经网络。

图11示出了根据本公开的实施方案的编码器的操作。

图12是概念性地示出了根据本公开的实施方案的装置的示例性部件的框图。

图13是概念性地示出了根据本公开的实施方案的服务器的示例性部件的框图。

图14示出了用于与语音处理系统一起使用的计算机网络的示例。

具体实施方式

自动语音识别(ASR)是计算机科学、人工智能和语言学的领域，其涉及将与语音相关联的音频数据转换成代表该语音的文本。类似地，自然语言理解(NLU)是计算机科学、人工智能和语言学的领域，其涉及使计算机能够从包含自然语言的文本输入中得出含义。ASR和NLU通常一起用作语音处理系统的一部分。文本到语音(TTS)是涉及将文本数据转换成合成为类似于人类语音的音频数据的领域。

特定系统可被配置为响应于用户输入来执行动作。例如，对于“Alexa，播放音乐”的用户输入，系统可输出音乐。进一步例如，对于“Alexa，天气怎么样”的用户输入，系统可输出表示用户地理位置的天气信息的合成语音。在另一个示例中，对于“Alexa，向John发送消息”的用户输入，系统可捕获语音消息内容并且使其经由注册到“John”的装置输出。

使用语音进行情感分析可涉及确定一个人对情况/话题的情感、观点和/或态度。一个人的情感可从这些人用于表达他的/她的看法的词语中得出。使用语音进行情绪分析可涉及确定一个人的心理状态、情绪、感觉和/或心境。一个人的情绪可从该人如何说出词语以及该人的语音的声学特性得出。本系统可被配置为基于从音频数据导出的情绪和/或情感并且基于表示中性情绪/情感的用户的基线来对音频数据(例如，来自用户的语音)进行分类。例如，系统可使用基线来帮助捕获说话者的个性化说话风格和相关联的特性。如本文所使用的，说话风格可由声学语音属性(诸如音高、速度、速率、口音、音调、重音、节奏、语调、音量等)表示。如本文所使用的，基线可以是指表示说话者的中性情绪状态的(参考)音频数据。通过使用个体说话者的基线语音数据，系统可在运行时期间更准确地确定个体用户的情绪。例如，通常大声的说话者可被系统感知为愤怒，直到与说话者的基线进行比较。在另一个示例中，通常柔声的说话者可被系统感知为胆怯或悲伤，直到与说话者的基线进行比较。系统可基于指示输入音频数据与基线之间的差异的对用户的基线和运行时输入音频数据的分析来确定用户的情感/情绪。

系统可使用用户说出的登记话语来确定基线。系统可确定登记话语是否表示用户的中性情绪状态以及是否可用作基线。系统还可被配置为针对说话者可能参与的不同的环境或活动获得多个基线。不同的环境或活动可导致说话者表现出不同的中性情绪状态。例如，当说话者工作时相对于当说话者居家时，他的或她的基线可能不同。类似地，当说话者与同事说话时相对于当说话者与家人或孩子说话时，他的或她的基线可能不同。作为另一个示例，当说话者在晚上说话时相对于当说话者在早上说话时，他的或她的基线可能不同。不同的基线可捕获用户在各种情况/背景下表现出的不同的声学语音属性。

系统还可被配置为基于用户在说出要分析的运行时输入音频数据中表示的话语时所参与的环境或活动来选择适当的基线以分析输入音频数据来进行情绪/情感检测。

系统可结合用户权限并且可仅执行本文所公开的功能(诸如情绪检测，如果用户批准的话)，并且可按照用户权限/偏好配置情绪检测。如本文所公开的，用户可通过提供话语偏好向系统登记以用于情绪检测。例如，系统可对选择加入并且与捕获装置相关联的用户说出的语音(而不是从其他用户捕获的语音)执行情绪检测。因此，本文所描述的系统、装置、部件和技术可在适当的情况下限制处理并且仅以确保符合所有适当的法律、法规、标准等的方式处理用户信息。系统和技术可在地理基础上实现，以确保符合系统部件和/或用户位于的各种司法管辖区和实体的法律。系统可在一定时间段之后和/或在音频数据已分析并且输出已呈现和/或被用户查看之后删除与情绪检测相关的所有数据。用户还可请求系统删除与情绪检测相关的所有数据。系统可根据用户选择的用户权限限制对与情绪检测相关的数据的访问。

本系统可处理输入音频数据以确定音频数据是否包括来自人类用户的话音活动(例如，语音)。然后系统可标识表示来自具体用户的语音的输入音频数据的部分。可使用经训练的机器学习(ML)模型来处理输入音频数据的部分以预测音频数据的情绪类别。情绪类别可用于各种应用中。例如，可向用户显示情绪类别，以指示他或她在与其他人交互期间的情绪和/或指示他或她在一天中的具体时间期间的情绪。应用程序开发人员还可将情绪类别用于话音激活系统或智能扬声器系统来标识用户在与话音激活系统或智能扬声器系统交互时的情绪和/或情感。应用程序开发人员可能够确定用户对他或她与话音激活系统或智能扬声器系统的交互的满意度。例如，游戏应用程序开发人员可确定用户在他或她玩游戏或与游戏交互时的情绪。作为另一个示例，用户在观看或收听商业广告时的情绪可用于营销研究。在又一个示例中，车辆中包括的话音激活系统或智能扬声器系统可通过音频数据分析驾驶员的情绪，并且告知驾驶员他或她是否显得焦躁、沮丧或愤怒以致他或她的情感/情绪可能影响他的或她的驾驶。假设存在用户权限，其他部件也可接收不同操作的情绪数据。

在示例性实施方案中，用户可佩戴或以其他方式携带检测音频数据并且在检测到话音活动时发起音频数据分析的装置。用户可将装置配置成全天监测他或她与其他人的语音交互。系统可针对各种交互确定用户的情绪状态，并且为用户生成定期报告。报告可被存储和/或可诸如在可穿戴装置、电话、平板电脑或其他装置上显示给用户。

图1A示出了根据本公开的实施方案的被配置为登记用户以进行音频数据中的情绪检测的系统100。图1B示出了根据本公开的实施方案的被配置为检测音频数据中的情绪的系统100。尽管附图和讨论按具体次序示出了系统的特定操作步骤，但是在不脱离本公开的意图的情况下，可按不同的次序(以及移除或添加特定步骤)来执行所描述的步骤。如图1A和图1B所示，系统100可包括用户5本地的装置110以及跨一个或多个网络199连接的一个或多个系统120。如图1A所示，装置110a可与装置110b通信。如图所示，相对于图1A描述的过程可在登记操作期间(当系统100被配置为从用户5获得参考音频数据以用于使用基线进行情绪检测时)执行，并且相对于图1B描述的过程可在运行时操作期间(当所配置的系统100处理输入音频数据以检测情绪时)执行。

在登记过程期间，一个或多个系统120被配置为获得表示用户的中性情绪状态的音频数据。如图1A所示，一个或多个系统120接收(132)表示第一参考话语的音频数据。用户5可说出装置110捕获的由音频数据表示的话语。作为登记过程的一部分，一个或多个系统120可致使装置110输出请求用户5说出特定句子的音频。在一些实施方案中，装置110可输出特定的句子以供用户5说出，例如“出于登记目的，请说我喜欢今天的天气”，并且用户5可以说“我喜欢今天的天气”。一个或多个系统120可存储表示用户5说出的参考话语的音频数据。

一个或多个系统120确定(134)音频数据是否可用作基线。一个或多个系统120可确定音频数据是否表示用户5的中性情绪状态。一个或多个系统120可分析音频数据以确定对应的声学语音属性是否在预定义范围内或满足指示中性情绪状态的特定条件。例如，一个或多个系统120可已基于分析来自多个用户/一般人群的音频数据来标识并且存储表示中性情绪状态的声学语音属性，并且可使用这些声学语音属性来确定音频数据(来自操作132)是否与这些属性一致以使得音频数据表示用户5的中性情绪状态。在一些实施方案中，一个或多个系统120可使用被配置为确定对应于音频数据的情绪类别的机器学习(ML)模型来处理音频数据。ML模型可确定对应于音频数据的情绪类别是中性的。在一些实施方案中，一个或多个系统120还可确定音频数据的质量是否足够好以用作基线。

如果一个或多个系统120确定音频数据不能用作基线，则一个或多个系统120请求(136)用户5说出另一个话语。一个或多个系统120可通过输出例如“请重复我喜欢今天的天气”来请求用户5重复先前呈现的句子，或者一个或多个系统120可请求用户5说不同的句子。一个或多个系统120接收(138)表示第二参考话语的音频数据，并且返回到操作134以确定音频数据是否可用作基线(表示用户的中性情绪状态)。

在一些实施方案中，一个或多个系统120可仅进行几次尝试以获得用于基线的音频数据。即，在一个或多个系统120认识到无法从用户5获得音频数据以用作基线之前，可执行步骤136的操作有限次数(例如，两次或三次)。一个或多个系统120可致使装置110输出“出现错误，让我们试着在另一时间登记”。音频数据可能由于背景噪声而质量不佳，或者音频数据可能无法表示用户的中性情绪状态(例如，用户在登记过程期间可能过于兴奋或愤怒)。

如果一个或多个系统120确定音频数据可用作基线，则一个或多个系统120存储(140)音频数据作为与对应于用户5的用户配置文件相关联的基线。一个或多个系统120可在配置文件存储设备270中存储音频数据作为基线。一个或多个系统可确定(142)对应于音频数据的第一特征向量，并且可存储第一特征向量作为基线。第一特征向量可表示从音频数据得出的频谱特征。一个或多个系统120可使用编码器(例如，图11的编码器1150)来处理音频数据的帧并且生成第一特征向量。在一些实施方案中，第一特征向量可表示由用户5在中性情绪状态下表现出的声学语音属性(例如，口音、音高、韵律等)。

一个或多个系统120可被配置为获得表示用户在各种情况下的中性情绪状态的多个基线。因此，配置文件存储设备270可包括表示用户5的多个基线的音频数据。在一些实施方案中，为了获得各种基线，一个或多个系统120可请求用户5在不同的环境中时或在与不同的人交互时说话。一个或多个系统120可在用户5在不同的环境中说话时或在用户与不同的人交互以捕获表示用户在不同的情况下的情绪状态的音频数据时请求用户的权限来记录音频(出于登记目的，达有限的时间段)。例如，用户5在居家时相对于在工作时可表现出不同的说话风格/声学语音属性。类似地，用户5在与家人(配偶、重要他人、孩子、宠物等)说话时相对于在与同事说话时可表现出不同的说话风格/声学语音属性。

在这种情况下，一个或多个系统120可确定(144)对应于音频数据的背景数据，并且可将背景数据与基线和用户配置文件相关联(146)。如本文所使用的，对应于音频数据/基线的背景数据是指指示在接收音频数据时与用户相关联的环境和/或情况的数据。例如，一个或多个系统120可(例如，使用装置110的位置)确定用户5在说出参考话语时的位置。如果适当的权限和场合被配置为允许操作，则一个或多个系统120可确定用户5在说出话语时正在与谁交互。在一些实施方案中，一个或多个系统120可从用户5接收输入数据，所述输入数据指示背景数据，诸如用户的位置(例如，家、工作地点、健身房等)、用户正在与谁交互(例如，同事、老板、配偶/重要他人、孩子、邻居等)等等。作为非限制性示例，一个或多个系统120可在配置文件存储设备270中存储表示第一基线的第一音频数据以及指示＜位置：工作地点＞的背景数据、表示第二基线的第二音频数据以及指示＜位置：家＞的背景数据、表示第三基线的第三音频数据以及指示＜人员：同事＞的背景数据、表示第四基线的第四音频数据以及指示＜人员：女儿＞的背景数据等等。

为了获得基线，在一些实施方案中，装置110可输出特定的句子以供用户5说出，例如“出于登记目的，请说我喜欢今天的天气”，并且用户5可以说“我喜欢今天的天气”。在一些实施方案中，一个或多个系统120可请求用户5谈论一个话题，而不是请求用户5说出特定的句子。例如，装置110可输出“出于登记目的，请告诉我您对今天的天气感觉如何？”并且用户5可以说“今天下雨了，并且我不喜欢下雨的时候”。一个或多个系统120可存储表示由用户5说出的参考话语的音频数据。在一些实施方案中，一个或多个系统120可请求用户5说特定的句子并且还讨论一个话题以针对两种情况捕获音频数据，因为用户在重复句子时相对于在自由讨论主题时可表现出不同的说话风格/声学语音属性。一个或多个系统120可处理表示用户说特定的句子的音频数据和表示用户自由讨论一个话题的音频数据以例如使用两种情况的声学语音属性的差异、两种情况的声学语音属性的(加权的或未加权的)平均值、统计分析、机器学习模型来处理对应的特征向量和/或使用其他方法来确定适当的基线。

以此方式，一个或多个系统120在图1A所示的登记过程期间获得表示用户5的中性情绪状态的音频数据。一个或多个系统120可多次执行图1A所示的操作以获得表示用户可能所处以及用户选择加入情绪检测的不同的情况的多个基线。登记过程的另外的细节结合图5进行描述。

在运行时期间，如图1B所示，一个或多个系统120接收(150)输入音频数据。输入音频数据可由装置110a捕获并且可包括来自用户5的语音或声音和/或来自至少一个其他人的语音和声音。如下(结合图6)所述，包括在输入音频数据中的来自其他人的语音/声音可在进一步处理之前被隔离和丢弃。装置110a可与装置110b通信，并且可向装置110b发送输入音频数据。图1B将装置110a示出为智能手表，然而，装置110a可以是任何可穿戴装置或由用户5携带并且被配置为在满足适当的用户权限时捕获音频数据的任何装置。装置110b被示出为智能电话，然而，装置110b可以是与装置110a通信并且被配置为从装置110a接收数据以及向装置110a发送数据的任何移动装置或计算装置，诸如膝上型电脑、平板电脑、台式机等。替代地，装置110a可以是话音激活系统或智能扬声器，并且可直接向一个或多个系统120发送输入音频数据而不是经由装置110b进行转发。替代地，装置110a和110b的操作可组合成单个装置。用于登记过程的图1A的装置110可与在运行期间使用的装置110a不同，因此用户5可使用与用于提供输入音频的装置不同的装置来在情绪检测时进行登记。

一个或多个系统120标识(152)表示与用户5的用户配置文件相关联的基线的参考音频数据。一个或多个系统120可从配置文件存储设备270中检索参考音频数据。

如上所述，在一些实施方案中，配置文件存储设备270可存储用户5的多个基线，其中每个基线可对应于不同的背景/情况。一个或多个系统120可基于与基线相关联的背景数据和与输入音频数据相关联的背景数据来从与用户配置文件相关联的多个基线中标识基线。一个或多个系统120可确定对应于输入音频数据的背景数据，诸如用户的位置(例如，使用装置110a的位置)、他/她正在与之交互的人等等。一个或多个系统120可选择具有与输入音频数据的背景数据类似的背景数据的基线，由此使用适当的基线以考虑到用户在不同的情况下表现出不同的说话风格/声学语音属性。在其他实施方案中，一个或多个系统120可(例如，使用ML模型、统计分析或其他方法)分析对应于基线的参考音频数据和输入音频数据的特征以标识具有类似于输入音频数据的特征的基线。在一些实施方案中，如果一个或多个系统120无法标识具有类似于输入音频数据的背景数据的背景数据的基线，则一个或多个系统120可基于基线的质量(例如，音频质量、声学特征的质量、中性情绪状态的最佳表示等)来选择最佳可用基线。

一个或多个系统120然后可确定(154)对应于参考音频数据的第一特征向量，如果此操作在登记过程(操作142)期间尚未执行的话。第一特征向量可表示从参考音频数据得出的频谱特征。一个或多个系统120可使用编码器(例如，图11的编码器1150)来处理参考音频数据的帧并且生成第一特征向量。在一些实施方案中，第一特征向量可表示由用户5在中性情绪状态下表现出的声学语音属性(例如，口音、音高、韵律等)。

一个或多个系统120确定(156)对应于输入音频数据的第二特征向量。第二特征向量可表示从输入音频数据得出的频谱特征。一个或多个系统120可使用编码器(例如，图11的编码器1150)来处理输入音频数据的帧并且生成第二特征向量。在一些实施方案中，第二特征向量可表示用户5在说出由输入音频数据表示的话语时表现出的声学语音属性(例如，口音、音高、韵律等)。

一个或多个系统120使用训练模型处理(158)第一特征向量和第二特征向量。训练模型可输出一个或多个分数。一个或多个系统120基于由训练模型生成的分数来确定(160)情绪类别。训练模型可以是ML模型，所述ML模型被配置为处理参考音频数据和输入音频数据的特征，以基于(由参考音频数据表示的)用户的中性情绪状态来确定对应于输入音频数据的情绪类别。情绪类别可包括宽泛的类别，诸如积极的、中性的和消极的。在其他实施方案中，情绪类别可以更具体并且可包括例如愤怒、快乐、悲伤和中性。在另一个实施方案中，情绪类别可包括愤怒、悲伤、快乐、惊讶、压力和厌恶。如可理解的，根据系统配置，各种情绪类别/指示符是可能的。

在一些实施方案中，一个或多个系统120可确定输入音频数据表示来自人类的话音活动。一个或多个系统120可标识与装置110的用户配置文件相关联的话音配置文件。一个或多个系统120可检索与用户配置文件相关联的存储数据。存储数据可包括话音指纹或话音生物标志物以使用音频数据标识用户。在其他实施方案中，存储数据可包括结合用户识别部件295描述的RF数据、位置数据、机器视觉数据等。一个或多个系统120可使用本文所描述的用户识别部件295标识话音配置文件。

一个或多个系统120可确定输入音频数据的第一部分，其中第一部分对应于话音配置文件。例如，输入音频数据可捕获来自多个人的语音，尤其是在用户5正在与另一个人交谈的情况下。一个或多个系统120可隔离与用户5说出的语音相关联的输入音频数据的第一部分，并且存储第一部分以供进一步分析。一个或多个系统120可使用输入音频数据的第一部分来确定特征向量(在操作156中)。

一个或多个系统120可存储将情绪类别与输入音频数据和用户配置文件相关联的关联数据。在示例性实施方案中，一个或多个系统120可在一定时间段期间分析输入音频数据，并且以不同的时间间隔确定情绪类别以提供关于用户在所述时间段期间或在与其他人交互时的情绪状态的他的或她的信息。在另一个实施方案中，一个或多个系统120可在用户与装置110交互时分析输入音频数据，并且情绪类别可指示用户对他或她与装置110交互的满意度。

一个或多个系统120生成(162)至少包括情绪类别和输入音频数据的一部分的输出数据。一个或多个系统120可使用以下描述的ASR处理技术确定对应于音频数据帧的文本数据。一个或多个系统120还可确定指示输入音频数据的一部分何时被装置110接收的时间数据。输出数据可包括对应于输入音频数据的部分的文本数据、时间数据和情绪类别的指示符。输出数据可显示在装置110a或装置110b上。情绪类别的指示符可以是表示情绪类别的文本、表示情绪类别的图标或其他指示符。

图1B的操作在本文中通常描述为由一个或多个系统120执行。然而，应当理解，操作中的一个或多个操作也可由装置110a、装置110b或其他装置来执行。运行时操作的另外的细节结合图6进行描述。

本公开的整个系统可使用如下所示的各种部件进行操作。各种部件可位于相同或不同的物理装置上。各种部件之间的通信可直接发生或跨一个或多个网络199发生。

如图2A和图2B所示，一个或多个音频捕获部件(诸如装置110的麦克风或麦克风阵列)捕获音频11。装置110处理表示音频11的音频数据以确定是否检测到语音。装置110可使用各种技术来确定音频数据是否包括语音。在一些示例中，装置110可应用话音活动检测(VAD)技术。此类技术可基于音频数据的各种定量方面(诸如音频数据的一个或多个帧之间的频谱斜率；音频数据在一个或多个频谱带中的能量级；音频数据在一个或多个频谱带中的信噪比；或其他定量方面)来确定在音频数据中是否存在语音。在其他示例中，装置110可实现被配置为将语音与背景噪声区分开的有限分类器。分类器可通过诸如线性分类器、支持向量机和决策树的技术来实现。在又其他示例中，装置110可应用隐马尔可夫模型(HMM)或高斯混合模型(GMM)技术来将音频数据与存储设备中的一个或多个声学模型进行比较，所述声学模型可包括对应于语音、噪声(例如，环境噪声或背景噪声)或无声的模型。又其他技术可用于确定在音频数据中是否存在语音。

当在表示音频11的音频数据中检测到语音时，装置110可将唤醒词检测部件220用于执行唤醒词检测以确定用户打算何时对装置110说出输入。一个示例性唤醒词是“Alexa”。

唤醒词检测通常在不执行语言分析、文本分析或语义分析的情况下执行。相反，表示音频11的音频数据被分析以确定音频数据的特定特性是否匹配预配置的声波波形、音频签名或其他数据，从而确定音频数据是否“匹配”对应于唤醒词的存储音频数据。

因此，唤醒词检测部件220可将音频数据与存储模型或数据进行比较以检测唤醒词。一种用于唤醒词检测的方法将通用大词汇量连续语音识别(LVCSR)系统应用于对音频信号进行解码，其中唤醒词搜索在所得的网格或混淆网络中进行。LVCSR解码可能需要相对高的计算资源。另一种用于唤醒词检测的方法分别针对每个唤醒词语音信号和非唤醒词语音信号构建HMM。非唤醒词语音包括其他口头词语、背景噪声等。可构建一个或多个HMM来对非唤醒词语音特性进行建模，这称为填充模型。维特比解码用于在解码图中搜索最佳路径，并且进一步处理解码输出以决定唤醒词的存在。通过结合混合DNN-HMM解码框架，可将此方法扩展为包括判别信息。在另一个示例中，唤醒词检测部件220可直接构建在深度神经网络(DNN)/递归神经网络(RNN)结构上，而不涉及HMM。这种架构可通过在DNN的背景窗口内堆叠帧或使用RNN来估计具有背景信息的唤醒词的后验。后续后验阈值调整或平滑用于决策。也可使用用于唤醒词检测的其他技术，诸如本领域已知的那些技术。

当检测到唤醒词时，装置110可“唤醒”并且开始向一个或多个系统120发射表示音频11的音频数据211，如图2A所示。如图2B所示，装置110a可向装置110b发射音频数据211，并且装置110b可向一个或多个系统120发射音频数据211。音频数据211可包括对应于唤醒词的数据，或者音频对应于唤醒词的部分可在向一个或多个系统120发送音频数据211之前被装置110a移除。在一些实施方案中，装置110a可响应于事件发生或装置110a检测到的事件来开始向一个或多个系统120/装置110b发射音频数据211(或以其他方式对音频数据执行另外的处理)。

在通过一个或多个系统120接收时，可向协调器部件230发送音频数据211。协调器部件230可包括存储器和逻辑，其使得协调器部件230能够向系统的各种部件发射数据的各种片段和形式以及执行如本文所描述的其他操作。

协调器部件230向语音处理部件240发送音频数据211。语音处理部件240的ASR部件250将输入音频数据211转录成表示一个或多个假设的输入文本数据，所述假设表示输入音频数据211中包含的语音。因此，由ASR部件250输出的文本数据可表示一个或多于一个(例如，呈N个最佳列表的形式)ASR假设，所述假设表示音频数据211中表示的语音。ASR部件250基于音频数据211与预先建立的语言模型之间的相似性来解译音频数据211中的语音。例如，ASR部件250可将音频数据211与声音模型(例如，子词单元，诸如音素等)和声音序列进行比较，以标识匹配音频数据211中表示的语音的声音序列的词语。ASR部件250输出表示一个或多个ASR假设的文本数据。ASR部件250还可输出一个或多个ASR假设的相应分数。例如，ASR部件250可在语言模型操作之后输出此类文本数据和分数。因此，由ASR部件250输出的文本数据可包括得分最高的ASR假设或者可包括ASR假设的N个最佳列表。N个最佳列表可另外包括与其中表示的每个ASR假设相关联的相应分数。每个分数可指示被执行来生成与分数相关联的ASR假设的ASR处理的置信度。下面包括ASR处理的另外的细节。

NLU部件260接收一个或多个ASR假设(即，文本数据)尝试以对其中表示的一个或多个短语或者一个或多个语句进行语义解译。即，NLU部件260基于文本数据中表示的词语来确定与文本数据中表示的一个或多个短语或者一个或多个语句相关联的一个或多个含义。NLU部件260确定表示用户期望执行的动作的意图以及允许装置(例如，装置110、一个或多个系统120、技能290、一个或多个技能系统225等)执行意图的文本数据的片段。例如，如果文本数据对应于“播放阿黛尔音乐”，则NLU部件260可确定一个或多个系统120输出音乐的意图并且可将“阿黛尔”标识为艺术家。又例如，如果文本数据对应于“天气怎么样”，则NLU部件260可确定一个或多个系统120输出与装置110的地理位置相关联的天气信息的意图。在另一个示例中，如果文本数据对应于“关灯”，则NLU部件260可确定一个或多个系统120关掉与一个或多个装置110或者一个或多个用户5相关联的灯的意图。

NLU部件260可向协调器部件230发送NLU结果数据(其可包括标记文本数据、意图指示符等)。协调器部件230可向一个或多个技能290发送NLU结果数据。如果NLU结果数据包括单个NLU假设，则协调器部件230可向与NLU假设相关联的一个或多个技能290发送NLU结果数据。如果NLU结果数据包括NLU假设的N个最佳列表，则协调器部件230可向与得分最高的NLU假设相关联的一个或多个技能290发送得分最高的NLU假设。

“技能”可以是在一个或多个系统120上运行的软件，其类似于在传统计算装置上运行的软件应用程序。即，技能290可使得一个或多个系统120能够执行特定功能以便提供数据或产生一些其他请求输出。一个或多个系统120可配置有多于一个技能290。例如，天气服务技能可使得一个或多个系统120能够提供天气信息，汽车服务技能可使得一个或多个系统120能够相对于出租车或拼车服务预订行程，餐厅技能可使得一个或多个系统120能够相对于餐厅的在线订购系统等订购比萨等。技能290可协调地在一个或多个系统120和其他装置(诸如装置110)之间操作，以便完成特定的功能。对技能290的输入可从语音处理交互或通过其他交互或输入源得到。技能290可包括可专用于具体技能290或在不同的技能290之间共享的硬件、软件、固件等。

除了由一个或多个系统120实现之外或作为其替代方案，技能290可由一个或多个技能系统225实现。这可使得一个或多个技能系统225能够执行特定功能以便提供数据或执行用户请求的一些其他动作。

技能类型包括家庭自动化技能(例如，使得用户能够控制诸如灯、门锁、相机、恒温器等的家用装置的技能)、娱乐装置技能(例如，使得用户能够控制诸如智能电视的娱乐装置的技能)、视频技能、flash简报技能以及与任何预先配置类型的技能不相关的自定义技能。

一个或多个系统120可配置有专用于与多于一个技能系统225交互的单个技能290。

除非另外明确说明，否则对技能、技能装置或技能部件的引用可包括由一个或多个系统120操作的技能290和/或由一个或多个技能系统225操作的技能。此外，本文描述为技能的功能可使用许多不同的术语(诸如动作、机器人、应用程序等)来指称。

一个或多个系统120可包括使用一个或多个不同的方法从文本数据生成音频数据(例如，合成语音)的TTS部件280。输入到TTS部件280的文本数据可从技能290、协调器部件230或一个或多个系统120的另一个部件得到。

在一种称为单元选择的合成方法中，TTS部件280将文本数据与记录语音的数据库匹配。TTS部件280选择记录语音的匹配单元并且将这些单元串接在一起以形成音频数据。在另一种称为参数合成的合成方法中，TTS部件280改变诸如频率、音量和噪声的参数以创建包括人工语音波形的音频数据。参数合成使用计算机化的话音生成器，有时称为声码器。

一个或多个系统120可包括配置文件存储设备270。配置文件存储设备270可包括与同一个或多个系统120交互的个体用户、用户组、装置等相关的多种信息。“配置文件”是指与用户、装置等相关联的一组数据。配置文件的数据可包括特定于用户、装置等的偏好；装置的输入和输出能力；互联网连接信息；用户文献目录信息；订阅信息；以及其他信息。

配置文件存储设备270可包括一个或多个用户配置文件，其中每个用户配置文件与不同的用户标识符相关联。每个用户配置文件可包括各种用户标识信息。每个用户配置文件还可包括用户的偏好和/或一个或多个装置标识符，这表示注册到用户的一个或多个装置。

配置文件存储设备270可包括一个或多个组配置文件。每个组配置文件可与不同的组配置文件标识符相关联。组配置文件可特定于用户组。即，组配置文件可与两个或更多个个体用户配置文件相关联。例如，组配置文件可以是与同单个家庭的多个用户相关联的用户配置文件相关联的家庭配置文件。组配置文件可包括由与其相关联的所有用户配置文件共享的偏好。与组配置文件相关联的每个用户配置文件可另外包括特定于与其相关联的用户的偏好。即，每个用户配置文件可包括相对于与相同组配置文件相关联的一个或多个其他用户配置文件独特的偏好。用户配置文件可以是独立的配置文件，或者可以与组配置文件相关联。组配置文件可包括表示与组配置文件相关联的一个或多个装置的一个或多个装置配置文件。

配置文件存储设备270可包括一个或多个装置配置文件。每个装置配置文件可与不同的装置标识符相关联。每个装置配置文件可包括各种装置标识信息。每个装置配置文件还可包括表示与装置配置文件相关联的一个或多个用户配置文件的一个或多个用户标识符。例如，家庭装置的配置文件可包括家庭用户的用户标识符。

配置文件存储设备270可包括表示对应于用户的中性情绪状态的一个或多个基线的音频数据。配置文件存储设备270可包括与多个基线相关的数据，每个基线与不同的背景数据相关联。

一个或多个系统120还可包括情绪检测部件275，所述情绪检测部件275可被配置为从表示来自用户的语音/话语的音频数据检测用户的情绪。情绪检测部件275可包括在语音处理部件240中或者可以是如图2A所示的单独部件。情绪检测部件275和其他部件通常被描述为由一个或多个系统120操作。然而，装置110也可操作部件中的一个或多个部件，包括情绪检测部件275。

系统可被配置为结合用户权限并且可仅在用户批准的情况下执行本文所公开的活动。因此，本文所描述的系统、装置、部件和技术将通常被配置为在适当的情况下限制处理并且仅以确保符合所有适当的法律、法规、标准等的方式处理用户信息。系统和技术可在地理基础上实现，以确保符合系统部件和/或用户位于的各种司法管辖区和实体的法律。用户可删除存储在配置文件存储设备270中的任何数据，例如，与一个或多个基线(基线数据)、情绪检测等相关的数据。

一个或多个系统120可包括使用多种数据识别一个或多个用户的用户识别部件295。如图3所示，用户识别部件295可包括一个或多个子部件，包括视觉部件308、音频部件310、标识部件312、射频(RF)部件314、机器学习(ML)部件316和识别置信度部件318。在一些情况下，用户识别部件295可监控来自一个或多个子部件的数据和确定以确定与输入到一个或多个系统120的数据相关联的一个或多个用户的身份。用户识别部件295可输出用户识别数据395，所述用户识别数据395可包括与用户识别部件295认为是输入到一个或多个系统120的数据的起源的用户相关联的用户标识符。用户识别数据395可用于告知由一个或多个系统120的各种部件执行的过程。

视觉部件308可从一个或多个能够提供图像的传感器(例如，照机)或指示运动的传感器(例如，运动传感器)接收数据。视觉部件308可执行面部识别或图像分析以确定用户的身份并且将该身份与同该用户相关联的用户配置文件相关联。在一些情况下，当用户面向相机时，视觉部件308可执行面部识别并且以高置信度程度标识用户。在其他情况下，视觉部件308可对用户的身份具有低置信度程度，并且用户识别部件295可利用来自另外的部件的确定来确定用户的身份。视觉部件308可与其他部件结合使用以确定用户的身份。例如，用户识别部件295可使用来自视觉部件308的数据与来自音频部件310的数据来标识用户的面部在用户面向的装置110捕获音频的同时显得在说的内容，以用于标识向一个或多个系统120说出输入的用户的目的。

本公开的整个系统100可包括向标识部件312发射数据的生物识别传感器。例如，标识部件312可接收对应于指纹、虹膜或视网膜扫描、热扫描、用户的体重、用户的尺码、压力(例如，在地板传感器内)等的数据，并且可确定对应于用户的配置文件。例如，标识部件312可区分用户和来自电视的声音。因此，标识部件312可将标识信息结合到置信度水平中以用于确定用户的身份。标识部件312输出的标识信息可与特定的用户配置文件数据相关联，使得标识信息独特地标识用户的用户配置文件。

RF部件314可使用RF定位来跟踪用户可携带或穿戴的装置。例如，用户(以及与用户相关联的用户配置文件)可与装置相关联。装置可发出RF信号(例如，Wi-Fi、

等)。装置可检测信号并且向RF部件314指示信号的强度(例如，作为接收信号强度指示(RSSI))。RF部件314可使用RSSI来确定用户的身份(具有相关联的置信度水平)。在一些情况下，RF部件314可确定所接收的RF信号与同具体用户标识符相关联的移动装置相关联。

在一些情况下，装置110可包括一些RF或其他检测处理能力，使得说出输入的用户可扫描、敲击他的/她的个人装置(诸如电话)或以其他方式向装置110确认所述装置。以此方式，为了一个或多个系统120确定说出具体输入的对象的目的，用户可向一个或多个系统120“注册”。这种注册可在说出输入之前、期间或之后发生。

ML部件316可跟踪各种用户的行为作为确定用户的身份的置信度水平的因素。举例来说，用户可遵守规律的时间表，使得用户在白天期间处于第一位置(例如，处于工作地点或处于学校)。在此示例中，ML部件316在确定向一个或多个系统120提供输入的用户的身份时将考虑过去的行为和/或趋势。因此，ML部件316可随时间推移使用历史数据和/或使用模式来增大或减小用户的身份的置信度水平。

在至少一些情况下，识别置信度部件318从各种部件308、310、312、314和316接收确定，并且可确定与用户的身份相关联的最终置信度水平。在一些情况下，置信度水平可确定是否响应于用户输入来执行动作。例如，如果用户输入包括解锁门的请求，则置信度水平可需要满足或高于阈值，所述阈值可高于执行与播放播放列表或发送消息相关联的用户请求所需的阈值置信度水平。置信度水平或其他分数数据可包括在用户识别数据395中。

音频部件310可从一个或多个能够提供音频信号的传感器(例如，一个或多个麦克风)接收数据以促进用户的识别。音频部件310可对音频信号执行音频识别以确定用户的身份和相关联的用户标识符。在一些情况下，一个或多个系统120的各方面可在计算装置(例如，本地服务器)处进行配置。因此，在一些情况下，在计算装置上操作的音频部件310可分析所有声音以促进用户的识别。在一些情况下，音频部件310可执行话音识别以确定用户的身份。

音频部件310还可基于输入到一个或多个系统120中的音频数据211来执行用户标识以用于语音处理。音频部件310可确定指示音频数据211中的语音是否源自具体用户的分数。例如，第一分数可指示音频数据211中的语音源自与第一用户标识符相关联的第一用户的可能性，第二分数可指示音频数据211中的语音源自与第二用户标识符相关联的第二用户的可能性等。音频部件310可通过将音频数据211中表示的语音特性与用户的存储语音特性(例如，与捕获说出的用户输入的装置110相关联的存储话音配置文件)进行比较来执行用户识别。

如图2B所示，情绪检测部件275和用户识别部件295可包括在装置110b中。装置110a可向装置110b发射音频数据211。在接收时，装置110b可向用户识别部件295发送音频数据211以执行本文所描述的关于部件295的操作，例如，包括标识对应于音频数据211的用户配置文件。用户识别部件295可向情绪检测部件275发送数据以执行本文所描述的操作。

图4示出了可由用户识别部件295执行的用户识别处理。ASR部件250对ASR特征向量数据450执行ASR处理。ASR置信度数据407可传递到用户识别部件295。

用户识别部件295使用各种数据执行用户识别，这些数据包括用户识别特征向量数据440、表示一个或多个系统120的用户的话音配置文件的特征向量405、ASR置信度数据407和其他数据409。用户识别部件295可输出用户识别数据395，所述用户识别数据395反映用户输入是由一个或多个具体用户说出的特定置信度。用户识别数据395可包括一个或多个用户标识符(例如，对应于一个或多个话音配置文件)。用户识别数据395中的每个用户标识符可与表示用户输入对应于用户标识符的可能性的相应置信度值相关联。置信度值可以是数字或分箱值。

输入到用户识别部件295的一个或多个特征向量405可对应于一个或多个话音配置文件。用户识别部件295可使用一个或多个特征向量405来与表示当前用户输入的用户识别特征向量440进行比较，以确定用户识别特征向量440是否对应于话音配置文件的特征向量405中的一个或多个特征向量。每个特征向量405可与用户识别特征向量440的大小相同。

为了执行用户识别，用户识别部件295可确定音频数据211源自的装置110。例如，音频数据211可与包括表示装置110的装置标识符的元数据相关联。装置110或者一个或多个系统120可生成元数据。一个或多个系统120可确定与装置标识符相关联的组配置文件标识符，可确定与组配置文件标识符相关联的用户标识符，并且可在元数据中包括组配置文件标识符和/或用户标识符。一个或多个系统120可将元数据与从音频数据211产生的用户识别特征向量440相关联。用户识别部件295可向话音配置文件存储设备485发送信号，其中信号仅请求与元数据中表示的装置标识符、组配置文件标识符和/或用户标识符相关联的音频数据和/或特征向量405(这取决于音频数据和/或对应的特征向量是否被存储)。这限制了用户识别部件295在运行时考虑的可能特征向量405的范围，从而通过减少需要处理的特征向量405的量来减少执行用户识别处理的时间量。替代地，用户识别部件295可访问用户识别部件295可用的音频数据和/或特征向量405的全部(或一些其他子集)。然而，访问所有音频数据和/或特征向量405将可能基于要处理的音频数据和/或特征向量405的量值来增加执行用户识别处理所需的时间量。

如果用户识别部件295从话音配置文件存储设备485接收音频数据，则用户识别部件295可生成对应于所接收的音频数据的一个或多个特征向量405。

用户识别部件295可尝试通过将用户识别特征向量440与一个或多个特征向量405进行比较来标识说出音频数据211中表示的语音的用户。用户识别部件295可包括评分部件422，所述评分部件422确定指示用户输入(由用户识别特征向量440表示)是否由一个或多个具体用户(由一个或多个特征向量405表示)说出的相应分数。用户识别部件295还可包括置信度部件424，所述置信度部件424确定用户识别处理(诸如评分部件422的那些)的整体准确度和/或相对于可能由评分部件422标识的每个用户的个体置信度值。来自评分部件422的输出可包括每个所接收的特征向量405的不同的置信度值。例如，输出可包括(表示第一话音配置文件的)第一特征向量405a的第一置信度值、(表示第二话音配置文件的)第二特征向量405b的第二置信度值等。虽然被示为两个单独的部件，但评分部件422和置信度部件424可组合成单个部件或者可分离成多于两个部件。

评分部件422和置信度部件424可实现本领域已知的一个或多个训练机器学习模型(诸如神经网络、分类器等)。例如，评分部件422可使用概率线性判别分析(PLDA)技术。PLDA评分确定用户识别特征向量440对应于具体特征向量405的可能性有多大。PLDA评分可生成所考虑的每个特征向量405的置信度值并且可输出与相应用户标识符相关联的置信度值的列表。评分部件422还可使用其他技术(诸如GMM、生成贝叶斯模型等)来确定置信度值。

置信度部件424可输入各种数据(包括关于ASR置信度407、语音长度(例如，用户输入的帧数或其他测量长度)、音频条件/质量数据(诸如信号干扰数据或其他度量数据)、指纹数据、图像数据或其他因素的信息)来考虑用户识别部件295关于将用户链接到用户输入的置信度值的置信度有多大。置信度部件424还可考虑由评分部件422输出的置信度值和相关联的标识符。例如，置信度部件424可确定较低ASR置信度407、或较差音频质量或其他因素可导致用户识别部件295的较低置信度。而较高ASR置信度407、或较好音频质量或其他因素可导致用户识别部件295的较高置信度。置信度的精确确定可取决于置信度部件424以及由此实现的一个或多个模型的配置和训练。置信度部件424可使用多个不同的机器学习模型/技术(诸如GMM、神经网络等)进行操作。例如，置信度部件424可以是分类器，所述分类器被配置为将由评分部件422输出的分数映射到置信度值。

用户识别部件295可输出特定于一个或多个用户标识符的用户识别数据395。例如，用户识别部件295可输出相对于每个所接收的特征向量405的用户识别数据395。用户识别数据395可包括数字置信度值(例如，0.0-1.0、0-1000或系统被配置为操作的任何标度)。因此，用户识别数据395可输出具有数字置信度值的潜在用户(例如，用户标识符123-0.2、用户标识符234-0.8)的n个最佳列表。替代地或另外地，用户识别数据395可包括分箱置信度值。例如，第一范围(例如，0.0-0.33)的计算识别分数可输出为“低”，第二范围(例如，0.34-0.66)的计算识别分数可输出为“中”，并且第三范围(例如，0.67-1.0)的计算识别分数可输出为“高”。用户识别部件295可输出具有分箱置信度值的用户标识符(例如，用户标识符123-低、用户标识符234-高)的n个最佳列表。经组合的分箱和数字置信度值输出也是可能的。用户识别数据395可仅包括与由用户识别部件295确定的得分最高的标识符相关的信息，而不包括标识符及其相应置信度值的列表。用户识别部件295还可输出个体置信度值为正确的总体置信度值，其中总体置信度值指示用户识别部件295在输出结果中的置信度有多大。置信度部件424可确定总体置信度值。

置信度部件424可在确定用户识别数据395时确定个体置信度值之间的差异。例如，如果第一置信度值与第二置信度值之间的差异较大，并且第一置信度值高于阈值置信度值，则用户识别部件295能够以比置信度值之间的差异较小的情况更高的置信度识别(与同第一置信度值相关联的特征向量405相关联的)第一用户作为说出用户输入的用户。

用户识别部件295可执行阈值处理以避免输出不正确的用户识别数据395。例如，用户识别部件295可将由置信度部件424输出的置信度值与阈值置信度值进行比较。如果置信度值不满足(例如，不符合或超过)阈值置信度值，则用户识别部件295可不输出用户识别数据395，或者可仅在该数据395中包括无法识别说出用户输入的用户的指示符。此外，用户识别部件295可不输出用户识别数据395，直到足够的用户识别特征向量数据440被累加和处理以验证用户高于阈值置信度值。因此，用户识别部件295在输出用户识别数据395之前可等待直到用户输入的音频数据的足够阈值量已经被处理。置信度部件424也可考虑所接收的音频数据的量。

用户识别部件295可默认输出分箱(例如，低、中等、高)用户识别置信度值。然而，这在特定情况下可能是有问题的。例如，如果用户识别部件295计算多个特征向量405的单个分箱置信度值，则系统可能无法确定哪个具体用户是用户输入的起源。在这种情况下，用户识别部件295可超控其默认场合并且输出数字置信度值。这使得系统能够确定与最高数字置信度值相关联的用户是用户输入的起源。

用户识别部件295可使用其他数据409来告知用户识别处理。可训练用户识别部件295的一个或多个训练模型或其他部件以在执行用户识别处理时采用其他数据409作为输入特征。其他数据409根据系统配置可包括多种数据类型并且可从其他传感器、装置或存储设备获得。其他数据409可包括音频数据211由装置110生成或从装置110接收的一天中的时间、音频数据音频数据211由装置110生成或从装置110接收的一周中的一天等。

其他数据409可包括图像数据或视频数据。例如，可对从接收音频数据211的装置110(或另一个装置)接收的图像数据或视频数据执行面部识别。面部识别可由用户识别部件295执行。面部识别处理的输出可由用户识别部件295使用。即，可结合用户识别特征向量440与一个或多个特征向量405的比较来使用面部识别输出数据以执行更准确的用户识别处理。

其他数据409可包括装置110的位置数据。位置数据可特定于装置110位于其内的建筑物。例如，如果装置110位于用户A的卧室中，则此类位置可增大与用户A相关联的用户识别置信度值和/或减小与用户B相关联的用户识别置信度值。

其他数据409可包括指示装置110的类型的数据。不同类型的装置可包括例如智能手表、智能电话、平板电脑和车辆。装置110的类型可在与装置110相关联的配置文件中指示。例如，如果从其接收音频数据211的装置110是属于用户A的智能手表或车辆，则装置110属于用户A的事实可增大与用户A相关联的用户识别置信度值和/或减小与用户B相关联的用户识别置信度值。

其他数据409可包括与装置110相关联的地理坐标数据。例如，与车辆相关联的组配置文件可指示多个用户(例如，用户A和用户B)。车辆可包括全球定位系统(GPS)，其在车辆生成音频数据211时指示车辆的纬度和经度坐标。因此，如果车辆位于对应于用户A的工作位置/建筑物的坐标处，则这样可增大与用户A相关联的用户识别置信度值和/或减小与车辆相关联的组配置文件中指示的所有其他用户的用户识别置信度值。与装置110相关联的配置文件可指示全局坐标和相关联的位置(例如，工作地点、家等)。一个或多个用户配置文件可同样或替代地指示全局坐标。

其他数据409可包括表示可用于执行用户识别处理的具体用户的活动的数据。例如，用户可能最近录入了禁用家庭安全警报的代码。在与家庭相关联的组配置文件中表示的装置110可能已生成音频数据211。其他数据409可反映来自关于禁用用户、禁用时间等的家庭安全警报的信号。如果已知与具体用户相关联的移动装置(诸如智能手机、Tile追踪器、加密狗或其他装置)被检测为靠近装置110(例如，物理上接近所述装置、连接到与所述装置相同的WiFi网络或以其他方式位于所述装置附近)，则这可反映在其他数据409中并且由用户识别部件295考虑。

根据系统配置，其他数据409可被配置为包括在用户识别特征向量数据440中，使得与要由评分部件422处理的用户输入相关的所有数据可包括在单个特征向量中。替代地，其他数据409可反映在要由评分部件422处理的一个或多个不同的数据结构中。

图5是示出了根据本公开的实施方案的包括用于用户登记的部件的情绪检测部件的概念图。在一些实施方案中，情绪检测部件275可包括登记部件505和背景部件515。

登记部件505可被配置为从用户获得表示用户的中性情绪状态的音频数据。登记部件505可被配置为致使装置110请求用户说出一个或多个句子。例如，登记部件505可致使装置110输出“出于登记目的，请说我喜欢今天的天气”，并且用户可以说“我喜欢今天的天气”，这可由音频数据211表示。登记部件505可处理表示用户说出的参考话语的音频数据211。在一些情况下，音频数据211可包括多个话语，并且参考音频数据510可对应于多个话语。

登记部件505还可被配置为确定音频数据211是否可用作用于表示用户的中性情绪状态的基线。如果确定音频数据211为良好/有效基线，则登记部件505可在配置文件存储设备270中存储音频数据211作为参考音频数据510，并且将参考音频数据510与用户的配置文件相关联以作为情绪检测的基线。

登记部件505可分析音频数据211以确定对应的声学语音属性是否在预定义范围内或满足指示用户的中性情绪状态的特定条件。如本文所用，声学语音属性是指可从音频数据得出的像口音、音高、韵律(语调、音调、重音、节奏)、语音等的特征。登记部件505可已基于分析来自表示一般人群或具体人群的多个用户的音频数据来标识并且存储表示中性情绪状态的声学语音属性(以考虑到口音、文化差异和基于地理位置来影响语音的其他因素)，并且可使用这些声学语音属性来确定音频数据211是否表示用户的中性情绪状态。

在一些实施方案中，登记部件505可采用ML模型来处理音频数据211以确定对应于音频数据的情绪类别。如果ML模型确定对应于音频数据211的情绪类别是中性的，则登记部件505可存储音频数据211作为参考音频数据510。如果ML模型确定对应于音频数据211的情绪类别不是中性的(是愤怒的、快乐的等)，则音频数据211可被丢弃并且不用作用于情绪检测的基线。音频数据211可被输入到编码器(未示出)以确定一个或多个帧特征向量(未示出)。一个或多个帧特征向量可表示从音频数据211中提取的音频帧级特征。一个帧特征向量可表示音频数据211的20ms的音频帧的音频帧级特征。一个或多个帧特征向量可通过音频数据211的频谱分析得出。在示例性实施方案中，情绪部件275可确定音频数据211包括整个话语，并且一个或多个帧特征向量可用于确定表示音频数据211中表示的一个或多个话语的话语级特征的一个或多个话语特征向量。可通过对对应于感兴趣的话语的音频帧的一个或多个帧特征向量执行统计计算、增量计算和其他处理来确定一个或多个话语特征向量。登记部件505采用的ML模型(未示出)可处理一个或多个帧特征向量以确定指示用户在说出由一个或多个帧特征向量表示的话语时的情绪的或多个分数。在另一个实施方案中，ML模型可处理话语级特征向量以确定指示用户在说出由一个或多个帧特征向量表示的话语时的情绪的一个或多个分数。可使用训练数据集训练ML模型来处理音频帧特征和/或话语级特征以确定用户的情绪。在一些实施方案中，可训练ML模型以输出指示用户的情绪的中性程度的置信度水平的分数，例如，1-2的分数可指示低置信度水平，3的分数可指示中等置信度水平，并且4-5的分数可指示高置信度水平。在其他实施方案中，可训练ML模型以输出中性情绪类别的低、中等或高的指示。在示例性实施方案中，ML模型可以是神经网络机器学习模型(循环神经网络、深度学习神经网络、卷积神经网络等)、统计模型、概率模型或另一个类型的模型。

登记部件505可被配置为：如果音频数据211不表示用于情绪检测的良好基线，则请求用户重复一个句子或说另一个句子。登记部件505可致使装置110输出例如“请重复我喜欢今天的天气”。登记部件505可处理作为响应从用户接收的音频数据以确定该音频数据是否可用作基线。在一些实施方案中，登记部件505可仅进行几次尝试以获得用于基线的音频数据。在尝试两次或三次并且不能够获得可用于基线的数据之后，登记部件505可致使装置110输出音频以告知用户系统将不会继续登记过程并且用户应在另一时间重新尝试。音频数据211可能由于背景噪声而质量不佳，或者音频数据211可能无法表示用户的中性情绪状态(例如，用户在登记过程期间可能过于兴奋或愤怒)。

在一些实施方案中，登记部件505可请求用户说出特定的句子。在其他实施方案中，登记部件505可请求用户谈论一个话题而不是说特定的句子。在一些实施方案中，登记部件505可请求用户说特定的句子并且还讨论一个话题以针对两种情况捕获音频数据，因为用户在重复句子时相对于在自由讨论主题时可表现出不同的说话风格/声学语音属性。登记部件505可处理表示用户说特定的句子的音频数据和表示用户自由讨论一个话题的音频数据以例如使用两种情况的声学语音属性的差异、两种情况的声学语音属性的(加权的或未加权的)平均值、统计分析、机器学习模型来处理对应的特征向量和/或使用其他方法来确定适当的基线。

情绪检测部件275可被配置为在不同的情况下从用户获得(用于多个基线的)参考音频数据。这样做使得系统能够考虑到用户在不同的情况下表现出的不同的说话风格/声学语音属性。背景部件515可被配置为确定表示用户的环境、情况、位置、场合或在用户说出用于基线的音频时对应于他或她的其他背景数据的数据(例如，背景数据520)。例如，背景部件515可通过使用装置110的位置或与用户配置文件相关联的其他信息来确定用户在说出参考话语时的位置。背景部件515可确定交互类型，该交互类型包括用户在说出话语时正在与谁交互、用户在说话时所处的场合(例如，工作会议、家人/朋友聚会、体育赛事、音乐会等)、时间(例如，早上、下午、晚上、一周中的一天等)、用户在说话时进行的任何动作(例如，驾驶、步行、看电视等)等。背景数据520还可包括表示对应于用户何时说出音频的其他背景信息的数据，诸如天气信息、与用户相关联的生理数据(例如，心率、血压、体温等)、一年中的季节、一年中的月份等。背景部件515可通过从用户配置文件存储设备270、其他数据存储设备和/或其他系统/应用程序中检索数据来确定背景数据520。背景部件515可通过处理音频数据并且根据音频数据确定指示特定的背景数据的特性或特征来得出背景数据520。在一些实施方案中，系统可从用户接收输入数据，其指示背景数据，诸如用户的位置(例如，家、工作地点、健身房等)，用户正在与谁交互(例如，同事、老板、伴侣/重要他人、孩子、邻居等)、用户所处的场合(例如，工作会议、社交聚会等)、用户进行的动作(例如，驾驶、步行等)等。

情绪检测部件275可在配置文件存储设备270中存储多个基线和对应的背景数据。例如，情绪检测部件275可在配置文件存储设备270中存储表示第一基线的第一音频数据(例如，510a)以及指示＜位置：工作地点＞的背景数据(例如，520a)、表示第二基线的第二音频数据(例如，510b)以及指示＜位置：家＞的背景数据(例如，520b)、表示第三基线的第三音频数据(例如，510c)以及指示＜人员：同事＞的背景数据(例如，520c)、表示第四基线的第四音频数据(例如，510d)以及指示＜人员：女儿＞的背景数据(例如，520d)等等。

在一些实施方案中，在登记部件505处理音频数据211之前，情绪检测部件275可确定音频数据211包括来自除在情绪检测中登记的用户之外的一个或多个人的语音。例如，作为登记过程的一部分，系统可从用户接收权限，以在有限的时间段内记录他或她的语音，从而获得表示用户在各种情况和场合下的交互的音频，使得系统可确定不同的背景的基线。如上所述，这是有益的，因为用户在不同的情况下基于他或她正在与谁交互、他或她说话的位置和/或他或她正在做什么可表现出不同的说话风格/声学语音属性。因此，音频数据211可包括来自除用户之外的一个或多个人的语音。在这种情况下，情绪检测部件275可使用用户识别部件295识别一个或多个用户，如结合图3和图4所描述的。如果确定音频数据211的一部分来自除用户之外的人，则丢弃音频数据211的该部分，并且仅音频数据211的对应于用户的部分被存储以供进一步处理并且登记用户以用于情绪检测。

图6是示出了根据本公开的实施方案的情绪检测部件的概念图。除了图5所示的部件，情绪检测部件275还可包括话音活动检测(VAD)部件605、训练模型615和基线选择部件620。由装置110捕获的音频数据211可被输入到VAD部件605中。情绪检测部件275可与装置110a、与靠近装置110并与所述装置通信的另一个装置(诸如装置110b)或者与远程装置(诸如与一个或多个系统120)一起驻留。如果情绪检测部件275不驻留在捕获音频的装置110a上，则情绪检测部件275可能不一定包括VAD部件605(或可能不一定包括其他部件)并且也可能包括或可能不包括其他部件。情绪检测部件275的精确组成取决于系统配置。

VAD部件605可确定音频数据211是否包括由人类说出的语音或由人类进行的话音活动，并且可确定音频数据211包括语音或话音活动的一部分。VAD部件605可向用户识别部件295发送音频数据211包括语音或话音活动的一部分。VAD部件605可采用话音活动检测技术。此类技术可基于音频数据的各种定量方面(诸如音频数据的一个或多个帧之间的频谱斜率；音频数据在一个或多个频谱带中的能量级；音频数据在一个或多个频谱带中的信噪比；或其他定量方面)来确定在音频数据中是否存在语音。在其他示例中，VAD部件605可实现被配置为将语音与背景噪声区分开的有限分类器。分类器可通过诸如线性分类器、支持向量机和决策树的技术来实现。在又其他示例中，装置110可应用隐马尔可夫模型(HMM)或高斯混合模型(GMM)技术来将音频数据与存储设备中的一个或多个声学模型进行比较，所述声学模型可包括对应于语音、噪声(例如，环境噪声或背景噪声)或无声的模型。又其他技术可用于确定在音频数据中是否存在语音。

用户识别部件295(其可位于与情绪检测部件275相同或不同的装置上)可与情绪检测部件275通信以确定对应于具体用户配置文件的用户音频数据610。用户识别部件295可识别一个或多个用户，如结合图3和图4所描述的。例如，用户识别部件295可标识对应于与用户配置文件相关联的话音配置文件的存储数据，并且基于分析存储数据来确定输入音频数据的一部分对应于话音配置文件的置信度水平。用户识别部件295可确定置信度水平是否符合/满足阈值。如果输入音频数据的一部分的置信度水平低于阈值，则输入音频的相应部分被丢弃，因为它不表示来自与用户配置文件相关联的用户的语音。如果输入音频数据的一部分的置信度水平符合/满足阈值，则存储输入音频数据的相应部分作为用户音频数据610。

用户音频数据610可以是音频数据211的一部分，所述部分包括来自与用户配置文件相关联的具体的用户的语音或一个或多个话语。换言之，可隔离表示具体的用户的语音的音频数据并且存储所述数据作为用户音频数据610以供进一步分析。在示例性实施方案中，用户可与装置110相关联或使用装置110，并且可已向一个或多个系统120提供权限以记录和分析他或她的话音/对话来确定对应于会话的情绪类别。

在对用户音频数据610执行进一步分析之前，情绪检测部件275可确认用户已授予权限来分析用户说出的语音以进行情绪检测。

用户音频数据610可被输入到编码器1150(关于图11进一步描述)以确定一个或多个帧特征向量612。一个或多个帧特征向量612可表示从用户音频数据610中提取的音频帧级特征。一个帧特征向量612可表示针对音频的25ms的窗口提取的特征，其中窗口以10ms的增量滑动或移动以提取由下一个帧特征向量表示的特征。在其他实施方案中，一个帧特征向量612可以表示对应于话语中的单个词的特征。情绪检测部件275可以确定用户音频数据610中与各个词相对应的部分，并使用编码器1150从音频的各个部分中提取特征。一个或多个帧特征向量612可通过用户音频数据610的频谱分析得出，并且可指示声学语音属性，诸如口音、音高、语调、音调、重音、节奏、速度等。

基线选择部件620可被配置为标识或选择用于情绪检测的基线。在一些实施方案中，配置文件存储设备270可存储对应于与不同的背景数据相关联的多个基线的参考音频数据。基线选择部件620可确定在运行时期间使用哪个基线来分析具体输入音频数据211。基线选择部件620可基于与基线相关联的背景数据和与音频数据211相关联的背景数据来从多个基线中选择一个基线。基线选择部件620请求背景部件515确定对应于音频数据211的背景数据，诸如用户的位置(例如，使用装置110的位置)、他/她正在与之交互的人等。基线选择部件620可选择具有与用于情绪检测的音频数据211的背景数据类似的背景数据的基线，由此使用适当的基线以考虑到用户在不同的情况下表现出不同的说话风格/声学语音属性。在其他实施方案中，基线选择部件620可(例如，使用ML模型、统计分析或其他方法)分析对应于基线的参考音频数据和音频数据211的特征以标识具有类似于音频数据211的特征的基线。在一些实施方案中，如果基线选择部件620无法标识具有类似于音频数据的背景数据的背景数据的基线，则基线选择部件620可基于基线的质量(例如，音频质量、声学特征的质量、中性情绪状态的最佳表示等)来选择最佳可用基线。在一些实施方案中，系统可使用与用户配置文件相关联的所有或一些基线的特征确定平均基线。

在配置文件存储设备270仅包括一个基线的一些实施方案中，基线选择部件620可被禁用并且可不执行任何动作。

基线选择部件620可检索对应于要用于情绪检测的基线的参考音频数据602。参考音频数据602可被输入到编码器1150(关于图11进一步描述)以确定一个或多个帧特征向量614。一个或多个帧特征向量614可表示从参考音频数据602中提取的音频帧级特征。一个帧特征向量614可表示针对音频的25ms的窗口提取的特征，其中窗口以10ms的增量滑动或移动以提取由下一个帧特征向量表示的特征。在其他实施方案中，一个帧特征向量614可表示对应于话语中的单个词语的特征。情绪检测部件275可确定参考音频数据602对应于单个词语的部分，并且使用编码器1150从音频的相应部分中提取特征。一个或多个帧特征向量614可通过参考音频数据602的频谱分析得出，并且可指示对应于用户的中性情绪状态的声学语音属性，诸如口音、音高、语调、音调、重音、节奏、速度等。

训练模型615可处理一个或多个帧特征向量612和一个或多个帧特征向量614。训练模型615可被配置为处理参考音频数据602和输入音频数据211的特征，以基于(由参考音频数据602表示的)用户的中性情绪状态来确定对应于音频数据211的情绪类别。训练模型615可输出一个或多个分数630，其指示对应于音频数据211的情绪类别640。情绪类别可包括宽泛的类别，诸如积极的、中性的和消极的。在其他实施方案中，情绪类别可以更具体并且可包括例如愤怒、快乐、悲伤和中性。在另一个实施方案中，情绪类别可包括愤怒、悲伤、快乐、惊讶、压力和厌恶。如可理解的，根据系统配置，各种情绪类别/指示符是可能的。在一些实施方案中，训练模型615可被配置为确定对应于输入音频数据211的背景数据。

在一些实施方案中，系统可被配置为使用一个或多个其他训练模型进一步处理音频数据211/用户音频数据610以检测用户说来表达他的或她的观点/看法的词语得出的用户的情感。

训练模型615可以是神经网络，例如深度学习神经网络(DNN)。如图8所示，神经网络可包括从输入层1 810至输出层N 820的多个层。每个层包括一个或多个节点并且被配置为输入具体类型的数据并且输出另一个类型的数据。层可由表示层之间的连接和层内的操作的数据结构来表示。图8所示的神经网络被配置为输入类型数据A 802的数据(其是对层1810的输入)并且输出类型数据Z 808的数据(其是来自最后一层N 820的输出)。然后将来自一个层的输出当作对下一个层的输入。例如，来自层1 810的输出数据(数据B 804)是层2812的输入数据等等，使得对层N 820的输入是从倒数第二层(未示出)输出的数据Y 806。

当在神经网络在运行时期间实际操作之前未知具体层的输入数据/输出数据的值时，描述神经网络的数据描述了神经网络层的结构和操作。

机器学习(ML)是一种有价值的计算技术，其允许计算系统学习解决复杂问题的技术，而无需计算系统遵循明确的算法。ML可使用训练模型，所述训练模型由内部配置的操作组成，这些操作可操纵具体类型的输入数据以确定期望结果。训练模型用于许多计算任务中，诸如计算机视觉、语音处理、预测分析以及更多项。

训练模型以多种形式出现，包括训练分类器、支持向量机(SVM)、神经网络(诸如深度神经网络(DNN)、循环神经网络(RNN)或卷积神经网络(CNN))等。例如，神经网络通常包括输入层、输出层和一个或多个中间隐藏层，其中输入层被配置为接收特定类型的数据，并且输出层被配置为输出期望类型的数据以从网络得出并且一个或多个隐藏层执行各种功能以从输入数据生成输出数据。

各种机器学习技术可用于训练和操作模型以执行本文所描述的各种步骤，诸如用户识别特征提取、编码、用户识别评分、用户识别置信度确定等。模型可根据各种机器学习技术来训练和操作。此类技术可例如包括神经网络(诸如深度神经网络和/或循环神经网络)、推理引擎、训练分类器等。训练分类器的示例包括支持向量机(SVM)、神经网络、决策树、AdaBoost(“自适应增强(Adaptive Boosting)”的缩写)结合决策树和随机森林。例如集中于SVM，SVM是一种具有相关联的学习算法的监督学习模型，所述算法分析数据并且识别数据中的模式，通常用于分类和回归分析。鉴于一组训练示例，每个示例都标记为属于两个类别之一，SVM训练算法构建一个模型，所述模型将新的示例分配到一个类别或另一个类别，使其成为非概率二元线性分类器。可利用标识多于两个类别的训练集构建更复杂的SVM模型，其中SVM确定哪个类别与输入数据最类似。SVM模型可被映射，使得不同类别的示例通过明显的间隙划分。新的示例然后映射到该相同的空间中，并且基于它们落在间隙的哪一侧来预测属于一个类别。分类器可发布指示数据最紧密匹配的类别的“分数”。分数可提供数据匹配类别的紧密程度的指示。

为了应用机器学习技术，机器学习过程本身需要进行培训。训练机器学习部件(在这种情况下诸如第一模型或第二模型中的一者)需要为训练示例建立“基础事实”。在机器学习中，术语“基础事实”是指训练集针对监督学习技术的分类的准确性。可使用各种技术来训练模型，包括反向传播、统计学习、监督学习、半监督学习、随机学习或其他已知技术。

图7概念性地示出了用于训练ML模型以使用基线进行情绪检测的部件。情绪部件275可包括模型构建部件710。模型构建部件710可以是包括在一个或多个系统120中的单独部件。

模型构建部件710可训练一个或多个机器学习模型以基于由基线/参考音频数据表示的用户的中性情绪状态来确定对应于用户输入的情绪。模型构建部件710可在离线操作期间训练一个或多个机器学习模型。模型构建部件710可使用训练数据集训练一个或多个机器学习模型。

训练数据集可包括一对音频数据，一个音频数据表示说话者的中性情绪状态，并且另一个音频数据表示说话者的非中性情绪状态。例如，参考音频数据702a可表示第一说话者的中性情绪状态，并且测试音频数据704a可表示第一说话者的非中性(例如，愤怒的)情绪状态。参考音频数据702b可表示第二说话者的中性情绪状态并且测试音频数据704b可表示第二说话者的非中性(例如，快乐的)情绪状态。所述一对音频数据702和704可构成由模型构建部件710用于训练ML模型以使用基线检测情绪的训练数据集。测试音频数据704可用测试音频数据对应的情绪类别进行注释或标记。

在一些实施方案中，训练数据集还可包括对应于参考音频数据702和/或测试音频数据704的背景数据706。背景数据706a例如可表示第一说话者的环境、情况、位置、场合或在第一说话者说出参考音频数据702a和/或测试音频数据704a时对应于他或她的其他背景信息。背景数据706a还可表示交互类型，该交互类型包括第一说话者在说出话语时正在与谁交互、第一说话者在说话时所处的场合(例如，工作会议、家人/朋友聚会、体育赛事、音乐会等)、时间(例如，早上、下午、晚上、一周中的一天等)、第一说话者在说话时进行的任何动作(例如，驾驶、步行、看电视等)等。背景数据520还可包括表示对应于第一说话者何时说出音频的其他背景信息的数据，诸如天气信息、与用户相关联的生理数据、一年中的季节、一年中的月份等。背景数据706a可表示对应于参考音频数据702a和测试音频数据704a的背景，其中它们都具有类似的/相同的背景。在其他实施方案中，背景数据706a可仅表示对应于参考音频数据702a的背景，并且训练数据集可任选地包括对应于测试音频数据704a的另外的背景数据(未示出)。因此，训练模型615可使用背景数据706来配置以确定/标识对应于运行时操作期间的输入音频数据的背景数据。

作为训练过程的一部分，模型构建部件710可确定训练模型615的各个层的权重和参数。可存储对应于训练模型615的最终状态的权重和参数作为存储数据712。

在图9中示出了用于训练模型615的示例性神经网络。神经网络可由输入层902、一个或多个中间层904和输出层906构成。一个或多个中间层也可称为一个或多个隐藏层。隐藏层的每个节点都连接到输入层中的每个节点和输出层中的每个节点。尽管在图9中以单个隐藏层示出，但神经网络可包括多个中间层。在这种情况下，隐藏层中的每个节点将连接到下一个更高层和下一个更低层中的每个节点。输入层的每个节点表示对神经网络的潜在输入，并且输出层的每个节点表示神经网络的潜在输出。从一个节点到下一个层中的另一个节点的每个连接都可与权重或分数相关联。神经网络可输出单个输出或一组加权的可能输出。

在一个方面，神经网络可用循环连接来构建，使得网络的隐藏层的输出再次反馈回到隐藏层中以用于下一个组的输入。在图10中示出了这种神经网络。输入层1002的每个节点连接到隐藏层1004的每个节点。隐藏层1004的每个节点连接到输出层1006的每个节点。如图所示，隐藏层1004的输出被反馈回到隐藏层以用于处理下一个组的输入。结合循环连接的神经网络可称为循环神经网络(RNN)。

神经网络也可用于执行ASR处理，包括声学模型处理和语言模型处理。在声学模型使用神经网络的情况下，神经网络输入层的每个节点可表示声学特征的特征向量的声学特征，诸如可在第一遍执行语音识别之后输出的那些，并且输出层的每个节点表示对应于子词单元(诸如音素、三音素等)的分数和/或可对应于由特征向量表示的声音的相关联的状态。对于对神经网络的给定输入，它输出多个潜在输出，每个输出都有分配的分数，表示具体的输出鉴于具体的输入是正确输出的概率。声学模型神经网络的得分最高的输出然后可反馈到HMM中，所述HMM可在将结果传递到语言模型之前确定声音之间的转换。

在语言模型使用神经网络的情况下，神经网络输入层的每个节点可表示前一个词语，并且输出层的每个节点可表示由训练神经网络语言模型确定的潜在的下一个词语。因为语言模型可被配置为循环神经网络，所述循环神经网络结合了由神经网络处理的词语的一些历史，诸如图10所示的网络。潜在的下一个词语的预测可基于话语中的前一个词语而不仅仅基于最近的词语。语言模型神经网络还可输出下一个词语的加权预测。

神经网络的处理由每个节点输入的学习权重和网络结构确定。鉴于具体的输入，神经网络一次确定一层的输出，直到计算出整个网络的输出层。

连接权重最初可由神经网络在训练期间学习，其中给定的输入与已知的输出相关联。在一组训练数据中，各种训练示例被反馈到网络中。每个示例通常将输入到输出的正确连接的权重设置为1，并且赋予所有连接0的权重。由于训练数据中的示例由神经网络处理，因此可向网络发送输入并且将输入与相关联的输出进行比较，以确定网络性能相比于目标性能的程度。使用训练技术(诸如反向传播)，可更新神经网络的权重以减少神经网络在处理训练数据时产生的误差。在一些情况下，神经网络可用整个网格进行训练，以在处理整个网格时改进语音识别。

图11示出了由编码器1150处理以生成编码特征向量y的特征数据值1102-1106。在数学符号中，鉴于特征数据值的序列x₁，...x_n，...x_N，其中x_n是一个D维向量，编码器E(x₁，...x_N)＝y将特征序列投影到y，其中y是F维向量。F是向量的固定长度，并且可根据编码向量的用户和其他系统配置进行配置。任何具体的编码器1150将被配置为输出相同大小的向量，从而确保来自任何具体的编码器1150的输出编码向量大小的连续性(尽管不同的编码器可输出不同固定大小的向量)。值y可称为序列x₁，...x_N的嵌入。x_n和y的长度是固定的并且是先验已知的，但是特征序列x₁，...x_N的N的长度不一定是先验已知的。编码器可实现为循环神经网络(RNN)，例如长短期记忆RNN(LSTM-RNN)或门控循环单元RNN(GRU-RNN)。RNN是一种工具，通过它可用数字表示节点网络，并且每个节点表示包括关于网络的先前部分的信息。例如，RNN对特征向量序列执行线性变换，这将序列转换成固定大小向量。所得的向量在缩减的向量空间中保持序列的特征，所述序列原本可以是任意长的。在消耗特征数据值序列之后的RNN的输出是编码器输出。存在RNN编码器消耗编码器输出的多种方式，包括但不限于：

·线性，一个方向(前向或后向)，

·双线性，本质上是前向和后向嵌入的串联，或

·树，基于序列的解析树。

此外，可使用注意力模型，这是另一个RNN或DNN，其学习将注意力“吸引”到输入的特定部分。注意力模型可与上述消耗输入的方法结合使用。

图11示出了编码器1150的操作。输入特征值序列(以特征值x₁1102开始，通过特征值x_n 1104继续并且以特征值x_N 1106结束)被输入到编码器1150中。编码器1150可如上所述处理输入特征值。编码器1150输出编码特征向量y 1110，其是长度为F的固定长度特征向量。一个或多个编码器(诸如1150)可与情绪检测部件275一起使用。例如，音频数据211/用户音频数据610可使用编码器1150a处理以确定一个或多个特征向量612，并且参考音频数据602可使用编码器1150b处理以确定一个或多个特征向量614。在一些实施方案中，编码器1150a和1150b都可以是LSTM，但是可具有被配置为分别对输入音频数据和参考音频数据进行编码的不同的权重和参数。在其他实施方案中，编码器1150a和1150b可具有相同的权重和参数。在又一个实施方案中，编码器1150a(用于处理输入音频数据)和编码器1150b(用于处理参考音频数据)可共享其对于具体层的权重和参数。例如，情绪检测部件275可采用共享或堆叠的LSTM来处理输入音频数据和参考音频数据。编码器1150b的一个或多个层(例如，层1 810、层812)可与编码器1150a的一个或多个层共享其权重和参数，并且反之亦然。

图12是概念性地示出了可与系统一起使用的装置110a和装置110b的框图。图13是概念性地示出了远程装置的示例性部件的框图，诸如可辅助ASR处理、NLU处理等的一个或多个系统120和一个或多个技能系统225。系统(120/225)可包括一个或多个服务器。本文所使用的“服务器”可以是指在服务器/客户端计算结构中理解的传统服务器，但也可以是指可辅助本文讨论的操作的许多不同的计算部件。例如，服务器可包括物理上和/或通过网络连接到其他装置/部件并且能够执行计算操作的一个或多个物理计算部件(诸如机架服务器)。服务器还可包括模拟计算机系统并且在一个装置上或跨多个装置运行的一个或多个虚拟机。服务器还可包括硬件、软件、固件等的其他组合以执行本文讨论的操作。一个或多个服务器可被配置为使用以下中的一者或多者操作：客户端-服务器模型、计算机局模型、网格计算技术、雾计算技术、大型机技术、效用计算技术、对等模型、沙箱技术或其他计算技术。

多个系统(100/120/225)可包括在本公开的整个系统中，诸如用于执行ASR处理的一个或多个系统120、用于执行NLU处理的一个或多个系统120、用于响应于用户输入来执行动作的一个或多个技能系统225等。在操作中，这些系统中的每个系统都可包括驻留在相应装置(120/225)上的计算机可读指令和计算机可执行指令，如下文将进一步讨论的。

这些装置(100/110/120/225)中的每个装置可包括可各自包括用于处理数据和计算机可读指令的中央处理单元(CPU)的一个或多个控制器/处理器(1204/1304)以及用于存储相应装置的数据和指令的存储器(1206/1306)。存储器(1206/1306)可单独包括易失性随机存取存储器(RAM)、非易失性只读存储器(ROM)、非易失性磁阻存储器(MRAM)和/或其他类型的存储器。每个装置(100/110/120/225)还可包括用于存储数据和控制器/处理器可执行指令的数据存储设备部件(1208/1308)。每个数据存储设备部件(1208/1308)可单独包括一种或多种非易失性存储设备类型，诸如磁性存储设备、光学存储设备、固态存储设备等。每个装置(100/110/120/225)也可通过相应输入/输出装置接口(1202/1302)连接到可移动或外部非易失性存储器和/或存储设备(诸如可移动存储卡、存储密钥驱动器、联网存储设备等)。

用于操作每个装置(100/110/120/225)及其各种部件的计算机指令可由相应装置的一个或多个控制器/处理器(1204/1304)执行，使用存储器(1206/1306)作为运行时的临时“工作”存储设备。装置的计算机指令可以非暂时性的方式存储在非易失性存储器(1206/1306)、存储设备(1208/1308)或一个或多个外部装置中。替代地，除了软件之外或代替软件，可执行指令中的一些或全部指令可在嵌入在相应装置上的硬件或固件中。

每个装置(100/110/120/225)包括输入/输出装置接口(1202/1302)。多种部件可通过输入/输出装置接口(1202/1302)连接，如下文将进一步讨论的。另外，每个装置(100/110/120/225)可包括用于在相应装置的部件之间传送数据的地址/数据总线(1224/1324)。装置(100/110/120/225)内的每个部件还可直接连接到其他部件，除了(或代替)跨总线(1224/1324)连接到其他部件之外。

参照图12，装置110可包括输入/输出装置接口1202，所述输入/输出装置接口1202连接到各种部件，诸如音频输出部件，诸如扬声器1212、有线耳机或无线耳机(未示出)或能够输出音频的其他部件。装置110还可包括音频捕获部件。音频捕获部件可以是例如麦克风1220或麦克风的阵列1220、有线耳机或无线耳机(未示出)等。如果包括麦克风的阵列1220，则距声音的原点的近似距离可通过基于由阵列的不同麦克风捕获的声音之间的时间和幅度差进行声学定位来确定。装置110可另外包括用于显示内容的显示器1216。装置110还可包括相机1218。

经由一个或多个天线1214，I/O装置接口1202可经由无线局域网(WLAN)(诸如WiFi)无线电、Bluetooth和/或无线网络无线电(诸如能够与无线通信网络(诸如长期演进(LTE)网络、WiMAX网络、3G网络、4G网络、5G网络等)通信的无线电)连接到一个或多个网络199。有线连接(诸如以太网)也可进行支持。通过一个或多个网络199，系统可跨联网环境分布。I/O装置接口(1202/1302)还可包括允许数据在装置(诸如服务器集合中的不同物理服务器或其他部件)之间交换的通信部件。

一个或多个装置110、一个或多个系统100、一个或多个系统120或一个或多个技能系统225的部件可包括它们自己的专用处理器、存储器和/或存储设备。替代地，一个或多个装置110、一个或多个系统120或一个或多个技能系统225的部件中的一者或多者可分别利用一个或多个装置110、一个或多个系统120或一个或多个技能系统225的I/O装置接口(1202/1302)、一个或多个处理器(1204/1304)、存储器(1206/1306)和/或存储设备(1208/1308)。因此，ASR部件250可具有它自己的一个或多个I/O装置接口、一个或多个处理器、存储器和/或存储设备；NLU部件260可具有它自己的一个或多个I/O接口、一个或多个处理器、存储器和/或存储设备；对于本文讨论的各种部件，如此等等。

如上所述，可在单个系统中采用多个装置。在这样的多装置系统中，装置中的每一者可包括用于执行系统处理的不同方面的不同部件。多个装置可包括重叠的部件。如本文所描述的，装置110、一个或多个系统100、一个或多个系统120和一个或多个技能系统225的部件是说明性的，并且可作为独立的装置定位或者可全部或部分地包括作为更大装置或系统的部件。

如图14所示，多个装置(110a-110k、120、225)可包含系统的部件并且装置可通过一个或多个网络199连接。一个或多个网络199可包括本地或专用网络或者可包括诸如互联网的广域网络。装置可通过有线或无线连接连接到一个或多个网络199。例如，智能手表110a、智能手机110b、语音检测装置110c、平板计算机110d、车辆110e、显示装置110f、智能电视110g、洗衣机/烘干机110h、冰箱110i、烤面包机110j和/或微波炉110k可通过无线服务提供商、通过WiFi或蜂窝网络连接等连接到一个或多个网络199。包括其他装置作为连网支持装置，诸如一个或多个系统120、一个或多个技能系统225和/或其他项。支持装置可通过有线连接或无线连接连接到一个或多个网络199。联网装置可使用一个或多个内置或连接的麦克风或其他音频捕获装置来捕获音频，其中处理由相同装置或经由一个或多个网络199连接的另一个装置的ASR部件、NLU部件或其他部件(诸如一个或多个系统120的ASR部件250、NLU部件260等)执行。

还可鉴于以下条款理解前述内容。

1.一种计算机实现的方法，其包括：

在登记时段期间：

接收表示由用户说出的第一参考话语的第一音频数据；

处理所述第一音频数据以确定所述第一音频数据表示所述用户的中性情绪状态；

确定对应于所述第一音频数据的第一背景数据，所述第一背景数据表示与所述第一音频数据相关联的第一位置或第一交互类型中的至少一者；

确定对应于所述第一音频数据的第一特征向量，所述第一特征向量表示对应于所述第一音频数据的声学语音属性；以及

将所述第一特征向量与所述第一背景数据和与所述用户相关联的用户配置文件相关联；

接收表示由所述用户说出的第二参考话语的第二音频数据；

处理所述第二音频数据以确定所述第二音频数据表示所述用户的中性情绪状态；

确定对应于所述第二音频数据的第二背景数据，所述第二背景数据表示与所述第二音频数据相关联的第二位置或第二交互类型中的至少一者；

确定对应于所述第二音频数据的第二特征向量，所述第二特征向量表示对应于所述第二音频数据的声学语音属性；以及

将所述第二特征向量与所述第二背景数据和所述用户配置文件相关联；

在所述登记时段之后的一定时间段期间：

接收表示由所述用户说出的输入话语的第三音频数据；

确定对应于所述第三音频数据的第三特征向量，所述第三特征向量表示对应于所述第三音频数据的声学语音属性；

确定对应于所述第三音频数据的第三背景数据；

基于所述第三背景数据对应于所述第一背景数据来选择所述第一特征向量；

使用训练模型处理所述第一特征向量和所述第三特征向量以确定分数，所述训练模型被配置为比较参考音频数据与输入音频数据以确定与所述第三音频数据相关联的情绪；

使用所述分数确定情绪类别；以及

将所述情绪类别与所述第三音频数据和所述用户配置文件相关联。

2.如条款1所述的计算机实现的方法，其还包括：

在所述登记时段期间：

接收表示由所述用户说出的第二参考话语的第二音频数据；

使用情绪检测模型处理所述第二音频数据以确定表示所述用户在说出所述第二参考话语时的情绪的第一情绪数据；

确定所述第一情绪数据指示中性以外的情绪；以及

生成请求所述用户说出另一个话语的输出音频数据；

响应于所述输出音频数据来接收所述第一音频数据，并且

其中处理所述第一音频数据以确定所述第一音频数据表示所述用户的中性情绪状态包括：

使用所述情绪检测模型处理所述第一音频数据以确定表示所述用户在说出所述第一参考话语时的情绪的第二情绪数据；以及

确定所述第二情绪数据指示中性情绪类别。

3.如条款1或2所述的计算机实现的方法，其中确定所述第一特征向量包括：

使用第一编码器处理所述第一音频数据以确定所述第一特征向量，所述第一编码器具有至少与第一模型数据对应的第一处理层和与第二模型数据对应的第二处理层，其中所述第一模型数据和所述第二模型数据与所述用户的中性情绪状态相关联，并且

其中确定所述第三特征向量包括：

使用第二编码器处理所述第三音频数据以确定所述第三特征向量，所述第二编码器具有至少与第三模型数据对应的第三处理层，其中所述第三模型数据包括所述第一模型数据的一部分。

4.如条款1、2或3所述的计算机实现的方法，其还包括：

使用文本至语音处理确定对应于所述第二音频数据的文本数据；

确定对应于所述第二音频数据的时间戳，所述时间戳指示与所述用户相关联的装置何时接收到所述第一音频数据；

生成输出数据，所述输出数据包括所述情绪类别、所述文本数据和所述时间戳；以及

经由所述装置显示所述输出数据。

5.一种计算机实现的方法，其包括：

接收输入音频数据；

确定所述输入音频数据表示由与用户配置文件相关联的用户说出的语音；

接收对应于所述输入音频数据的第一背景数据；

从与所述用户配置文件相关联的多个参考音频数据中选择参考音频数据，其中所述参考音频数据基于所述第一背景数据对应于与所述参考音频数据相关联的第二背景数据来选择，并且所述参考音频数据表示所述用户的中性情绪状态；

确定表示对应于所述参考音频数据的声学语音属性的第一特征数据；

确定表示对应于所述输入音频数据的声学语音属性的第二特征数据；

使用训练模型处理所述第一特征数据和所述第二特征数据以确定对应于所述输入音频数据的情绪类别；以及

存储将所述情绪类别与所述用户配置文件和所述输入音频数据相关联的关联数据。

6.如条款5所述的计算机实现的方法，其还包括：

接收表示第一参考话语的第一音频数据；

存储对应于所述第一音频数据的第一位置作为所述第二背景数据；

将所述第一音频数据与所述用户配置文件和所述第二背景数据相关联；

接收表示第二参考话语的第二音频数据；

存储对应于所述第二音频数据的第二位置作为第三背景数据；以及

将所述第二音频数据与所述用户配置文件和所述第三背景数据相关联，

其中选择所述参考音频数据还包括：

确定所述第一背景数据包括与所述输入音频数据相关联的第三位置；

确定所述第三位置对应于所述第一位置；以及

基于所述第三位置对应于所述第一位置来选择所述第一音频数据作为所述参考音频数据。

7.如条款5或6所述的计算机实现的方法，其还包括：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

使用情绪检测模型处理所述第一音频数据以确定第一分数；

使用所述情绪检测模型处理所述第二音频数据以确定第二分数；确定所述第一分数对应于中性情绪类别；以及

存储所述第一音频数据作为所述参考音频数据。

8.如条款5、6或7所述的计算机实现的方法，其还包括：

接收表示第一参考话语的第一音频数据；

确定对应于所述第一音频数据的所述第二背景数据，所述第二背景数据表示对应于所述第一音频数据的第一位置和第一交互类型中的至少一者；

接收表示第二参考话语的第二音频数据；

确定对应于所述第二音频数据的第三背景数据，所述第三背景数据表示对应于所述第二音频数据的第二位置和第二交互类型中的至少一者；

将所述第二音频数据与所述用户配置文件和所述第三背景数据相关联；

其中选择所述参考音频数据还包括：

确定所述第一背景数据对应于所述第二背景数据；以及

选择所述第一音频数据作为所述参考音频数据。

9.如条款5、6、7或8所述的计算机实现的方法，其中确定所述第一特征数据以及确定所述第二特征数据包括：

使用第一编码器处理所述参考音频数据以确定所述第一特征数据，所述编码器具有至少第一处理层和第二处理层；以及

使用第二编码器和对应于所述第二处理层的数据处理所述输入音频数据以确定所述第二特征数据。

10.如条款5、6、7、8或9所述的计算机实现的方法，其还包括在接收所述输入音频数据之前的第一时间段处：

确定第一组话语，所述第一组话语包括表示第二用户的中性情绪状态的第一话语和表示所述第二用户的非中性情绪状态的第二话语；

确定第二组话语，所述第二组话语包括表示第三用户的中性情绪状态的第三话语和表示所述第三用户的非中性情绪状态的第四话语；

存储所述第一组话语和所述第二组话语作为训练数据；

处理所述训练数据以确定模型数据；以及

使用所述模型数据确定所述训练模型，所述训练模型被配置为比较参考音频与输入音频以确定对应于所述参考音频和所述输入音频的所述用户的情绪。

11.如条款5、6、7、8、9或10所述的计算机实现的方法，其中接收所述输入音频数据包括接收由所述用户说出的第一话语以及接收由另外的用户说出的第二话语，并且所述方法还包括：

确定所述第一话语对应于所述用户配置文件的第一置信度水平；

确定所述第一置信度水平满足阈值；

存储所述输入音频数据对应于所述第一话语的第一部分作为用户音频数据；

确定所述第二话语对应于所述用户配置文件的第二置信度水平；

确定所述第二置信度水平未能满足所述阈值；

丢弃所述输入音频数据对应于所述第二话语的第二部分；以及

使用所述输入音频数据的所述第一部分确定所述第二特征。

12.如条款5、6、7、8、9、10或11所述的计算机实现的方法，其还包括：

使用文本至语音处理确定对应于所述输入音频数据的文本数据；

确定指示装置何时接收到所述输入音频数据的时间数据；

生成输出数据，所述输出数据包括所述文本数据、所述时间数据和所述情绪类别的指示符；以及

使用所述装置显示所述输出数据。

13.一种系统，其包括：

至少一个处理器；以及

至少一个存储器，所述至少一个存储器包括指令，所述指令在由所述至少一个处理器执行时致使所述系统：

接收输入音频数据；

接收对应于所述输入音频数据的第一背景数据；

使用训练模型处理所述第一特征数据和所述第二特征数据以确定对应于所述输入音频数据的情绪类别；并且

14.如条款13所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

存储对应于所述第二音频数据的第二位置作为第三背景数据；并且

其中致使所述系统选择所述参考音频数据的所述指令还致使所述系统：

确定所述第三位置对应于所述第一位置；并且

15.如条款13或14所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

使用情绪检测模型处理所述第一音频数据以确定第一分数；

使用所述情绪检测模型处理所述第二音频数据以确定第二分数；确定所述第一分数对应于中性情绪类别；并且

存储所述第一音频数据作为所述参考音频数据。

16.如条款13、14或15所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

确定所述第一背景数据对应于所述第二背景数据；并且

选择所述第一音频数据作为所述参考音频数据。

17.如条款13、14、15或16所述的系统，其中致使所述系统确定所述第一特征数据并且确定所述第二特征数据的所述指令还致使所述系统：

使用第一编码器处理所述参考音频数据以确定所述第一特征数据，所述编码器具有至少第一处理层和第二处理层；并且

18.如条款13、14、15、16或17所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统在接收所述输入音频数据之前的第一时间段期间：

存储所述第一组话语和所述第二组话语作为训练数据；

处理所述训练数据以确定模型数据；并且

19.如条款13、14、15、16、17或18所述的系统，其中致使所述系统接收所述输入音频数据的所述指令还致使所述系统接收由所述用户说出的第一话语并且接收由另外的用户说出的第二话语，并且所述指令还致使所述系统：

确定所述第一置信度水平满足阈值；

确定所述第二置信度水平未能满足所述阈值；

丢弃所述输入音频数据对应于所述第二话语的第二部分；并且

使用所述输入音频数据的所述第一部分确定所述第二特征。

20.如条款13、14、15、16、17、18或19所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

确定指示装置何时接收到所述输入音频数据的时间数据；

生成输出数据，所述输出数据包括所述文本数据、所述时间数据和所述情绪类别的指示符；并且

使用所述装置显示所述输出数据。

本文所公开的概念可在多个不同的装置和计算机系统内应用，包括例如通用计算系统、语音处理系统和分布式计算环境。

本公开的上述方面旨在为说明性的。选择它们是为了解释本公开的原理和应用，而并非旨在进行穷举或限制本公开。所公开的方面的许多修改和变化对于本领域技术人员来说可能是显而易见的。计算机和语音处理领域的普通技术人员应当认识到，本文所描述的部件和过程步骤可能够与其他部件或步骤或者部件或步骤的组合互换，并且仍然实现本公开的益处和优点。此外，本领域的技术人员应当明白，可在不具有特定细节和本文所公开的步骤中的一些或全部的情况下实践本公开。

所公开的系统的方面可被实现为计算机方法或诸如存储器装置或非暂时性计算机可读存储介质的制品。计算机可读存储介质可以是计算机可读的并且可包括用于致使计算机或其他装置执行本公开中描述的过程的指令。计算机可读存储介质可由易失性计算机存储器、非易失性计算机存储器、硬盘驱动器、固态存储器、闪存驱动器、可移动磁盘和/或其他介质实现。此外，系统的部件可在固件或硬件中实现，诸如声学前端(AFE)，其除了其他之外包括模拟和/或数字滤波器(例如，被配置为数字信号处理器(DSP)的固件的滤波器)。

除非另外特别说明或以其他方式在所使用的背景中进行理解，否则除了其他之外诸如“能够”、“可以”、“可能”、“可”、“例如”等的本文所使用的条件语言通常旨在传达：尽管其他实施方案不包括，但特定实施方案包括特定特征、元件和/或步骤。因此，此类条件语言通常并非旨在暗示无论如何所述特征、元件和/或步骤都是一个或多个实施方案必需的，或者并非暗示一个或多个实施方案必须包括用于在借助或不借助其他输入或提示下决定是否包括这些特征、元件和/或步骤或者是否在任何具体实施方案中执行这些特征、元件和/或步骤的逻辑。术语“包括”、“包含”、“具有”等是同义词并且以开放式方式包含性地使用，并且不排除另外的元件、特征、动作、操作等。此外，术语“或”以其包含的意义(而非排他的意义)使用，使得例如当用于连接元件列表时，术语“或”意指列表中的一个、一些或全部元件。

除非另外特别说明，否则诸如短语“X、Y、Z中的至少一者”的析取语言被理解为通常用于呈现项、术语等可以是X、Y或Z或者它们的任何组合(例如，X、Y和/或Z)的背景。因此，此类析取语言通常不旨在也不应当暗示特定实施方案需要X中的至少一个、Y中的至少一个或Z中的至少一个中的每一者都存在。

如在本公开中所使用的，除非另外特别说明，否则术语“一”或“一个”可包括一个或多个项。此外，除非另外特别说明，否则短语“基于”旨在意指“至少部分地基于”。

Claims

1.一种计算机实现的方法，其包括：

接收输入音频数据；

接收对应于所述输入音频数据的第一背景数据；

2.如权利要求1所述的计算机实现的方法，其还包括：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

其中选择所述参考音频数据还包括：

确定所述第三位置对应于所述第一位置；以及

3.如权利要求1或2所述的计算机实现的方法，其还包括：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

使用情绪检测模型处理所述第一音频数据以确定第一分数；

使用所述情绪检测模型处理所述第二音频数据以确定第二分数；

确定所述第一分数对应于中性情绪类别；以及

存储所述第一音频数据作为所述参考音频数据。

4.如权利要求1、2或3所述的计算机实现的方法，其还包括：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

其中选择所述参考音频数据还包括：

确定所述第一背景数据对应于所述第二背景数据；以及

选择所述第一音频数据作为所述参考音频数据。

5.如权利要求1、2、3或4所述的计算机实现的方法，其中确定所述第一特征数据以及确定所述第二特征数据包括：

6.如权利要求1、2、3、4或5所述的计算机实现的方法，其还包括在接收所述输入音频数据之前的第一时间段处：

存储所述第一组话语和所述第二组话语作为训练数据；

处理所述训练数据以确定模型数据；以及

7.如权利要求1、2、3、4、5或6所述的计算机实现的方法，其中接收所述输入音频数据包括接收由所述用户说出的第一话语以及接收由另外的用户说出的第二话语，并且所述方法还包括：

确定所述第一置信度水平满足阈值；

确定所述第二置信度水平未能满足所述阈值；

使用所述输入音频数据的所述第一部分确定所述第二特征。

8.如权利要求1、2、3、4、5、6或7所述的计算机实现的方法，其还包括：

确定指示装置何时接收到所述输入音频数据的时间数据；

使用所述装置显示所述输出数据。

9.一种系统，其包括：

至少一个处理器；以及

接收输入音频数据；

接收对应于所述输入音频数据的第一背景数据；

10.如权利要求9所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

确定所述第三位置对应于所述第一位置；并且

11.如权利要求9或10所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

使用情绪检测模型处理所述第一音频数据以确定第一分数；

确定所述第一分数对应于中性情绪类别；并且

存储所述第一音频数据作为所述参考音频数据。

12.如权利要求9、10或11所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

接收表示第一参考话语的第一音频数据；

接收表示第二参考话语的第二音频数据；

确定所述第一背景数据对应于所述第二背景数据；并且

选择所述第一音频数据作为所述参考音频数据。

13.如权利要求9、10、11或12所述的系统，其中致使所述系统确定所述第一特征数据并且确定所述第二特征数据的所述指令还致使所述系统：

14.如权利要求9、10、11、12或13所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统在接收所述输入音频数据之前的第一时间段期间：

存储所述第一组话语和所述第二组话语作为训练数据；

处理所述训练数据以确定模型数据；并且

15.如权利要求9、10、11、12、13或14所述的系统，其中所述指令在由所述至少一个处理器执行时还致使所述系统：

确定指示装置何时接收到所述输入音频数据的时间数据；

使用所述装置显示所述输出数据。