CN114664328A

CN114664328A - 语音指导系统及其操作方法

Info

Publication number: CN114664328A
Application number: CN202111559881.7A
Authority: CN
Inventors: 弗洛里安·艾本; 克里斯蒂安·利勒隆; 安诺斯·赫尔普兰德; 阿里·厄兹基尔
Original assignee: GN Audio AS
Current assignee: GN Audio AS
Priority date: 2020-12-22
Filing date: 2021-12-20
Publication date: 2022-06-24
Also published as: US20220199080A1; DK202070869A1; EP4020467A1

Abstract

公开了一种语音指导系统及其操作方法，特别是操作包括语音指导装置的语音指导系统的方法，该方法包括获得表示一个或多个语音的音频数据，该音频数据包括第一语音的第一音频数据；基于第一音频数据获得第一语音数据；确定第一语音数据是否满足第一训练标准；根据确定第一语音数据满足第一训练标准，而确定第一训练会话；经由语音指导装置的界面输出指示第一训练会话的第一训练信息。

Description

语音指导系统及其操作方法

技术领域

本公开涉及语音处理和相关工具和方法以及系统，具体用于分析、监控、指导和/或评估一个或多个说话者(例如，呼叫者和/或呼叫的代理和/或电话会话或会议(例如，在线会议)的一个或多个参与者)的语音。因此，提供了一种系统、语音指导装置和相关方法，特别是操作包括语音指导装置的语音指导系统的方法。

背景技术

今天，人们之间的交互越来越多地发生在远距离和虚拟的情况下，例如，经由电话、电话会议等。然而，在电话的每一方，彼此讲话的人可能很难仅仅通过听一次演讲来理解对方的情绪或情感。人们的声音和/或言语能力变得越来越重要。

例如，几乎所有的支持和售后服务都是在发起和/或应答呼叫的呼叫中心代理与被联系的潜在客户或因各种问题联系呼叫中心代理的客户之间通过电话进行的。在呼叫中心、支持中心或联络中心工作的呼叫中心代理会为一项有时单调重复的工作而苦恼。这对代理来说是一种消极的体验，但它也会导致更差的音质表现，进而降低电话另一端客户的满意度，平均而言，通话时间会更长。接了很多个小时的电话后，可能很难记得电话的另一端有一个人渴望得到帮助来解决问题。此外，对于说话者来说，提高他/她的说话技巧也可能是困难的。

发明内容

因此，需要具有改进的语音处理的语音指导系统、语音指导装置和操作语音指导系统的方法。

公开了一种操作包括语音指导装置和/或服务器装置的语音指导系统的方法，所述方法包括：获得表示一个或多个语音的音频数据，该音频数据包括第一语音的第一音频数据；基于第一音频数据获得第一语音数据；确定第一语音数据是否满足第一训练标准；根据确定第一语音数据满足第一训练标准，而确定第一训练会话；并且例如从服务器装置向语音指导装置和/或经由语音指导装置的界面输出指示第一训练会话的第一训练信息。

此外，公开了一种语音指导系统，该语音指导系统包括语音指导装置和可选的服务器装置，其中，该语音指导装置被配置为执行根据本公开的任何方法。

还公开了一种语音指导装置，包括界面、处理器和存储器，处理器可以被配置为执行本文公开的任何方法的至少一部分。例如，可以在语音指导装置处执行确定语音数据、说话者度量数据、检测会话的终止、确定语音数据是否满足第一训练标准、确定训练会话和/或确定和/或输出训练信息。例如，可以在语音指导装置上执行确定缺陷数据、训练表示、练习。训练会话和/或训练信息可以被传输到服务器装置，例如以被存储。

还公开了一种包括界面、一个或多个处理器和存储器的服务器装置，该一个或多个处理器可以被配置为执行本文公开的任何方法的至少一部分。例如，可以在服务器装置处执行确定语音数据、说话者度量数据、检测会话的终止、确定语音数据是否满足第一训练标准、确定训练会话和/或确定和/或输出训练信息。例如，可以在服务器装置处执行确定缺陷数据、训练表示、练习。训练会话和/或训练信息可以被传输到语音指导装置，以便经由语音指导装置输出(诸如显示)。

本公开的一个优点是，语音指导系统可以提高使用语音指导系统的用户的言语和/或语音能力，并且反过来提高用户与之交谈的客户的客户满意度。本公开还可以提高对话和/或呼叫的效率，例如，导致更短和更有效的对话/呼叫。这也可以降低员工和/或公司(例如，呼叫中心)的成本，其中，员工工作的一个重要部分是与客户交谈。本公开还可以为用户提供及时提高他们的技能和/或能力的发展路径或领域，例如，帮助用户达到和/或提高他们的关键绩效指标(KPI)。语音指导系统可以随着时间的推移提供用户的连续一致的训练，例如，以便保持语音指导系统的用户适合于练习。语音指导系统可以为用户提供后续计划，例如，训练计划。此外，本公开可以为一个或多个用户/说话者提供个性化/定制的训练/指导。语音指导系统可以减少或避免让实际的教练或人员训练用户的需要。对于一些公司来说，让专门的人员训练员工可能成本太高。因此，在某些情况下，员工可能根本没有接受过任何训练，这可能会对员工的表现产生负面影响，并且没有技能发展的前景。

此外，用户可以获得关于他/她的表现或对话结果的改进的反馈。用户可以在一次或多次对话后获得反馈，并基于他/她的表现和/或反馈接受训练或指导。语音指导系统可以识别、演示或诊断用户语音的缺陷和/或优势。此外，语音指导系统可以将用户语音的改善与客户满意度的改善相关联。语音指导系统可以提供用户表现的游戏化。语音指导系统例如可以例如通过能够可视化表现的改进来增加用户对他/她的工作的参与度。语音指导系统可以例如增加用户的动机，并给出更好表现的奖励或激励因素。用户可以提高他/她的说话能力，例如，通过与消极说话者保持积极/良好的音调来提高白天的一致性，避免不良的语音表现，例如，中断、长时间停顿、单调和/或语速。

本公开的优点在于，说话者/用户能够监控/评估会话、客户和/或会议，进而允许说话者/用户适应或调整说话者的语音，例如语音的音调，以提高他/她在会话期间的表现。这可以改善说话者的呈现结果和/或说话者与一个或多个其他说话者之间的会话或会议的结果。说话者可以进一步提高对会话和/或另一说话者的理解，例如，更好地掌握另一说话者的情感。说话者/用户例如能够看到顾客/呼叫者何时在最后一次会话/呼叫或一连串的会话/呼叫中突然改变，例如，从否定的说话者状态变为肯定的说话者状态。

附图说明

通过参照附图对本发明的示例性实施例的以下详细描述，本发明的上述和其他特征和优点对于本领域技术人员来说将变得显而易见，其中：

图1示意性地示出了根据本公开的包括服务器装置和语音指导装置的示例性语音指导系统；

图2A和图2B是根据本公开的示例性方法的流程图；

图3示意性示出了根据本公开的示例性数据结构；

图4示意性地示出了根据本公开的示例性语音指导装置；以及

图5示意性示出了根据本公开的示例性方法的流程图。

具体实施方式

下文将参考相关附图描述各种示例性实施例和细节。应当注意，附图可以按比例绘制，也可以不按比例绘制，并且在所有附图中，相似结构或功能的元件由相同的附图标记表示。还应当注意，附图仅旨在便于实施例的描述。它们不是对本发明的详尽描述，也不是对本发明范围的限制。此外，所示实施例不需要具有所示的所有方面或优点。结合特定实施例描述的方面或优点不一定限于该实施例，并且可以在任何其他实施例中实践，即使没有如此示出，或者如果没有如此明确描述。

公开了一种操作包括语音指导装置的语音指导系统的方法。该语音指导系统可以可选地包括服务器装置，该服务器装置包括接口、一个或多个处理器和存储器。服务器装置可以配置在云上，例如，云网络。语音指导系统可以是用于训练和/或指导一个或多个用户(例如，一个或多个用户的语音和/或言语)的系统。该语音指导系统可以是用于监视、处理和/或分析表示一个或多个语音的音频数据的系统，例如，该语音包括一个或多个音频信号，该音频信号包括一个或多个说话者的音频信号，例如，独白或会话，例如，该会话为会议会话、视频/电话会议会话或者诸如电话或VoIP呼叫的呼叫。该系统可以是用于监视、处理和/或分析一个或多个音频信号的系统，例如，该音频信号为说话者的独白或两个或多个人/说话者之间的会话，例如，电话或会议中的会话。该语音指导系统例如可以是包括或充当呼叫中心系统的一部分，用于监控、处理和/或分析一个或多个音频信号，例如，该音频信号为说话者的独白或两个或多个人之间的会话，例如，呼叫中心系统的代理和客户或呼叫者之间的电话呼叫。该系统可以被配置为在一个或多个语音指导装置之间使用边缘处理。该系统可以被配置为在一个或多个语音指导装置之间使用边缘处理。该方法和/或系统的不同操作和/或步骤可以在不同的装置上执行，例如，语音指导装置和/或服务器装置。

该语音指导装置包括接口、处理器和存储器。语音指导装置可以是电子装置。语音指导装置例如可以是或包括移动电话(例如，智能手机)、计算机(例如，膝上型计算机或PC)或平板计算机。语音指导装置例如可以是用户装置，例如，移动电话或计算机，其被配置为在用户和一个或多个人之间执行呼叫。语音指导装置可以被配置为获得例如包括第一音频输入的音频数据例如，该第一音频输入来自第一语音的第一音频输入。可以从用户和另一个人之间的呼叫中获得音频数据。例如，语音指导装置可以充当呼叫代理装置，其中，用户可以是代理，例如，呼叫中心的代理，例如，呼叫中心为支持呼叫中心、售后呼叫中心、营销呼叫中心、接待呼叫中心、或销售呼叫中心，或者为员工工作的重要部分是与客户进行会话的公司。语音指导装置例如可以是诸如移动电话或计算机的用户装置，其被配置为记录来自第一说话者的第一音频输入，例如，记录第一说话者说话或讲话。语音指导装置可以被配置为获得例如包括一个或多个音频信号的音频数据，例如，生成包括第一音频数据(例如，包括第一音频信号)的一个或多个音频信号。第一音频信号可以基于第一音频输入。

该方法包括获得表示一个或多个语音的音频数据，该音频数据也表示为AD。音频数据包括第一语音的第一音频数据，该第一音频数据也表示为AD_1，例如，第一语音是第一说话者的语音，例如，语音指导系统/语音指导装置的用户。

音频数据AD可以包括一个或多个音频信号，该音频信号也表示为AS_i，i＝1，2，…N，其中，N是随着时间推移说话者/音频信号的数量。一个或多个音频信号可以包括第一语音的第一音频信号，该第一音频信号也表示为AS_1。第一语音可以是第一说话者的第一语音通信的语音和/或第一说话者的多个语音通信的语音。第一音频信号可以表示第一对话的第一说话者的第一说话/语音。第一说话者可以是呼叫者、代理或在例如包括第一对话和/或多个对话(例如，第一对话和/或多个对话发生的地方)的电话对话或会议中的第一参与者。一个或多个音频信号可选地包括第二音频信号，该第二音频信号也表示为AS_2。第二音频信号可以表示第一对话和/或多个对话的第二说话者的第二说话/语音。第二说话者可以是呼叫者、代理人、采访者或在例如包括第一对话(例如，第一对话发生的地方)的电话对话或会议中的第二参与者。

获得音频数据可以包括从由说话者/用户执行的一个或多个对话中获得一个或多个音频输入，例如，从由第一说话者/用户执行的一个或多个对话中获得第一音频输入。换言之，第一音频数据可以基于第一音频输入。可以从用户和另一个人之间的呼叫或对话中获得第一音频数据，例如，第一呼叫或第一对话和/或由第一说话者/用户执行的多个对话。第一说话者可以是在第一次呼叫和/或第一对话期间讲话/说话最多的人。第一说话者可以是在第一呼叫和/或第一对话期间和/或在多个对话期间说话的第一人。第一说话者可以是感兴趣的人，例如，可以接受语音指导和/或训练的用户。可以从语音指导装置获得第一音频数据，例如，记录第一语音，例如，该第一语音是从第一说话者输入的第一音频。第一音频数据可以包括来自一个或多个对话的一个或多个记录片段。第一音频数据可以指示被分析的片段，例如，语音片段或话语。例如，语音活动检测模块可以识别一个或多个言语/语音片段并丢弃噪声。片段可以是例如至少5秒或至少10秒的语音片段。语音活动检测模块可以检测长于例如400毫秒、500毫秒或1秒的停顿。当发生停顿时，当另一个说话者开始说话时，或者当片段达到定义的最大长度(例如，最多8秒)时，可以检测到语音片段，这可以指示语音片段的结束。对于每个言语片段语音数据，可以确定一个或多个情感度量和/或一个或多个外观度量。例如，记录第一说话者说话或讲话。获得音频数据可以包括生成第一语音的第一音频数据。获得音频数据可以包括生成一个或多个音频信号，该音频信号包括第一音频信号。第一音频信号可以基于第一音频输入。第一音频信号可以包括第一说话者音频信号。第一音频信号可以是代理音频信号或呼叫者音频信号，第二音频信号是另一个。

该方法包括基于音频数据AD获得语音数据，该语音数据也表示为VD。该方法可以包括基于第一音频数据AD_1获得第一语音数据，该第一语音数据也表示为VD_1。第一语音数据VD_1可以包括指示例如第一说话者的数据的第一语音的数据。获得第一语音数据可以包括基于第一音频数据生成第一语音的第一语音数据。第一语音数据可以是第一代理语音数据，例如，语音指导系统的第一用户/代理的第一语音数据。第一语音数据可以包括说话者度量数据，该说话者度量数据也表示为SPMD。语音数据(例如，第一语音数据)可以被记录和/或保存在存储器上。语音数据(例如，第一语音数据)可以包括时间戳、日期、事件类型和/或语音音频。

在一个或多个示例性方法中，基于音频数据获得语音数据包括基于音频数据确定说话者的说话者度量数据，该说话者度量数据也表示为SPMD。在一个或多个示例性方法中，基于第一音频数据AD_1获得第一语音数据VD_1包括基于第一音频数据确定第一说话者的第一说话者度量数据，该第一说话者度量数据也表示为SPMD_1。第一说话者度量数据SPMD_1可以包括第一主要说话者度量数据SPMD_1_1。第一说话者度量数据可以包括第一语音的一个或多个语音参数/特征。第一说话者度量数据可以包括一个或多个说话者(例如，第一说话者)的音调度量数据、语音特征数据和声音特征数据中的一个或多个。换言之，第一说话者度量数据可以包括一个或多个说话者(例如，第一说话者)的音调度量、语音特征度量和声音特征度量中的一个或多个。第一说话者度量数据可以包括第一说话者/语音分数。换言之，确定第一说话者度量数据可以包括基于第一音频数据确定第一说话者/语音分数。可以基于音调度量、语音特征度量和声音特征度量中的一个或多个来确定第一说话者分数。例如，可以基于第一说话者度量数据来确定第一说话者的一般第一说话者分数。可替代地或另外，可以为每个说话者度量确定第一说话者分数，例如，音调度量、语音特征度量和声音特征度量。换言之，所确定的第一主要说话者度量数据SPMD_1_1、第一次要说话者度量数据SPMD_1_2和/或第一第三(tertiary)说话者度量数据SPMD_1_3可用于确定(例如，转换成)语音分数或会话分数。可以基于是否满足一个或多个标准的一个或多个度量来确定语音分数或会话分数。

说话者度量数据SPMD可以包括随时间变化的一个或多个说话者度量，例如，随时间变化的一个或多个第一说话者度量。换言之，确定说话者度量数据SPMD可以包括例如在会话期间确定随时间变化的一个或多个说话者度量SM。确定第一说话者度量数据SPMD_1可以包括例如在第一会话或第一说话者的第一记录期间确定随时间变化的一个或多个第一说话者度量SPM_1。

确定第一说话者度量数据SPMD_1可以包括确定第一主要说话者度量数据，也表示为SPMD_1_1。确定第一主要说话者度量数据SPMD_1_1可以包括确定随时间变化(例如在第一会话或第一说话者的第一记录期间)的一个或多个第一主要说话者度量SPM_1_1。换言之，第一说话者度量数据SPMD_1可以包括第一主要说话者度量数据SPMD_1_1。此外，第一说话者度量数据可以包括或指示包括一个或多个第一主要说话者度量的一个或多个第一主要说话者度量数据SPMD_1_1、包括一个或多个第一次要说话者度量的第一次要说话者度量数据SPMD_1_2、以及包括一个或多个第一第三说话者度量的第一第三说话者度量数据SPMD_1_3。换言之，确定第一语音数据是否满足第一训练标准可以包括确定说话者度量数据SPMD是否满足第一训练标准，例如，第一说话者度量数据SPMD_1是否满足第一训练标准。例如，确定第一语音数据是否满足第一训练标准可以包括确定第一说话者度量SPM_1是否满足第一训练标准。

在一个或多个示例性方法中，第一主要说话者度量数据包括情感度量数据。确定第一主要说话者度量数据SPMD_1_1可以包括确定情感度量数据，该情感度量数据也表示为SMD。在一个或多个示例性方法中，确定第一主要说话者度量数据SPMD_1_1可以包括确定一个或多个第一情感度量，该一个或多个第一情感度量也表示为SM_1_i，i＝1，2，…，M，其中，M是第一情感度量的数量。换言之，情感度量数据SMD可以包括例如在第一会话期间随时间变化的一个或多个第一情感度量。

情感度量表示说话者的情感状态。情感度量数据SMD可以指示对话中说话者的平均情感。情感度量可以包括情感类型标识符、情感等级和置信度分数中的一个或多个。换言之，确定第一语音数据是否满足第一训练标准可以包括确定第一情感数据是否满足第一训练标准。

一个或多个第一情感度量(例如，SM_1_1和/或SM_1_2)指示第一说话者状态，即第一说话者的一个或多个第一情感状态，并且可以基于第一音频信号和/或第二音频信号。一个或多个第一情感度量SM_1_i可以包括指示第一说话者状态的一个或多个参数。

一个或多个第一情感度量SM_1_i可以包括第一主要情感度量，该第一主要情感度量也表示为SM_1_1，其指示第一说话者的主要情感状态。换言之，SM_1_1可以指示第一说话者的主要情绪。SM_1_1可以指示第一说话者在时间上的支配情感状态和/或第一情感状态。主要情感状态可能是失望、无聊、害怕、悲伤、消极、非常消极、沮丧、恐惧、恐慌、犹豫、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、快乐、满足、高亢、满意、放松、精力充沛、热情、有服务意识、乐于助人、感兴趣和快乐。在一个或多个示例性方法/系统中，可以从一组主要的情感状态中选择第一说话者的主要情感状态。在一个或多个示例性方法中，确定第一语音数据是否满足第一训练标准可以包括确定一个或多个第一情感度量SM_1_i是否满足第一训练标准，例如，第一主要情感度量SM_1_1是否满足第一训练标准。例如，当已经确定第一说话者在一个或多个对话(例如，最近五次呼叫)中具有否定的说话者状态时，可以确定或建议第一说话者执行例如第一训练会话的训练会话，以改善一个或多个第一情感度量。

第一情感度量SM_1_i可以包括第一情感类型标识符，该第一情感类型标识符也表示为ST_ID_1_i，其中，i是索引，i＝1，2，…H，其中，H是第一情感类型标识符的数量。换言之，确定一个或多个第一情感度量SM_1_i可以包括确定第一情感类型标识符ST_ID_1_i，例如，第一主要情感度量SM_1_1的第一主要情感类型标识符ST_ID_1_1。情感类型标识符指示说话者的情感状态。

情感类型标识符例如可以是对应于特定情感(状态)、情感类型和/或情感类别的标签、数字或例如整数的值。例如，可以分别从相同或不同的情感类型标识符集合中选择ST_ID_1_i。例如，可以从主要情感类型标识符集合中选择ST_ID_1_1，和/或可以从次要的情感类型标识符集合中选择ST_ID_1_2。主要情感类型标识符集合可以不同于或相同于次要的情感类型标识符集合。主要情感类型标识符集合和次要情感类型标识符集合可以共享一个或多个(例如，多个)情感类型标识符。

在一个或多个示例性方法中，第一主要情感度量SM_1_1包括从主要情感类型标识符集合ST_ID_SET_1中选择的第一主要情感类型标识符ST_ID_1_1，其中，ST_ID_SET_1包括多个情感类型标识符，例如，包括至少三个、四个、五个或更多个情感类型标识符。

在一个或多个示例性方法中，主要情感类型标识符集合ST_ID_SET_1由下式给出：

ST_ID_SET_1＝{1,2,3,4,5}，

其中，“1”表示例如“非常消极”的情感，“2”表示例如“消极”的情感，“3”表示例如“中立”的情感，可选的“4”表示例如“积极”的情感，可选的“5”表示例如“非常积极”的情感。

ST_ID_SET_1＝{“非常消极”、“消极”、“中立”、“积极”、“非常积极”}

例如，其中，“非常消极”和/或“非常积极”是可选的。

情感类型标识符集合(例如，主要情感类型标识符集合和/或次要情感类型标识符集合)可以包括至少三个或至少四个不同的情感类型标识符，例如，五个、六个、七个、八个、九个或更多个情感类型标识符。换言之，每种情绪或情绪类型都可以有相应的ST_ID_1_i。例如，第一主要情感度量SM_1_1可以包括第一主要情感类型标识符ST_ID_1_1，其指示或对应于主要情感状态或第一说话者状态为“积极”。

第一情感度量SM_1_i可以包括情感等级，该情感等级也表示为SL_1_i，i＝1，2，…，O，其中，O是情感等级的数量。换言之，确定SM_1_i可以包括确定SL_1_i，例如，确定SM_1_1可以包括确定第一主要情感等级SL_1_1。情感等级SL_1_i可以指示第i种情感类型的等级。换言之，SL_1_i可以表示第i种情感类型的程度。例如，当ST_ID_1_1对应于第一说话者状态“积极”时，第一主要情感等级SL_1_1可以指示或对应于情感“积极”的程度，例如，以例如从0到1或从1到10的级别，或者从“低”、“中”和“高”中选择。换言之，情感度量的情感等级可以是一个级别，例如，从0到1或从1到10。换言之，确定第一语音数据是否满足第一训练标准可以包括确定第一情感等级SL_1_i是否满足第一训练标准，例如，第一主要情感等级是否满足第一训练标准。例如，第一训练标准可以包括第一说话者需要训练的说话者状态的第一情感等级SL_1_i的阈值。例如，对于第一语音数据，第一情感等级SL_1_i的阈值可能必须高于5，以满足第一训练标准。

第一情感度量SM_1_i可以包括置信度分数，该置信度分数分别表示为SCS_1_i，i＝1，2，…，P，其中，P是置信度分数的数量。换言之，确定SM_1_i可以包括确定第一置信度分数SCS_1_i，例如，确定第一主要情感度量SM_1_1可以包括确定第一主要置信度分数SCS_1_1。情感度量的置信度分数可以指示所确定的情感度量(例如，情感类型标识符和/或情感等级)正确的分数或概率，例如，情感状态或情感类型(由情感度量的情感类型标识符识别)为正确。例如，SCS_1_1＝0.88可以表示所确定的ST_ID_1_1(例如，为“积极”)是正确的概率为88％。换言之，确定第一语音数据是否满足第一训练标准可以包括确定第一置信度分数SCS_1_i是否满足第一训练标准，例如，第一主要置信度分数是否满足第一训练标准。例如，第一训练标准可以包括第一说话者需要训练的说话者状态的第一置信度分数SCS_1_i的阈值。例如，对于第一语音数据，第一置信度分数SCS_1_i的阈值可能必须高于0.6，以满足第一训练标准。

确定指示第一说话者状态的一个或多个第一情感度量可以包括从第一音频信号中提取一个或多个说话者特征，例如，其中一个或多个第一情感度量基于一个或多个说话者特征。一个或多个说话者特征可以包括副语言特征。一个或多个说话者特征可以例如包括说话者声调特征、说话者语调特征、说话者功率或音量特征、说话者音调特征、说话者语音质量特征、语言特征、声学特征和/或说话者频谱带能量特征。光谱带能量特征可以包括指示给定频率下的信号能量水平的光谱图的各个仓(bins)。

语言特征可以包括特定的情感相关词，例如，肯定和/或否定词。可以基于音频信号的文本抄本来确定语言特征。可以由人类注释者或使用自动语音识别(语音到文本)算法或服务获得文本抄本。语言特征可以包括深度神经网络(例如，BERT变换器网络或其他序列到序列自动编码器)的嵌入特征。

在一个或多个示例性方法中，可以基于机器学习ML模型(例如，ML模型的输出)来确定一个或多个第一情感度量。对ML模型的输入可以是说话者特征或音频信号本身。ML模型可以包括线性回归模型、支持向量机、决策树分类器(例如，随机森林XGBoost)、高斯混合模型、隐马尔可夫模型和/或神经网络。神经网络可以例如包括线性前馈层、卷积层、递归层和关注层中的一个或多个。ML模型可以包括一个或多个说话者特征的加权。例如，ML模型可以将例如说话者语调和/或语音质量映射到情感度量/类型、情感等级和/或情感置信度分数。ML模型可以包括100000个参数到1000000个参数范围内的参数，例如，500000到1000000个参数。ML模型可以包括5层到20层范围内的层，例如，10层到15层。

已知ML模型的示例可以是：“www.researchgate.net/publication/222431291_Emotional_speech_recognition_Resources_features_and_methods”、“https://mediatum.ub.tum.de/doc/1523509/1523509.pdf”和“https://www.researchgate.net/publication/319565810_End-to-end_learning_for_dimensional_emotion_recognition_from_physiological_signals”。

例如，可以从说话者语调度量导出情感度量，也表示为S，其可以是基频F0/音调的归一化方差的和(例如，通过与在音频输入上确定的因子相乘而从0到1的范围，例如，训练音频输入，作为ML模型的训练数据的F0方差的范围的倒数)。例如，可以从说话者语调度量S中导出情感度量，该度量可以是信号强度的归一化(范围为0-1)方差。例如，为了确定情感“高亢”和情感“不高亢”，可以将例如1.0的阈值应用于S，其中，当S高于或等于1.0时检测到高亢，而当S低于1.0时检测到不高亢。此外，可以为情感“高亢”或“不高亢”确定或获得情感等级，例如，在0-1的范围内，其中，S可以除以2(例如，作为总和一部分的说话者特征的数量)。此外，可以基于归一化F0方差和/或归一化信号强度方差的数值差的绝对值来确定或获得情感置信度分数。

ML模型可以基于例如呼叫的记录来训练，其中，验证者或监管者(例如，心理学家和/或人类监管者)例如基于他们自己的主观最大努力判断已经为情感度量分配了情感标识符/标签，和/或为说话者特征分配了说话者特征标签。可以通过信号处理算法和/或作为另一ML模型的输出在算法上确定说话者特征。一个或多个第一情感度量可以由ML模型来推断。ML模型的输入可以包括一个或多个声学特征，例如，响度和/或音调特征。音调特征可以用ML模型来确定，并且例如可以是负音调或正音调。此外，ML模型的输入可以包括声谱图，即(深层)神经网络的潜在(隐藏层激活)表示。ML模型的输入可以包括静态特征向量(“指纹”)，例如，平均值、方差、斜率、峰值距离、调制光谱。ML模型的输入可以包括逐帧(低水平)的声学特征，例如，声音的音调、能量水平、频谱参数(mel频率倒谱MFCC；例如，logMelSpec)、频谱统计(斜率、滚降点)、语音频谱包络特征(例如，共振峰、谐波、谐波与共振峰之比)和/或语音质量度量，例如，谐波噪声比HNR、抖动和/或微光。

在一个或多个示例性方法中，一个或多个第一情感度量SM_1_i包括也表示为SM_1_2的第一次要情感度量，其指示第一说话者的次要情感状态。

次要情感状态可以不同于主要情感状态。换言之，SM_1_2可以指示第一说话者的次要情绪。SM_1_2可以是比第一说话者的主要情感状态和/或次要情感状态在时间上更不占优势的情感状态。次要情感状态可以是失望、无聊、害怕、悲伤、消极、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、快乐、满足、高亢、满意、放松、精力充沛、热情和快乐中的一种。

在一个或多个示例性方法/系统中，可以从次要情感状集合中选择第一说话者的次要情感状态。

第一情感度量SM_1_i可以包括第一情感类型标识符，该第一情感类型标识符也表示为ST_ID_1_i，其中，i是索引。换言之，确定一个或多个第一情感度量SM_1_i可以包括确定第一情感类型标识符ST_ID_1_i，例如，第一次要情感度量SM_1_2的第一次要情感类型标识符ST_ID_1_2。情感类型标识符指示说话者的情感状态。

情感类型标识符例如可以是对应于特定情感(状态)、情感类型和/或情感类别的标签、数字或例如整数的值。例如，可以分别从相同或不同的情感类型标识符集合中选择ST_ID_1_i。例如，可以从第二组情感类型标识符中选择ST_ID_1_2。

在一个或多个示例性方法中，第一次要情感度量SM_1_2包括从次要情感类型标识符集合ST_ID_SET_2中选择的第一次要情感类型标识符ST_ID_1_2，其中，ST_ID_SET_2包括多个情感类型标识符，例如，包括至少三个、四个、五个或更多个情感类型标识符。

在一个或多个示例性方法中，次要情感类型标识符集合ST_ID_SET_2由下式给出：

ST_ID_SET_2＝{1,2,3,4,5}，

ST_ID_SET_2＝{“非常消极”、“消极”、“中立”、“积极”、“非常积极”}

例如，其中，“非常消极”和/或“非常积极”是可选的。

情感类型标识符集合(例如，主要情感类型标识符集合和/或次要情感类型标识符集合)可以包括至少三个或至少四个不同的情感类型标识符，例如，五个、六个、七个、八个、九个或更多个情感类型标识符。换言之，每种情绪或情绪类型都可以有相应的ST_ID_1_i。例如，第一次要情感度量SM_1_2可以包括第一次要情感类型标识符ST_ID_1_2，该第一次要情感类型标识符ST_ID_1_2指示或对应于次要情感状态或第一说话者状态为“积极”。

第一情感度量SM_1_i可以包括情感等级，该情感等级也表示为SL_1_i，i＝1，2，…，O，其中，O是情感等级的数量。换言之，确定SM_1_i可以包括确定SL_1_i，例如，确定SM_1_2可以包括确定第一次要情感等级SL_1_2。情感等级SL_1_i可以指示第i种情感类型的等级。换言之，SL_1_i可以表示第i种情感类型的程度。例如，当ST_ID_1_2对应于第一说话者状态“积极”时，第一次要情感等级SL_1_2可以指示或对应于情感“积极”的程度，例如，以例如从0到1或从1到10的级别，或者从“低”、“中”和“高”中选择。换言之，情感度量的情感等级可以是在例如从0到1或从1到10的级别上。

第一情感度量SM_1_i可以包括置信度分数，该置信度分数分别表示为SCS_1_i，i＝1，2，…，P，其中，P是置信度分数的数量。换言之，确定SM_1_i可以包括确定第一置信度分数SCS_1_i，例如，确定第一次要情感度量SM_1_2可以包括确定第一次要置信度分数SCS_1_2。情感度量的置信度分数可以指示所确定的情感度量(例如，情感类型标识符和/或情感等级)正确的分数或概率，例如，情感状态或情感类型(由情感度量的情感类型标识符识别)为正确。例如，SCS_1_2＝0.88可以表示所确定的ST_ID_1_2(例如，为“积极”)是正确的概率为88％。

在一个或多个示例性方法中，第一次要说话者度量数据SPMD_1_2是音调度量数据，该音调度量数据也表示为TMD。音调度量数据可以包括说话音调数据。确定第一次要说话者度量数据SPMD_1_2可以包括确定音调度量数据。在一个或多个示例性方法中，确定第一次要说话者度量数据SPMD_1_2可以包括确定一个或多个第一音调度量，该一个或多个第一音调度量也表示为TM_1_i，i＝1，2，…，m，其中，m是第一音调度量的数量。换言之，音调度量数据TMD可以包括例如在第一会话期间随时间变化的一个或多个第一音调度量。

音调度量表示说话者的音调。音调度量数据TMD可以指示对话中说话者的平均音调。第一说话者度量数据可以包括例如包括在音调度量数据TMD中的一个或多个第一音调参数。一个或多个第一音调参数可以基于一个或多个第一音调度量。例如，音调度量数据TMD可以指示或包括第一音调参数，该第一音调参数是会话期间说话者的平均音调和/或会话的音调结果(例如，当会话终止时说话者的总音调)。音调度量数据TMD可以指示会话中说话者的平均音调。音调度量数据TMD可以包括一个或多个语音度量。换言之，音调度量数据可以包括一个或多个语音度量，例如，中断、过度讲话、长时间停顿、高或低语速、高或低语调、说话者扭转或突然改变(例如，将顾客从否定转向肯定或相反)和/或响应性。音调度量数据可以包括事件的计数，例如，一个或多个度量的计数。

换言之，确定第一语音数据是否满足第一训练标准可以包括确定音调度量数据TMD是否满足第一训练标准，例如，一个或多个第一音调度量TM_1_i是否满足第一训练标准。例如，当已经确定第一说话者在一次或多次对话(例如，最近五次呼叫)中具有消极的说话音调时，可以确定或建议第一说话者执行例如第一训练会话的训练会话。

在一个或多个示例性方法中，第一说话者度量数据包括作为外观度量数据的第一第三说话者度量数据。确定第一说话者度量数据SPMD_1可以包括确定第一第三说话者度量数据，也表示为SPMD_1_3。换言之，第一说话者度量数据SPMD_1可以包括第一第三说话者度量数据SPMD_1_3。确定第一第三说话者度量数据SPMD_1_3可以包括确定外观度量数据，该外观度量数据也表示为AMD。

在一个或多个示例性方法中，确定第一第三说话者度量数据SPMD_1_3可以包括确定一个或多个第一外观度量(first tertiary speaker metric data)，该一个或多个第一外观度量也表示为AM_1_i，i＝1，2，Q，其中，Q是第一说话者的或与第一说话者相关联的第一外观度量的数量。换言之，外观度量数据AMD可以包括例如在第一会话期间随时间变化的一个或多个第一外观度量。

外观度量表示说话者的外观。第一说话者度量数据可以包括例如包括在外观度量数据AMD中的一个或多个第一外观参数。一个或多个第一外观参数可以基于一个或多个第一外观度量。例如，外观度量数据AMD可以指示或包括第一外观参数，该第一外观参数是说话者在会话期间的平均外观和/或会话的外观结果(例如，当会话终止时说话者的整体外观)。外观度量数据AMD可以指示说话者在会话中的平均外观。外观度量可以包括外观标识符、外观等级和置信度分数中的一个或多个，并且可以例如基于第一音频信号和/或第二音频信号来指示第一说话者的外观。确定一个或多个第一外观度量可以包括例如基于存储在数据库中的与第一说话者相关的信息从数据库中检索第一外观度量。一个或多个第一外观度量AM_1_i可以包括指示第一说话者外观的一个或多个参数。一个或多个第一外观度量AM_1_i包括指示第一说话者的主要外观的第一主要外观度量和/或指示第一说话者的次要外观的第一次要外观度量，该第一主要外观度量也表示为AM_1_1，该第一次要外观度量也表示为AM_1_2。在一个或多个示例性方法中，确定第一语音数据是否满足第一训练标准可以包括确定一个或多个第一外观度量AM_1_i是否满足第一训练标准，例如，第一主要外观度量AM_1_1是否满足第一训练标准。例如，当已经确定第一说话者的第一语音在一次或多次对话中听起来像10岁的女孩时，但是在现实中，例如当与存储在数据库中的实际外观度量进行比较时第一说话者是45岁的男子。然后，可以确定或推荐第一说话者执行例如第一训练会话的训练会话，以改善第一语音的第一外观度量与第一说话者的实际外观的匹配。

换言之，AM_1_1可以指示第一说话者的主要物理外观。AM_1_1可以选自性别度量(例如，女、男或无性别)、体重度量、身高度量、年龄度量、语言度量、语言能力度量、听力能力度量和理解能力度量、方言度量、健康度量(例如，呼吸状况、言语缺陷和/或说话障碍)、性格度量(例如，外向或内向的人)和理解能力度量(例如，基于年龄度量、健康度量和/或性别度量)。当一个老人在听会话时有困难，或者一个外国人对口语不适应时，理解能力度量可能是相关的。理解能力度量可以向用户提供指示，例如，他/她应该说得更慢和更清楚。

第一外观度量AM_1_i可以包括第一外观标识符，该第一外观标识符也表示为A_ID_1_i，其中，i是第i个第一外观度量的索引，i＝1，2，…I，其中，I是第一外观标识符的数量。第一外观标识符可以指示性别度量、体重度量、身高度量、年龄度量、语言度量、语言能力度量、听觉能力度量和理解能力度量之一。换言之，确定AM_1_i可以包括确定A_ID_1_i，包括第一主要外观度量AM_1_1的第一主要外观标识符A_ID_1_1和/或第一次要外观度量AM_1_2的第一次要外观标识符A_ID_1_2。

外观标识符例如可以是对应于特定外观度量、外观类型和/或外观类别的标签、数字或例如，整数的值。例如，A_ID_1_i可以从一组外观类型(例如，包括性别、身高、体重、身高、年龄、语言、语言能力、听觉能力和理解能力中的一个或多个)中选择。外观度量标识符可以是映射到和/或指示外观度量类型的标签或数字。

在一个或多个示例性方法中，第一主要外观度量AM_1_1包括可选地从主要外观标识符集合A_ID_SET_1中选择的第一主要外观标识符A_ID_1_1，其中，A_ID_SET_1包括多个外观标识符，例如，包括至少三个、四个、五个或更多情感类型标识符。在一个或多个示例性方法中，第一主要外观度量AM_1_1是性别度量，即第一主要度量标识符A_ID_1_1指示性别，例如，A_ID_1_1＝“性别”或A_ID_1_1＝1，其可以经由表映射到性别。

在一个或多个示例性方法中，第一次要外观度量AM_1_2包括可选地从次要外观标识符集合A_ID_SET_2中选择的第一次要外观标识符A_ID_1_2，其中，A_ID_SET_2包括多个外观标识符，例如，包括至少三个、四个、五个或更多个外观标识符。

外观标识符集合可以包括两个或至少三个或至少四个不同的外观标识符，例如，五个、六个、七个、八个、九个或更多个外观标识符。例如，第一主要外观度量AM_1_1可以包括指示或对应于第一说话者的主要外观(例如，性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一)的第一主要外观标识符A_ID_1_1。例如，第一次要外观标识符A_ID_1_2可以指示或对应于第一说话者的第一次要外观(例如，性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一)。第一次要外观标识符可选地不同于第一主要外观标识符。

第一外观度量AM_1_i可以包括外观等级，该外观等级也表示为AL_1_1_i，i＝1，2，…，R，其中，R是外观等级的数量。换言之，确定AM_1_i可以包括确定AL_1_i，例如，确定AM_1_1可以包括确定第一主要外观等级AM_1_1。第一外观等级AL_1_1_i可以指示由外观标识符A_ID_1_i指示的外观度量AM_1_i的等级、值、范围或标签。换言之，第一外观等级AL_1_1_i可以指示第一外观度量AM_1_i的等级、值、范围或标签。例如，当A_ID_1_1对应于第一说话者的第一主要外观是“性别”时，第一主要外观等级AL_1_1可以指示或对应于“男性”、“女性”或可选的“男女皆宜”。例如，当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观度量是“高”时，第一次要外观等级AL_1_2可以指示或对应于“矮”、“中”或“高”。例如，当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观为“高”时，第一次要外观等级AL_1_2可以指示或对应于“小于160厘米”、“在160厘米和185厘米之间”或“高于185厘米”。换言之，确定第一语音数据是否满足第一训练标准可以包括确定第一外观等级AL_1_i是否满足第一训练标准，例如，第一主要外观等级是否满足第一训练标准。例如，第一训练标准可以包括第一说话者需要训练的说话者状态的第一外观等级AL_1_i的阈值。

例如，当第一外观标识符(例如，第一第三外观标识符A_ID_1_3)对应于第一说话者的第一外观度量，例如，第一第三外观度量AM_1_3是“年龄”时，第一第三外观等级AL_1_3可以指示或对应于年龄范围，例如，“小于20岁”、“20-40岁”、“40-60岁”或“大于60岁”或年龄标签，例如，“年轻”、“中年”或“老”。

第一外观度量AM_1_i可以包括置信度分数，该置信度分数也表示为ACS_1_i，i＝1，2，…，S，其中，S是置信度分数的数量。换言之，确定第一外观度量AM_1_i可以包括确定第一外观置信度分数ACS_1_i，例如，确定第一主要外观度量AM_1_1可以包括确定第一主要外观置信度分数ACS_1_1。外观度量AM_1_i的第一外观置信度分数ACS_1_i可以指示所确定的第一外观度量AM_1_i(例如，第一外观等级AL_1_1_i)正确的分数或概率，例如，外观度量或外观等级为正确。例如，ACS_1_1＝0.95可以表示确定的AL_1_1为“男性”是正确的概率为95％。换言之，确定第一语音数据是否满足第一训练标准可以包括确定第一置信度分数ACS_1_i是否满足第一训练标准，例如，第一主要置信度分数是否满足第一训练标准。例如，第一训练标准可以包括第一说话者需要训练的说话者状态的第一置信度分数ACS_1_i的阈值。例如，对于第一语音数据，第一置信度分数ACS_1_i的阈值必须高于0.6，以满足第一训练标准。

确定指示第一说话者的一个或多个第一外观度量可以包括从第一音频信号中提取一个或多个说话者外观特征。一个或多个说话者外观特征可以例如包括说话者声调特征、说话者语调特征、说话者功率特征、说话者音调特征、说话者语音质量特征、说话者速率特征、语言特征、声学特征和/或说话者频谱带能量特征。

光谱带能量特征可以包括指示给定频率下的信号能量水平的光谱图的各个仓。

语言特征可以包括特定的外观相关词，例如，肯定和/或否定词。可以基于音频信号的文本抄本来确定语言特征。可以由人类注释者或使用自动语音识别(语音到文本)算法或服务获得文本抄本。语言特征可以包括深度神经网络(例如，BERT变换器网络或其他序列到序列自动编码器)的嵌入特征。

在一个或多个示例性方法中，可以基于机器学习ML模型(例如，ML模型的输出)来确定一个或多个第一外观度量。一个或多个第一外观度量可以由ML模型来推断。ML模型可以包括线性回归模型、支持向量机、决策树分类器(例如，随机森林XGBoost)、高斯混合模型、隐马尔可夫模型和/或神经网络。神经网络可以例如包括线性前馈层、卷积层、递归层和关注层中的一个或多个。ML模型可以包括一个或多个说话者特征的加权。例如，ML模型可以将例如说话者语调和/或语音质量映射到情感度量/类型、情感等级和/或情感置信度分数。ML模型可以包括100000个参数到1000000个参数范围内的参数，例如，500000到1000000个参数。ML模型可以包括5层到20层范围内的层，例如，10层到15层。

ML模型可以基于例如呼叫的记录来训练，其中，验证者或监管者(例如，人类监管者)已经为情感度量分配了情感标识符/标签，和/或为说话者特征分配了说话者特征标签。可以通过信号处理算法在算法上确定说话者特征。一个或多个第一外观度量可以由ML模型来推断。ML模型的输入可以包括音频数据，例如，存储在匹配一个或多个外观度量(例如，外观标签)的已知音频数据的数据库中的音频数据。外观标签可以包括由人和/或基本事实(例如，护照或社会登记处的年龄或身高)指定的标签。例如，音频数据输入可以包括呼叫、电视节目和/或电影演员等的记录。

ML模型的输入可以包括一个或多个声学特征，例如，音调特征。音调特征例如可以是否定音调或肯定音调。此外，ML模型的输入可以包括声谱图，即(深层)神经网络的潜在(隐藏层激活)表示。ML模型的输入可以包括静态特征向量(“指纹”)，例如，平均值、方差、斜率、峰值距离、调制光谱。ML模型的输入可以包括逐帧(低水平)的声学特征，例如，声音的音调、能量水平、频谱参数(mel频率倒谱MFCC；例如，logMelSpec)、频谱统计(斜率、滚降点)、语音频谱包络特征(例如，共振峰、谐波、谐波与共振峰之比)和/或语音质量度量，例如，谐波噪声比HNR、抖动和/或微光。例如，与一个或多个外观度量相关的声学特征(例如，物理外观)可以包括与声道长度相关的元音共振峰的比率。例如，声学特征可以涉及一个或多个外观度量，例如，身体尺寸、语音质量特征，例如，与年龄相关的HNR、抖动和/或微光(例如，对于更高的年龄，更多的呼吸、更多的抖动)，音调可以与性别相关(例如，男性可以具有低于150Hz的音调，女性可以具有高于150Hz的音调)。此外，声学特征可以例如包括语言和方言特征的音素清单/直方图，和/或例如年龄和/或性别的平均频谱包络特征。

在一个或多个示例性方法中，一个或多个第一外观度量AM_1_i包括指示第一说话者的第二外观的第一次要外观度量，该第一次要外观度量也表示为AM_1_2。

在一个或多个示例性方法中，第一次要外观度量AM_1_2包括可选地从次要外观标识符集合A_ID_SET_1中选择的第一次要外观标识符A_ID_1_2，其中，A_ID_SET_1包括多个外观标识符，例如，包括至少三个、四个、五个或更多情感类型标识符。在一个或多个示例性方法中，第一次要外观度量AM_1_2是性别度量，即第一次要度量标识符A_ID_1_2指示性别，例如，A_ID_1_2＝“性别”或可以经由表映射到性别的A_ID_1_2＝1。

在一个或多个示例性方法中，第一次要外观度量AM_1_2包括可选地从第二组外观标识符A_ID_SET_2中选择的第一次要外观标识符A_ID_1_2，其中，A_ID_SET_2包括多个外观标识符，例如，包括至少三个、四个、五个或更多个外观标识符。

外观标识符集合可以包括两个或至少三个或至少四个不同的外观标识符，例如五个、六个、七个、八个、九个或更多个外观标识符。例如，第一次要外观度量AM_1_2可以包括指示或对应于第一说话者的次要外观的第一次要外观标识符A_ID_1_2，例如，性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一。例如，第一次要外观标识符A_ID_1_2可以指示或对应于第一说话者的第一次要外观，例如，性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力、方言度量、健康度量(例如，呼吸状况、言语缺陷和/或说话障碍)、性格度量(例如，外向或内向的人)和理解能力度量(例如，基于年龄度量、健康度量和/或性别度量)之一。当一个老人在听会话时有困难，或者一个外国人对口语不适应时，理解能力度量可能是相关的。理解能力度量可以向用户提供指示，例如，他/她应该说得更慢和更清楚。第一次要外观标识符可选地不同于第一次要外观标识符。

第一外观度量AM_1_i可以包括外观等级，也表示为AL_1_1_i，i＝1，2，…，R，其中，R是外观等级的数量。换言之，确定AM_1_i可以包括确定AL_1_i，例如，确定AM_1_2可以包括确定第一次要外观等级AM_1_2。第一外观等级AL_1_i可以指示由外观标识符A_ID_1_i所指示的外观度量AM_1_i的等级、值、范围或标签。换言之，第一外观等级AL_1_i可以指示第一外观度量AM_1_i的等级、值、范围或标签。例如，当A_ID_1_2对应于第一说话者的第一次要外观是“性别”时，第一次要外观等级AL_1_2可以指示或对应于“男性”、“女性”或可选地“男女皆宜”。例如，当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观度量是“高”时，第一次要外观等级AL_1_2可以指示或对应于“矮”、“中”或“高”。例如，当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观为“高”时，第一次要外观等级AL_1_2可以指示或对应于“小于160厘米”、“在160厘米和185厘米之间”或“高于185厘米”。

例如，当第一外观标识符(例如，第一第三外观标识符A_ID_1_3)对应于第一说话者的第一外观度量，例如，第一第三外观度量AM_1_3是“年龄”时，第一第三外观等级AL_1_3可以指示或对应于年龄范围，例如，“小于20岁”、“20-40岁”、“40-60岁”或“大于60岁”，或年龄标签，例如，“年轻”、“中年”或“老”。

第一外观度量AM_1_i可以包括置信度分数，置信度分数也表示为ACS_1_i，i＝1，2，…，S，其中，S是置信度分数的数量。换言之，确定第一外观度量AM_1_i可以包括确定第一外观置信度分数ACS_1_i，例如，确定第一次要外观度量AM_1_2可以包括确定第一次要外观置信度分数ACS_1_2。外观度量AM_1_i的第一外观置信度分数ACS_1_i可以指示所确定的第一外观度量AM_1_i(例如，第一外观等级AL_1_1_i)正确的分数或概率，例如，外观度量或外观等级为正确。例如，ACS_1_2＝0.95可以表示确定的AL_1_2是“男性”的概率为95％。

一个或多个第一情感度量和一个或多个第一外观度量可以是第一说话者度量数据的一部分。第一说话者度量数据也可以表示为代理度量数据和/或呼叫者度量数据。

在一个或多个示例性方法中，获得语音数据包括确定指示语音的一个或多个缺陷的缺陷数据，该缺陷数据也表示为DD(deficiency data)。

在一个或多个示例性方法中，获得第一语音数据VD_1包括确定指示第一语音的一个或多个缺陷的第一缺陷数据，该第一缺陷数据也表示为DD_1。换言之，获得第一语音数据可以包括确定第一语音数据(例如，第一语音)是否包括一个或多个缺陷。缺陷可以被定义为语音数据，例如，第一说话者/用户在预定或定义的范围、阈值和/或值之外的说话者度量和/或语音度量。也可以根据说话者/用户没有按照要求或定义进行操作的事件来确定缺陷。

在一个或多个示例性方法中，确定第一语音数据是否满足第一训练标准包括确定指示第一语音的一个或多个缺陷的第一缺陷数据以及确定第一缺陷数据是否满足第一训练标准，例如，假设第一缺陷数据满足一个或多个阈值。获得第一缺陷数据可以包括识别一个或多个说话者度量和/或语音度量，其中，第一说话者的表现低于定义的标准。

在一个或多个示例性方法中，缺陷数据包括说话音调缺陷、言语特征缺陷和声音特征缺陷中的一个或多个。第一缺陷数据可以包括第一说话者的说话音调缺陷、言语特征缺陷和声音特征缺陷中的一个或多个。说话音调缺陷可以例如包括否定的说话音调、不满意的说话音调、担心的音调、厌烦的音调和/或害怕的音调。言语特征缺陷可以例如包括缺乏热情、缺乏友好、缺乏同理心和/或缺乏第一说话者的专业精神，例如，在第一语音中。声音特征缺陷可以例如包括单调的声音、令人不快的语速、令人不快的语调变化和/或不清晰的发音。

在一个或多个示例性方法中，获得语音数据包括确定指示语音的一个或多个强度的强度数据，也表示为SD。

在一个或多个示例性方法中，获得第一语音数据VD_1包括确定指示第一语音的一个或多个强度的第一强度数据，第一强度数据也表示为SD_1。换言之，获得第一语音数据可以包括确定第一语音数据(例如，第一语音)是否包括一个或多个强度。

在一个或多个示例性方法中，确定第一语音数据是否满足第一训练标准包括确定指示第一语音的一个或多个强度的第一强度数据。获得第一强度数据可以包括识别一个或多个说话者度量和/或语音度量，其中，第一说话者的表现高于定义的标准。

在一个或多个示例性方法中，强度数据包括说话音调强度、语音特征强度和声音特征强度中的一个或多个。第一强度数据可以包括第一说话者的说话音调强度、语音特征强度和声音特征强度中的一个或多个。说话音调强度可以例如包括肯定的说话音调、满意的说话音调、服务意识的音调、热情的音调和/或助人的音调。语音特征强度可以例如包括诸如在第一语音中第一说话者的热情、友好和/或专业精神。声音特征强度可以例如包括变化的声音、令人愉快的语速和/或清晰的发音。

第一训练信息可以基于缺陷数据和/或强度数据。

换言之，训练信息可以向用户/第一说话者提供关于他/她的语音参数/特征的反馈，例如，与缺陷数据和/或强度数据相关的反馈。第一训练信息可以向用户/说话者提供反馈报告，例如，个性化反馈报告。输出第一训练信息可以生成第一反馈报告。第一训练信息可以提供概括的反馈报告，其中，突出显示第一说话者/用户的一个或多个缺点和/或优点。第一训练信息可以包括第一语音数据的基准，例如，关于第一说话者工作的公司的一个或多个其他用户和/或语音指导系统的其他用户。基于缺陷数据的第一训练信息可以向第一说话者提供关于要改善什么语音参数/特征的反馈。基于强度数据的第一训练信息可以向第一说话者提供正反馈，例如，通过显示语音参数/特征和/或一个或多个语音参数/特征中的一个或多个强度随时间的改善来激励第一说话者。

该方法包括确定语音数据VD是否满足训练标准，训练标准也表示为TC。该方法可以包括确定第一语音数据VD_1是否满足第一训练标准，第一训练标准也表示为TC_1。该方法可以包括确定第一语音数据是否满足或履行第一训练标准。

第一训练标准可以指示第一语音数据是否满足第一训练标准的阈值，例如，第一阈值。第一训练标准可以指示是否应该针对第一语音的一个或多个缺陷指导或训练用户/说话者。换言之，该方法包括根据所确定的第一语音数据来确定是否应该对第一说话者/用户进行指导和/或训练，例如，一个或多个训练会话。例如，当第一语音数据满足训练标准时，用户可以需要改善他/她的语音的一个或多个缺陷，例如，第一说话者的第一语音。第一训练标准可以包括第一语音数据(例如，第一说话者度量数据)可以与之比较的一个或多个参数。例如，第一训练标准可以包括第一说话音调标准/参数、第一语音特征标准/参数、第一声音特征标准/参数和/或第一时间参数/标准(例如，第一说话者必须执行第一训练会话之前的时间限制)。换言之，第一训练标准可以包括第一语音数据要满足的一个或多个条件。

在一个或多个示例性方法中，确定第一语音数据是否满足第一训练标准包括确定第一语音数据是否高于、等于或低于第一阈值或在第一范围内。

确定第一语音数据满足第一训练标准可以理解为第一语音数据高于第一阈值、等于和/或在第一范围内。例如，当第一语音数据等于第一阈值时，出于预防原因，仍然可以确定第一语音数据满足第一训练标准。第一训练标准可以基于标准说话者分数。确定第一语音数据是否满足第一训练标准可以包括确定第一语音数据的第一说话者分数是否满足标准说话者分数。

在一个或多个示例性方法中，训练标准(例如，第一训练标准)基于说话者度量数据，例如，第一说话者度量数据。可以基于一个或多个第一说话者度量来确定第一训练标准。例如，当第一说话者度量数据包括第一音调度量时，第一训练标准可以包括第一音调度量。然后，可以将第一音调度量与第一训练标准的标准音调度量和/或音调度量的阈值进行比较。

在一个或多个示例性方法中，训练标准基于标准。在一个或多个示例性方法中，第一训练标准基于第一标准。可以根据第一标准来确定第一训练标准。第一标准可以包括一个或多个标准值或模型值，例如，黄金标准。换言之，对于一个或多个语音度量，第一标准可以包括一个或多个标准值，指示说话者的标准或模型表现，例如，说话者的语音。对于一个或多个语音度量，第一标准可以包括指示最佳表现的一个或多个标准值。例如，第一标准可以包括标准音调度量、标准语音特征度量和/或标准声音特征度量。第一标准可以包括例如由第一说话者工作的公司、管理者和/或第一说话者/用户本人定义的一个或多个参数。换言之，可以重复训练会话，直到第一语音数据满足/达到标准。第一标准可以被定义为第一语音数据的直接目标，例如，第一说话者度量和/或语音度量。例如，第一语音数据可以满足音调分数阈值、语调变化最小水平、语速范围和/或音量范围。可替代地或另外，第一标准可以被定义为间接目标，例如，以公司KPI、呼叫中心KPI的形式，例如，提高客户满意度分数(CSAT)、增加销售数量和/或减少呼叫处理时间。例如，当第一标准被定义为间接目标时，可以从基于例如公司中多个用户/说话者和/或客户的获得/分析的音频数据构建的统计或机器学习模型来推断第一说话者度量。这种模型可以预测定义的KPI和为一个或多个用户/说话者获得的语音数据之间的关系。例如，在大多数情况下，以一定的速度范围说话可能会增加CSAT。在一个或多个示例性方法中，可以基于训练模型来确定第一训练会话，例如，机器学习模型。训练模型例如可以针对一个或多个语音度量和/或说话者度量进行优化。

该方法包括根据确定语音数据满足训练标准来确定训练会话，训练会话也表示为TS。可以基于音频数据AD、语音数据VD和/或说话者度量数据SPMD来确定训练会话TS。训练会话可以包括一个或多个声音训练模块。该方法可以包括根据确定第一语音数据满足第一训练标准来确定第一训练会话TS_1。可以基于第一音频数据AD_1、第一语音数据VD_1和/或第一说话者度量数据SPMD_1来确定第一训练会话TS_1。可以基于第一说话者简档(firstspeaker profile)来确定第一训练会话，例如，基于第一音频数据(例如，第一语音数据)确定的第一说话者简档。第一说话者简档可以包括指示第一说话者的第一语音的一个或多个参数。可以根据第一说话者必须改进的度量或能力来调整第一训练会话，例如，根据第一训练标准和/或第一说话者度量数据。第一训练会话可以包括一个或多个练习，用于改善第一语音/第一说话者的一个或多个参数和/或缺陷。第一训练会话可以基于第一训练标准，例如，第一训练会话包括用于改善满足第一训练标准的一个或多个参数的一个或多个练习。训练会话可以包括一个或多个训练会话类型，例如，取决于要训练的语音参数/度量/能力。第一训练会话可以包括一个或多个练习，基于第一说话者应该首先提高哪些语音参数/度量/能力的优先级。第一训练会话可以包括一个或多个语音训练/指导练习。可以从训练会话列表中选择第一训练会话，例如，训练会话列表包括一个或多个标准训练会话。训练会话可以包括训练会话配置或布局。在一个或多个示例性方法中，第一训练会话可以是针对第一说话者的个性化训练会话。对于一些说话者/用户，第一说话者度量可以由另一说话者度量来补偿。例如，对于一些说话者/用户，语速可能会对表现不佳的CSAT产生直接影响。对于其他说话者/用户，语速可以通过另一说话者度量来补偿。例如，说话非常快或非常慢的用户/说话者在CSAT上可能仍然有良好的表现。在一个或多个示例性方法中，可以基于训练模型来确定第一训练会话，例如，机器学习模型。训练模型可以例如利用强化学习。训练模型可以例如利用基于找到个性化目标语音度量和/或说话者度量的强化学习。

在一个或多个示例性方法中，训练会话可以包括训练方案。换言之，第一训练会话可以包括第一训练方案。训练方案可以包括训练内容、训练复杂度/水平、训练频率、训练时间、后续计划/方案和/或训练持续时间。第一训练会话的训练持续时间可以在2分钟至45分钟的范围内，例如，10分钟、15分钟、20分钟或30分钟。训练方案可以基于用户的历史表现、经验、角色/功能的变化，例如，移动到不同的团队，和/或先前完成的练习。

在一个或多个示例性方法中，确定训练会话包括例如基于音频数据AD、语音数据VD、说话者度量数据SPMD、缺陷数据和/或标准来确定训练表示，训练表示也表示为TR。换言之，该方法包括将训练表示TR包括在训练会话TR中。训练表示可以指示例如将由说话者执行的一个或多个练习。在一个或多个示例性方法中，确定第一训练会话包括例如基于第一音频数据、第一语音数据、第一说话者度量数据、第一缺陷数据和/或第一标准来确定第一训练表示TR_1。换言之，该方法包括将第一训练表示TR_1包括在训练会话TR_1中。确定第一训练表示TR_1可以包括确定例如包括第一练习表示的一个或多个练习表示，第一练习表示也表示为ER_1。训练表示可以包括一种或多种训练表示类型，例如，取决于要训练的语音参数/度量/能力。换言之，第一训练表示可以包括第一训练会话类型，例如，取决于要由第一说话者训练的语音参数/度量/能力。例如，第一训练表示可以基于所确定的指示第一说话者的第一语音的一个或多个缺陷的第一缺陷数据。第一训练表示可以包括从例如从服务器装置的数据库获得的练习列表中选择的一个或多个练习。可以从训练表示列表中选择第一训练表示，例如，训练表示列表包括一个或多个标准训练表示。训练表示可以包括训练表示配置或布局。第一训练表示可以包括声音表示，例如，听觉反馈和/或音频图标。

在一个或多个示例性方法中，训练会话TS包括一个或多个练习，一个或多个练习也表示为EX_i，i＝1，2，…X，其中，X是练习的数量。一个或多个练习可以表示缺陷数据DD。在一个或多个示例性方法中，第一训练会话TS_1包括一个或多个第一练习，一个或多个第一练习也表示为EX_1_i，i＝1，2，…x，其中，x是第一练习的数量。练习可以包括持续时间，例如，10分钟、15分钟、20分钟或30分钟。练习可以提示第一说话者/用户说出具有特定语音度量的短语或句子，例如，第一训练会话和/或练习本身可能针对的语音特征。可以在进行练习时记录第一说话者，例如，在说出短语或句子时，用于获得音频数据/语音数据。可以分析来自练习的音频数据/语音数据，并且可以确定音频数据/语音数据是否满足训练标准。根据音频数据/语音数据是否满足训练标准的确定结果，该方法可以进行另一练习、重复相同的练习或停止。换言之，确定第一训练会话可以包括确定一个或多个第一练习并将一个或多个第一练习包括在第一训练会话中。一个或多个第一练习EX_1_i可以表示第一缺陷数据DD_1。一个或多个第一练习EX_1_i可以表示第一音频数据AD、第一语音数据VD和/或第一说话者度量数据SPMD。换言之，一个或多个第一练习可以被配置为训练第一说话者的第一声音，以补救或改善第一语音的一个或多个缺陷中的至少一些。一个或多个第一练习EX_1_i可以被配置为训练第一说话者的第一语音，以改善一个或多个度量/参数，例如，第一说话者的第一语音的声音度量/参数，例如，第一说话者的第一语音的说话音调、语音特征和/或声音特征。一个或多个第一练习EX_1_i可以包括用于提高对语音、声音和/或音调的理解的练习。

在一个或多个示例性方法中，一个或多个第一练习包括说话音调练习、言语特征练习和声音特征练习中的一个或多个。换言之，确定一个或多个第一练习可以包括确定说话音调练习、言语特征练习和声音特征练习中的一个或多个。说话音调练习可以是用于改善例如第一说话者的第一语音的说话音调缺陷的练习。言语特征练习可以是用于改善第一说话者的第一声音的言语特征缺陷的练习。声音特征练习可以是用于改善第一说话者的第一声音的声音特征缺陷的练习。

该方法包括经由语音指导装置的界面输出指示第一训练会话的第一训练信息。换言之，输出第一训练信息可以包括经由语音指导装置的界面输出第一训练会话。输出第一训练信息可以包括显示指示第一训练信息的第一用户界面。用户界面可以包括一个或多个(例如，多个)用户界面对象。输出第一训练信息可以在例如在语音指导装置上向第一说话者/用户指示准备好执行第一训练会话。例如，第一用户界面可以包括一个或多个第一用户界面对象，例如，第一主要用户界面对象和/或第一次要用户界面对象。用户界面对象在本文可以指在语音指导装置的界面(例如显示器)上显示的对象的图形表示。用户界面对象可以是用户交互式的，或者可由用户输入选择。例如，图像(例如，图标)、按钮和文本(例如，超链接)，都可选地构成用户界面对象。用户界面对象可以形成小部件(widget)的一部分。小部件可以被视为用户可以使用的小应用程序。

在一个或多个示例性方法中，第一训练信息是执行第一训练会话的建议，并且其中，输出第一训练信息包括在界面的显示器上显示训练用户界面对象。训练用户界面对象可以指示第一训练会话、第一训练表示和/或一个或多个第一练习。训练用户界面对象可以包括在指示第一训练信息的第一用户界面中。训练用户界面对象可以包括图像(例如，图标)、按钮和文本(例如，超链接)中的一个或多个，其可以将用户/第一说话者引导至第一训练会话进行训练。

第一训练信息可以包括通知要训练的用户/第一说话者(例如，电子邮件、短信和/或日历邀请)，以执行和/或通知第一训练会话对他/她可用。换言之，第一训练信息可以包括用第一训练会话填充日历，例如，专用训练日历和/或用户/第一说话者的日历。第一训练信息可以包括填充用户/第一说话者的任务列表，使得用户/第一说话者可以看到他/她必须执行的一个或多个训练会话。

在一个或多个示例性方法中，该方法包括确定用户已经执行了第一训练会话。确定用户已经执行了第一训练会话可以包括检测第一训练会话的执行的终止，例如一个或多个第一练习的执行的终止，例如，第一训练会话的终止、结束或保持。

在一个或多个示例性方法中，该方法包括例如根据用户已经执行了第一训练会话的确定来获得第一语音的第二音频数据，第二音频数据也表示为AD_2。换言之，可以在第一说话者/用户执行第一训练会话之后获得第二音频数据。第一音频数据AD_1的描述也可以应用于第二音频数据AD_2。第二音频数据的获得可能在时间上晚于第一音频数据。

在一个或多个示例性方法中，该方法包括基于第二音频数据AD_2获得第二语音数据，第二语音数据也表示为VD_2。第二语音数据VD_2可以包括指示第一语音的数据，例如，第一说话者的数据。获得第二语音数据可以包括基于第二音频数据生成第一语音的第二语音数据。第二语音数据可以是第二代理语音数据，例如，语音指导系统的第一用户/说话者/代理的第二语音数据。第二语音数据可以包括也表示为SPMD的说话者度量数据，例如，第二说话者度量数据SPMD_2。

在一个或多个示例性方法中，基于第二音频数据获得第二语音数据包括基于第二音频数据确定第一说话者的第二说话者度量数据，第二说话者度量数据包括第二主要说话者度量数据，第二主要说话者度量数据也表示为SPMD_2_1。

在一个或多个示例性方法中，获得第二语音数据包括确定指示第一语音的一个或多个缺陷的第二缺陷数据DD_2。

第一语音数据VD_1、第一说话者度量数据和第一缺陷数据的描述也可以分别应用于第二语音数据VD_2、第二说话者度量数据和第二缺陷数据。第二语音数据VD_2、第二说话者度量数据和第二缺陷数据可以分别不同或对应于第一语音数据VD_1、第一说话者度量数据和第一缺陷数据。第二语音数据的获得可能在时间上晚于第一语音数据。

在一个或多个示例性方法中，该方法包括基于语音数据VD确定指示训练会话反馈的反馈信息，反馈信息也表示为FB。

在一个或多个示例性方法中，该方法包括基于第二语音数据确定指示第一训练会话反馈的第一反馈信息，第一训练会话反馈也表示为TFB_1，第一反馈信息也表示为FB_1。

确定第一反馈信息FB_1可以包括基于第一训练会话、第二音频数据和/或第二语音数据来确定第一训练会话反馈。

第一反馈信息可以指示第一训练会话的结果。该方法可以包括例如经由语音指导装置的界面输出第一反馈信息。输出第一反馈信息可以包括显示指示第一反馈信息的第一用户界面。用户界面可以包括一个或多个(例如，多个)用户界面对象。例如，第一用户界面可以包括一个或多个第一用户界面对象，例如，第一主要用户界面对象和/或第一次要用户界面对象。用户界面对象在本文可以指在语音指导装置的界面上显示的对象的图形表示，例如，显示器。用户界面对象可以是用户交互式的，或者可由用户输入选择。例如，图像(例如，图标)、按钮和文本(例如，超链接)都可选地构成用户界面对象。用户界面对象可以形成小部件的一部分。小部件可以被视为用户可以使用的小应用程序。

在一个或多个示例性方法中，第一反馈信息是对用户/说话者的建议，以查看所执行的第一训练会话和第二语音数据的第一训练会话反馈。第一反馈信息可以包括通知要训练的用户/第一说话者(例如，电子邮件、短信和/或日历邀请)，以查看和/或通知第一训练会话反馈对他/她可用。换言之，第一反馈信息可以包括用第一训练会话反馈填充日历，例如，专用训练日历和/或用户/第一说话者的日历。第一反馈信息可以包括填充用户/第一说话者的任务列表，使得用户/第一说话者可以看到他/她已经接收到的一个或多个训练会话反馈。

第一反馈信息可以基于缺陷数据和/或强度数据。第一反馈信息可以取决于第一训练会话反馈。

换言之，训练信息可以向用户/第一说话者提供关于他/她的语音参数/特征的反馈，例如，与缺陷数据和/或强度数据相关的反馈。基于缺陷数据的第一反馈信息可以向第一说话者提供关于要改善什么语音参数/特征的反馈。基于强度数据的第一反馈信息可以向第一说话者提供正反馈，例如，通过显示一个或多个语音参数/特征和/或一个或多个语音参数/特征中的一个或多个强度随时间的改善来激励和增加第一说话者的意识。

第一训练会话反馈可以向用户/第一说话者提供关于他/她的语音参数/特征的反馈，例如，与缺陷数据和/或强度数据相关的反馈。基于缺陷数据的第一训练会话反馈可以向第一说话者提供关于要改善什么语音参数/特征的反馈。基于强度数据的第一训练会话反馈可以向第一说话者提供正反馈，例如，通过显示语音参数/特征和/或一个或多个语音参数/特征中的一个或多个强度随时间的改善来激励第一说话者。第一训练会话反馈可以包括与针对第一说话者/用户执行的第一训练会话的结果或后果相关的反馈。换言之，第一训练会话反馈可以向第一说话者/用户给出关于他/她是否在一个或多个语音参数/度量上有所改善的指示。

在一个或多个示例性方法中，该方法包括经由语音指导装置的界面输出第一反馈信息。对输出第一训练信息的描述也可以适用于输出第一反馈信息。

在一个或多个示例性方法中，该方法包括基于第二音频数据获得第二语音数据。第一语音数据VD_1的描述也可以适用于第二语音数据VD_2。第二语音数据的获得可能在时间上晚于第一语音数据。例如，可以在第一说话者已经执行第一训练会话之后的确定的时间段或时间间隔内获得第二音频数据和/或第二语音数据。例如，可以在执行第一训练会话之后的几天、几周和/或几个月获得第二音频数据和/或第二语音数据，例如，以确定对第一语音执行第一训练会话的结果或后果。

在一个或多个示例性方法中，该方法包括确定第二语音数据是否满足第二训练标准。确定第一语音数据是否满足第一训练标准的描述也可以应用于确定第二语音数据是否满足第二训练标准。第一训练标准的描述可以适用于第二训练标准。

在一个或多个示例性方法中，第二训练标准可以包括大于第一标准的第一阈值的第二阈值。例如，第一说话者在已经执行了第一训练会话之后，可能已经改善了一个或多个语音参数/特征。用于确定第一说话者是否需要执行进一步训练(例如，第二训练会话)的阈值可以随着第一说话者的表现成比例地增加，例如，用于第一说话者的第一语音的持续改善。在一个或多个示例性方法中，第一标准可能已经被确定为相对于第一语音太高。因此，第二训练标准可以包括低于第一阈值的第二阈值，例如，当第一说话者在已经执行了第一训练会话之后可能已经恶化了一个或多个语音参数/特征时。

在一个或多个示例性方法中，该方法包括根据确定第二语音数据满足第二训练标准，确定第二训练会话。确定第一语音数据是否满足第一训练标准的描述也可以应用于确定第二语音数据是否满足第二训练标准。一段时间后，第一说话者的第一语音可能已经恶化，例如，一个或多个语音参数/特征可能已经恶化。因此，可以确定第一说话者的第一语音在该时间段之后是否仍然满足确定的表现。因此，在已经执行了一个或多个训练会话(例如，第一训练会话)之后，可以连续地重新训练第一说话者。第二训练标准可以指示是否应该针对不同于第一训练标准的第一语音的缺陷和/或说话者度量而指导或训练用户/说话者。换言之，第一训练会话可以被配置为改善第一语音的第一组缺陷，第二训练会话可以被配置为改善第一语音的第二组缺陷。例如，第二训练标准可以包括第二说话音调标准/参数、第二语音特征标准/参数、第二声音特征标准/参数和/或第二时间参数/标准(例如，第一说话者必须执行第二训练会话之前的时间限制)。换言之，第二训练标准可以包括第一语音数据要满足的一个或多个第二条件。

在一个或多个示例性方法中，该方法包括经由语音指导装置的界面输出指示第二训练会话的第二训练信息。对输出第一训练信息的描述也可以适用于输出第二训练信息。第二训练信息可以与第一反馈信息合并。例如，当第一反馈信息指示包括执行进一步训练的建议的第一训练会话反馈时，第一反馈信息还可以包括指示第二训练会话的第二训练信息。换言之，如果确定第一说话者需要更多训练，则第一反馈信息也可以向第一说话者指示他/她应该执行第二训练会话。换言之，当存在先前训练信息(例如，第一训练信息和/或第一反馈信息/报告)时，第二训练信息可以包括第二反馈信息，该第二反馈信息包括示出相对于第一反馈信息的变化的比较。例如，第二反馈信息可以包括突出显示一个或多个改进或恶化，例如，第一说话者/用户的缺陷和/或优势。

在一个或多个示例性方法中，该方法包括将第一语音数据和第二语音数据聚集成语音数据。语音数据可以包括第一语音数据和第二语音数据。语音数据可以包括第一语音数据和第二语音数据的比较。

在一个或多个示例性方法中，该方法包括确定语音数据是否满足第三训练标准。确定第一语音数据是否满足第一训练标准的描述也可以应用于确定语音数据是否满足第三训练标准。第一训练标准的描述可以适用于第三训练标准。第三标准可以基于第一语音数据和第二语音数据的比较。例如，第一说话者在已经执行了第一训练会话之后，可能已经改善了一个或多个语音参数/特征。

在一个或多个示例性方法中，该方法包括根据确定语音数据满足第三训练标准，确定第三训练会话。

一段时间后，第一说话者的第一语音可能已经恶化，例如，一个或多个语音参数/特征可能已经恶化。因此，可以确定第一说话者的第一声音在该时间段之后是否仍然满足确定的表现。因此，在已经执行了一个或多个训练会话(例如，第一训练会话)之后，可以连续地重新训练第一说话者。第三训练标准可以指示是否应该针对不同于第一训练标准和第二训练标准的第一语音的不同缺陷和/或说话者度量而指导或训练用户/说话者。换言之，第一训练会话可以被配置为改善第一语音的第一组缺陷，第二训练会话可以被配置为改善第一语音的第二组缺陷，第三训练会话可以被配置为改善第一语音的第三组缺陷。例如，第三训练标准可以包括第三说话音调标准/参数、第三语音特征标准/参数、第三声音特征标准/参数和/或第三时间参数/标准(例如，第一说话者必须执行第三训练会话之前的时间限制)。换言之，第三训练标准可以包括第一语音数据要满足的一个或多个第三条件。

在一个或多个示例性方法中，该方法包括经由语音指导装置的界面输出指示第三训练会话的第三训练信息。对输出第一训练信息的描述也可以适用于输出第三训练信息。第三训练信息可以与第一反馈信息合并。例如，当第一反馈信息指示包括执行进一步训练的建议的第一训练会话反馈时，第一反馈信息还可以包括指示第三训练会话的第三训练信息。换言之，如果确定第一说话者需要更多训练，则第一反馈信息也可以向第一说话者指示他/她应该执行第三训练会话。

公开了一种语音指导系统。语音指导系统包括服务器装置和语音指导装置。语音指导装置(例如，语音指导装置的处理器)被配置为执行根据本公开的任何方法。

公开了一种语音指导系统。语音指导系统包括服务器装置和语音指导装置。语音指导装置包括处理器、存储器和界面。语音指导系统被配置为例如使用语音指导装置和/或服务器装置来获得表示一个或多个语音的音频数据，该音频数据包括第一语音的第一音频数据。

语音指导装置可以例如包括移动电话、计算机和平板电脑中的一个或多个。语音指导装置例如可以是用户装置，例如，移动电话或计算机，其被配置为在用户和另一个人之间执行呼叫。语音指导装置可以被配置为获得第一音频输入，例如，来自用户和另一个人之间的对话或呼叫的第一音频输入。例如，语音指导装置可以充当呼叫代理装置，其中，用户可以是代理，例如，呼叫中心(例如，支持呼叫中心、售后呼叫中心、营销呼叫中心或销售呼叫中心)的代理。语音指导装置例如可以是用户装置，例如，移动电话或计算机，其被配置为记录来自第一说话者/用户的第一音频输入，例如，记录第一说话者说话或讲话。语音指导装置可以被配置为获得例如包括在音频数据中的一个或多个音频信号。语音指导装置可以被配置为生成一个或多个音频信号，包括例如包含在第一音频数据中的第一音频信号。第一音频信号可以基于第一音频输入，第一音频数据可以基于第一音频信号。

语音指导系统被配置为例如使用语音指导装置和/或服务器装置基于第一音频数据来获得第一语音数据。

语音指导系统被配置为例如使用语音指导装置和/或服务器装置来确定第一语音数据是否满足第一训练标准。

语音指导系统被配置为根据第一语音数据满足第一训练标准的确定，例如使用语音指导装置和/或服务器装置来确定第一训练会话。

语音指导系统被配置为经由语音指导装置的界面输出指示第一训练会话的第一训练信息。语音指导装置的界面可以包括第一显示器。语音指导装置的处理器可以被配置为在界面(例如，第一显示器)上显示一个或多个用户界面(例如用户界面屏幕)，用户界面包括第一用户界面和/或第二用户界面，例如，作为第一训练会话和/或第一训练表示(例如，包括一个或多个练习)。用户界面可以包括一个或多个(例如，多个)用户界面对象。例如，第一用户界面可以包括第一主要用户界面对象和/或第一次要用户界面对象。第二用户界面可以包括第二主要用户界面对象和/或第二次要用户界面对象。用户界面可以被称为用户界面屏幕。

输入(例如，用户输入)可以包括触摸(例如，轻击、强制触摸、长按)、点击(例如，鼠标点击)、打字(例如，在键盘上打字)和/或接触的移动(例如，滑动手势，例如，用于切换)。接触时的移动可以由触敏表面检测到，例如，在语音指导装置的第一显示器上。因此，第一显示器可以是触敏显示器。第一输入(例如，第一用户输入)可以包括提升。用户输入(例如，第一主要用户输入、第二主要用户输入和/或第二次要用户输入)可以包括触摸和随后的提升运动。

语音指导装置的第一显示器可以被配置为检测用户输入，例如，第一主要用户输入。例如，当第一显示器包括触敏显示器时，用户输入可以包括来自用户的触摸输入。用户输入可以包括触敏显示器上的触点和/或包含在语音指导装置中或连接到语音指导装置的键盘。触敏显示器可以在语音指导装置和用户之间提供第一用户界面和/或第二用户界面(例如，输入界面)以及输出界面。语音指导装置的处理器可以被配置为从触敏显示器接收电信号和/或向触敏显示器发送电信号。触敏显示器可以被配置为向用户显示视觉输出，例如，第一训练会话和/或第一训练信息。可视输出可选地包括图形、文本、图标、视频、音频图标及其任意组合(统称为“图形”)。例如，一些、大部分或全部视觉输出可以被视为对应于用户界面对象。语音指导装置还可以被配置为输出包括音频输出的第一训练表示，例如，声音表示、音频图标、文本输出、图形输出和/或听觉反馈。

语音指导系统可以是用于指导和/或训练一个或多个用户(例如，一个或多个说话者)的系统。语音指导系统可以是用于监控、处理和/或分析一个或多个音频信号的系统，该音频信号例如是说话者说话，例如是作为独白或对话。该系统可以是用于监视、处理和/或分析一个或多个音频信号的系统，该音频信号例如是两个或更多人之间的对话，例如是电话或会议中的对话。该系统可以例如包括或充当呼叫中心系统，用于监控、处理和/或分析一个或多个音频信号，该音频信号例如是两个或更多人之间的对话，例如是呼叫中心系统的代理和客户或呼叫者之间的电话呼叫。

应当理解，关于方法的特征描述也适用于语音指导装置、服务器装置和/或系统中的相应特征。

图1示意性地示出了根据本公开的示例性语音指导系统，例如，语音指导系统2。系统2包括语音指导装置10和可选的服务器装置20。语音指导装置10包括存储器10A、一个或多个界面10B和处理器10C。服务器装置20包括存储器20A、一个或多个接口20B以及一个或多个处理器20C。用户/第一说话者1A可以使用语音指导装置10(例如，作为移动电话或计算机)来执行或接收训练或指导。语音指导装置可以可选地被配置为执行或接收来自说话者1B(例如，第二说话者)的呼叫。说话者1B可以使用说话者电子装置30与用户1A通信。

语音指导装置10可以被配置为充当用户装置，用户1A可以使用该用户装置来进行训练或指导(例如，用于执行一个或多个训练会话)。语音指导装置10可以被配置为充当用户装置，用户1A可以使用该用户装置来与说话者1B通信和/或监控呼叫/对话。语音指导装置10(例如，处理器10C)被配置为获得4、14表示一个或多个语音的音频数据，该音频数据包括第一语音的第一音频数据。第一语音例如可以是用户1A的语音。音频数据可以包括一个或多个包括第一音频信号的音频信号。可以例如经由网络40(例如，诸如互联网或电信网络的全球网络)从说话者电子装置30获得22第一音频信号。可以例如，经由网络40(例如，诸如互联网或电信网络的全球网络)从服务器装置20获得14音频数据(例如，第一音频数据)。可以从存储器10A获得音频数据(例如，第一音频数据)。语音指导装置10(例如，处理器10C)被配置为基于第一音频数据获得4、14第一语音数据。语音指导装置10(例如，处理器10C)可以被配置为在语音指导装置10本身上获得第一语音数据，例如，确定第一语音数据。可选地，一个或多个处理器20C被配置为获得语音数据(例如，第一语音数据)，例如以确定语音数据。

说话者电子装置30可以被配置为记录来自说话者1B的音频输入32(例如，第一音频输入)，例如，记录说话者1B说话或讲话。电子装置30可以被配置为获得一个或多个音频信号，例如，基于音频输入32生成一个或多个音频信号，包括基于第一音频输入的第一音频信号。说话者电子装置30可以被配置为例如经由网络40向语音指导装置10发送22音频数据，例如，第一音频信号。说话者电子装置30可以被配置为例如基于用户输入4(例如，用户音频输入)，从语音指导装置10获得24一个或多个音频信号。用户输入4可以是用户1A的说话或讲话，例如，语音指导装置10记录用户1A的说话或讲话。用户1A可以是第一说话者和/或第二说话者。

语音指导系统2被配置为确定第一语音数据是否满足第一训练标准。

可选地，语音指导装置10(例如，处理器10C)被配置为确定第一语音数据是否满足第一训练标准。

可选地，一个或多个处理器20C被配置为确定第一语音数据是否满足第一训练标准。

语音指导系统2被配置为根据确定第一语音数据满足第一训练标准，来确定第一训练会话。

可选地，语音指导装置10(例如，处理器10C)被配置为根据确定第一语音数据满足第一训练标准，来确定第一训练会话。

可选地，一个或多个处理器20C被配置为根据确定第一语音数据满足第一训练标准，来确定第一训练会话。一个或多个处理器20C可以被配置为例如经由网络40向语音指导装置10传输18第一训练会话。

语音指导系统2被配置为经由语音指导装置10的界面10B输出6指示第一训练会话的第一训练信息。

可选地，语音指导装置10(例如，处理器10C)被配置为经由语音指导装置10的界面10B输出6指示第一训练会话的第一训练信息。

可选地，一个或多个处理器20C可以被配置为例如通过网络40(例如经由接口20B)将指示第一训练会话的第一训练信息传输18到语音指导装置10。可选地，一个或多个处理器20C被配置为经由语音指导装置10的界面10B输出6、18指示第一训练会话的第一训练信息。

可选地，语音指导系统2被配置为基于第一音频数据确定第一说话者的第一说话者度量数据，第一说话者度量数据包括第一主要说话者度量数据。

可选地，语音指导装置10(例如，处理器10C)被配置为基于第一音频数据确定第一说话者的第一说话者度量数据，第一说话者度量数据包括第一主要说话者度量数据。

可选地，一个或多个处理器20C被配置为基于第一音频数据确定第一说话者的第一说话者度量数据，第一说话者度量数据包括第一主要说话者度量数据。可选地，一个或多个处理器20C可以被配置为例如经由网络40(例如经由接口20B)，将包括第一主要说话者度量数据的第一说话者度量数据传输18到语音指导装置10。

可选地，语音指导系统2被配置为确定指示第一语音的一个或多个缺陷的第一缺陷数据。

可选地，语音指导装置10(例如，处理器10C)被配置为确定指示第一语音的一个或多个缺陷的第一缺陷数据。

可选地，一个或多个处理器20C被配置为确定指示第一语音的一个或多个缺陷的第一缺陷数据。可选地，一个或多个处理器20C可以被配置为例如经由网络40(例如经由接口20B)将第一缺陷数据传输18到语音指导装置10。

可选地，语音指导系统2被配置为确定第一训练表示。

可选地，语音指导装置10(例如，处理器10C)被配置为确定第一训练表示。

可选地，一个或多个处理器20C被配置为确定第一训练表示。可选地，一个或多个处理器20C可以被配置为例如经由网络40(例如经由接口20B)将第一训练表示传输18到语音指导装置10。

可选地，语音指导系统2被配置为在界面10B的显示器6上显示训练用户界面对象。

可选地，语音指导装置10(例如，处理器10C)被配置为在界面10B的显示器上显示6训练用户界面对象。

可选地，一个或多个处理器20C被配置为传输18要在界面10B的显示器上显示的训练用户界面对象6。

可选地，语音指导系统2被配置为确定用户已经执行了第一训练会话。可选地，语音指导系统2被配置为获得第一语音的第二音频数据。可选地，语音指导系统2被配置为基于第二音频数据获得第二语音数据。可选地，语音指导系统2被配置为基于第二语音数据来确定指示第一训练会话反馈的第一反馈信息。可选地，语音指导系统2被配置为经由语音指导装置10的界面10B输出6第一反馈信息。

可选地，语音指导装置10(例如，处理器10C)被配置为确定用户已经执行了第一训练会话。可选地，语音指导装置10(例如，处理器10C)被配置为获得第一语音的第二音频数据。可选地，语音指导装置10(例如，处理器10C)被配置为基于第二音频数据获得第二语音数据。可选地，语音指导装置10(例如，处理器10C)被配置为基于第二语音数据确定指示第一训练会话反馈的第一反馈信息。可选地，语音指导装置10(例如，处理器10C)被配置为经由语音指导装置10的界面10B输出6第一反馈信息。

可选地，一个或多个处理器20C被配置为确定用户已经执行了第一训练会话。可选地，一个或多个处理器20C被配置为获得第一语音的第二音频数据。可选地，一个或多个处理器20C被配置为基于第二音频数据获得第二语音数据。可选地，一个或多个处理器20C被配置为基于第二语音数据确定指示第一训练会话反馈的第一反馈信息。可选地，一个或多个处理器20C被配置为经由语音指导装置10的界面10B输出6第一反馈信息。

可选地，语音指导系统2被配置为基于第二音频数据获得第二语音数据。可选地，语音指导系统2被配置为确定第二语音数据是否满足第二训练标准。可选地，语音指导系统2被配置为根据确定第二语音数据满足第二训练标准来确定第二训练会话。可选地，语音指导系统2被配置为经由语音指导装置的界面输出指示第二训练会话的第二训练信息。

可选地，语音指导装置10(例如，处理器10C)被配置为基于第二音频数据获得第二语音数据。可选地，语音指导装置10(例如，处理器10C)被配置为确定第二语音数据是否满足第二训练标准。可选地，语音指导装置10(例如，处理器10C)被配置为根据确定第二语音数据满足第二训练标准来确定第二训练会话。

可选地，语音指导装置10(例如，处理器10C)被配置为经由语音指导装置的界面输出指示第二训练会话的第二训练信息。

可选地，一个或多个处理器20C被配置为基于第二音频数据获得第二语音数据。可选地，一个或多个处理器20C被配置为确定第二语音数据是否满足第二训练标准。可选地，一个或多个处理器20C被配置为根据确定第二语音数据满足第二训练标准来确定第二训练会话。可选地，一个或多个处理器20C被配置为经由语音指导装置的界面输出指示第二训练会话的第二训练信息。

可选地，语音指导系统2被配置为将第一语音数据和第二语音数据聚集成语音数据。可选地，语音指导系统2被配置为确定语音数据是否满足第三训练标准。可选地，语音指导系统2被配置为根据确定语音数据满足第三训练标准来确定第三训练会话。可选地，语音指导系统2被配置为经由语音指导装置的界面输出指示第三训练会话的第三训练信息。

可选地，语音指导装置10(例如，处理器10C)被配置为将第一语音数据和第二语音数据聚集成语音数据。可选地，语音指导装置10(例如，处理器10C)被配置为确定语音数据是否满足第三训练标准。可选地，语音指导装置10(例如，处理器10C)被配置为根据确定语音数据满足第三训练标准来确定第三训练会话。可选地，语音指导装置10(例如，处理器10C)被配置为经由语音指导装置的界面输出指示第三训练会话的第三训练信息。

可选地，一个或多个处理器20C被配置为将第一语音数据和第二语音数据聚集成语音数据。可选地，一个或多个处理器20C被配置为确定语音数据是否满足第三训练标准。可选地，一个或多个处理器20C被配置为根据确定语音数据满足第三训练标准来确定第三训练会话。可选地，一个或多个处理器20C被配置为经由语音指导装置的界面输出指示第三训练会话的第三训练信息。

语音指导装置10和/或服务器装置20可以被配置为执行在图2A、图2B中公开的任何方法。

语音指导装置10(例如，处理器10C)可选地被配置为执行图2A至图2B中公开的任何操作(例如，S104A、S104B、S104C、S104D、S106、S110A、S110B、S111、S112、S114A、S116中的任何一个或多个)。语音指导装置的操作可以以可执行逻辑例程(例如，代码行、软件程序等)的形式体现，所述例程存储在非暂时性计算机可读介质(例如，存储器10A)上并由处理器10C执行。

此外，语音指导装置10的操作可以被认为是语音指导装置10被配置为执行的方法。此外，虽然所描述的功能和操作可以用软件实现，但是这种功能也可以经由专用硬件或固件或者硬件、固件和/或软件的某种组合来实现。

服务器装置(例如，处理器20C)可选地被配置为执行图2A至图2B中公开的任何操作(例如，S104A、S104B、S104C、S104D、S106、S110A、S110B、S111、S112、S114A、S116中的任何一个或多个)。服务器装置的操作可以以可执行逻辑例程(例如，代码行、软件程序等)的形式体现，所述例程存储在非暂时性计算机可读介质(例如，存储器20A)上并由一个或多个处理器20C执行。此外，服务器装置20的操作可以被认为是服务器装置20被配置为执行的方法。此外，虽然所描述的功能和操作可以用软件实现，但是这种功能也可以经由专用硬件或固件或者硬件、固件和/或软件的某种组合来实现。

图2A和图2B示出了示例性方法的流程图。公开了一种操作包括语音指导装置的语音指导系统的方法100。语音指导装置包括界面、处理器和存储器。方法100包括获得S102音频数据AD，包括第一语音(例如，第一说话者)的第一音频数据AD_1以及可选的第二音频数据AD_2。该方法包括基于音频数据AD获得S104语音数据VD。该方法可以包括基于第一音频数据AD_1获得第一语音数据VD_1。可选地，该方法包括基于第二音频数据AD_2获得第二语音数据VD_2。

在一个或多个示例性方法中，基于第一音频数据AD_1获得S104第一语音数据VD_1包括基于第一音频数据AD_1确定S104A第一说话者的第一说话者度量数据SPMD_1，第一说话者度量数据SPMD_1包括第一主要说话者度量数据SPMD_1_1。

在一个或多个示例性方法中，基于第二音频数据AD_2获得S104第二语音数据VD_2包括基于第二音频数据AD_2确定S104C第一说话者的第二说话者度量数据SPMD_2，第二说话者度量数据SPMD_2包括第二主要说话者度量数据SPMD_2_1。

在一个或多个示例性方法中，获得S104第一语音数据VD_1包括确定S104B指示第一语音的一个或多个缺陷的第一缺陷数据DD_1。

在一个或多个示例性方法中，获得S104第二语音数据VD_2包括确定指示第一语音的一个或多个缺陷的S104D第二缺陷数据DD_2。

方法100包括确定S108语音数据VD是否满足训练标准TC。可选地，确定S108语音数据VD是否满足训练标准TC包括确定第一语音数据VD_1是否满足第一训练标准TC_1。可选地，确定S108语音数据VD是否满足训练标准TC包括确定第二语音数据VD_2是否满足第二训练标准TC_2。

在一个或多个示例性方法中，方法100包括将第一语音数据VD_1和第二语音数据VD_2聚集成S106语音数据VD。

可选地，确定S108语音数据VD是否满足训练标准TC包括确定语音数据VD是否满足第三训练标准TC_3。可选地，当不确定语音数据VD满足训练标准TC时，方法100包括重复B方法100。

方法100包括根据确定语音数据VD满足A训练标准TC，来确定S110训练会话TS。

可选地，方法100包括根据确定第一语音数据VD_1满足A第一训练标准TC_1，来确定S110第一训练会话TS_1。可选地，方法100包括根据确定第二语音数据VD_2满足A第二训练标准TC_2，来确定S110第二训练会话TS_2。可选地，方法100包括根据确定语音数据VD满足A第三训练标准TC_3，来确定S110第三训练会话TS_3。可选地，当确定第一语音数据VD_1不满足第一训练标准TC_1时，方法100包括重复B方法100。可选地，当确定第二语音数据VD_2不满足第二训练标准TC_2时，方法100包括重复B方法100。可选地，当确定语音数据VD不满足第三训练标准TC_3时，方法100包括重复B方法100。

在一个或多个示例性方法中，确定S110第一训练会话TS_1包括确定S110A第一训练表示TR_1，第一训练表示TR_1例如包括一个或多个练习，诸如第一练习EX_1_i。可选地，确定S110第二训练会话TS_2包括确定S110A第一训练表示TR_2，第一训练表示TR_2例如包括一个或多个练习，诸如第二练习EX_2_i。可选地，确定S110第三训练会话TS_3包括确定S110A第一训练表示TR_3，第一训练表示TR_3例如包括一个或多个练习，诸如第三练习EX_3_i。

在一个或多个示例性方法中，方法100包括确定S111用户已经执行了第一训练会话TS_1。

在一个或多个示例性方法中，方法100包括基于语音数据VD确定S112指示训练会话反馈TFB的反馈信息FB。在一个或多个示例性方法中，方法100包括基于第二语音数据VD_2确定S112指示第一训练会话反馈TFB_1的第一反馈信息FB_1。

方法100包括经由语音指导装置的界面输出S116指示训练会话TS的训练信息TI。可选地，输出S116训练信息TI包括输出指示第一训练会话TS_1的第一训练信息TI_1。在一个或多个示例性方法中，输出第一训练信息TI_1包括在界面的显示器上显示S114A训练用户界面对象。可选地，输出S116训练信息TI包括输出指示第二训练会话TS_2的第二训练信息TI_2。可选地，输出S116训练信息TI包括输出指示第三训练会话TS_3的第三训练信息TI_3。

在一个或多个示例性方法中，方法100包括经由语音指导装置的界面输出S116反馈信息FB。可选地，输出S116反馈信息FB包括输出第一反馈信息FB_1。

图3示意性示出了根据本公开的示例性数据结构。音频数据AD包括第一语音的第一音频数据AD_1。音频数据AD包括语音数据VD。可选地，音频数据AD包括第一语音的第二音频数据AD_2。第一音频数据AD_1包括包含第一语音数据VD_1的语音数据VD。可选地，第二音频数据AD_2包括包含第二语音数据VD_2的语音数据VD。第一语音数据VD_1可选地包括第一说话者度量数据SPMD_1，第一说话者度量数据SPMD_1可选地包括第一主要说话者度量数据SPMD_1_1。第一语音数据VD_1可选地包括第一缺陷数据DD_1。第二语音数据VD_2可选地包括第二说话者度量数据SPMD_2，第二说话者度量数据SPMD_2可选地包括第二主要说话者度量数据SPMD_2_1。第二语音数据VD_2可选地包括第二缺陷数据DD_2。

图4示意性示出了根据本公开的示例性语音指导装置，例如，语音指导装置10。在这个示例中，语音指导装置10是膝上型计算机。语音指导装置10例如可以是用户(例如，第一说话者)用于训练目的的语音指导装置，例如，呼叫中心或支持呼叫中心的代理。语音指导装置10被配置为在语音指导装置10的界面10B上(例如在膝上型计算机的显示器11上)，显示指示训练信息的用户界面。语音指导装置10显示第一用户界面UI_1，例如，具有包括多个训练用户界面对象的第一显示区域。在已经基于用户/第一语音的第一音频数据确定第一语音数据满足第一训练标准之后，语音指导装置10的用户可以可视化第一训练信息，例如，包括第一练习的第一训练会话。第一训练信息可以向用户提供关于用户的第一语音的第一音频的反馈，例如，要为用户改进的缺陷。

第一用户界面UI_1指示第一练习，第一练习例如作为第一训练会话的一部分。第一练习是用于提高用户对语音、言语和/或语调的理解的练习。第一用户界面UI_1包括例如设置在第一主要显示区域中的第一训练用户界面对象50。第一训练用户界面对象50表示例如作为代理的第一说话者A和例如作为客户/顾客的第二说话者B之间的预先记录的对话的语音片段。第一训练用户界面对象50包括用于第一说话者A的三个语音片段和用于说话者B的三个语音片段。第一用户界面UI_1包括例如设置在第一辅助显示区域中的第二训练用户界面对象52。第二训练用户界面对象52表示对话的时间线。第一用户界面UI_1包括例如设置在第一第三显示区域中的第三训练用户界面对象54。第三训练用户界面对象54表示多组情感类型标识符。第一训练用户界面对象50中的每个语音片段可以在第三训练用户界面54中具有相关联的一组情感类型标识符。例如，第一说话者A的第一语音片段可以具有相关联的第一情感类型标识符集合ST_ID_SET_1。

执行第一练习的用户然后可以例如通过选择他们来将从这组情感类型标识符中选择的情感类型标识符标记到用户已经收听的每个语音片段。通过将情感类型标识符标记到语音片段，用户可以基于用户对预先记录的对话的语音片段的感知来识别第一说话者A和/或第二说话者B的一个或多个情感状态。在回合/对话结束时，语音指导装置10可以确定指示第一训练会话反馈的第一反馈信息，例如，将用户的答案/标签与模型解决方案进行比较，并且语音指导装置10然后可以被配置为输出第一反馈信息，例如，基于该比较经由界面10B在显示器11上显示用户在第一练习中的分数。因此，第一练习可以提高用户对讲话者的语音、会话和/或音调的理解。

图5示意性地示出了示例性方法(例如，操作语音指导系统的方法200)的流程图，该语音指导系统包括用于执行训练会话、训练会话的一部分和/或练习的语音指导装置。

根据本公开，可以在语音指导装置(例如，语音指导装置10)上执行方法200。方法200可以适用于用户执行训练会话、训练会话的一部分和/或训练会话中包括的练习，例如第二练习。在这个示例中，语音指导装置10可以是膝上型计算机。语音指导装置10例如可以是用户(例如，代理)用于训练目的的语音指导装置，例如，呼叫中心或支持呼叫中心的代理。

方法200包括例如经由语音指导装置的界面10B(未示出)输出S202第一语音的第一音频数据，例如，用户/代理的语音的代理音频。输出S202第一语音的第一音频数据可以包括输出用户/代理的语音片段，其中，已经确定基于第一音频数据的第一语音数据满足第一训练标准。换言之，输出S202第一语音的第一音频数据可以包括输出用户/代理的已经确定了第一缺陷数据(诸如一个或多个缺陷)的语音片段。方法200可以可选地包括例如经由语音指导装置的界面10B输出S202A文本数据，文本数据例如是音频数据的对应文本，以便用户/代理能够重新进行语音片段。语音指导装置的用户/代理可以由此收听他/她自己的第一音频数据，并且可选地读取相应的文本。可选地，方法200可以包括在输出S202第一音频数据之前，例如，经由语音指导装置的界面10B获得第一语音的第一音频数据。

方法200包括获得S204第一语音的第二音频数据。第一语音的第二音频数据可以例如包括用户/代理重新记录在S202中输出的相同语音片段，例如，相同的对应文本，例如，在记录的对话中对客户的响应。换言之，当执行例如第二练习时，用户/代理可以用改进的语音、言语和/或音调重新进行他/她的检测到缺陷的语音片段。例如，用户/代理可以用更好的速度和/或更积极的音调重新进行语音片段。

方法200包括基于第二音频数据获得S206第二语音数据。换言之，基于第二音频数据获得S206第二语音数据可以包括基于第二音频数据确定用户/代理的说话者度量数据SPMD和/或缺陷数据DD。

方法200包括确定S208第二语音数据是否满足第二训练标准。换言之，确定S208第二语音数据是否满足第二训练标准可以包括确定是否充分改善用户/代理的第二语音数据。换言之，确定S208第二语音数据是否满足第二训练标准可以包括确定用户/代理是否需要更多训练。

可选地，该方法包括确定指示第一训练会话反馈的第一反馈信息。换言之，确定指示第一训练会话反馈的第一反馈信息可以包括确定重新评估的语音片段的分数。当分数高于某个阈值时，分数为肯定，当分数低于阈值时，分数为否定。当确定第二语音数据满足第二训练标准时，该方法包括重复S210获得S204第一语音的第二音频数据。换言之，用户/代理可以重新进行语音片段，直到他/她的表现令人满意。

当确定第二语音数据不满足第二训练标准时，方法200前进到另一语音片段，如果第二练习结束，则前进到另一练习，或者如果训练会话结束，则停止。

因此，第一练习可以提高用户对讲话者的语音、会话和/或音调的理解。

术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“第三”等的使用并不意味着任何特定的顺序，而是用来标识各个元素。此外，术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“第三”等的使用不表示任何顺序或重要性，而术语“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“第三”等用于区分一个元素与另一元素。注意“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“第三”等词在此处和其他地方仅用于标记目的，并不旨在表示任何特定的空间或时间顺序。

存储器可以是缓冲器、闪存、硬盘驱动器、可移动介质、易失性存储器、非易失性存储器、随机存取存储器(RAM)或其他合适的装置中的一个或多个。在典型的设置中，存储器可以包括用于长期数据存储的非易失性存储器和用作处理器的系统存储器的易失性存储器。存储器可以通过数据总线与处理器交换数据。存储器可以被认为是非暂时性计算机可读介质。

存储器可以被配置为在存储器的一部分中存储信息(例如，指示一个或多个音频信号、一个或多个情感度量、一个或多个外观度量、说话者表示、情感度量数据和/或外观度量数据的信息)。

此外，标记第一元素并不意味着存在第二元素，反之亦然。

可以理解，图1至图5包括用实线示出的一些模块或操作以及用虚线示出的一些模块或操作。包含在实线中的模块或操作是包含在最广泛的示例实施例中的模块或操作。虚线中包含的模块或操作是示例性实施例，其可以包含在实线示例性实施例的模块或操作中或者是其一部分，或者是除了实线示例性实施例的模块或操作之外可以采用的其他模块或操作。应当理解，这些操作不需要按照所呈现的顺序来执行。此外，应当理解，不是所有的操作都需要执行。示例性操作可以以任何顺序和任何组合来执行。

应当注意，词语“包括”不一定排除存在除了列出的那些之外的其他元件或步骤。

应当注意，元件前面的词语“一”或“一个”不排除存在多个这样的元件。

还应当注意，任何附图标记都不限制权利要求的范围，示例性实施例可以至少部分地通过硬件和软件来实现，并且几个“装置”、“单元”或“设备”可以由同一硬件项目来表示。

在方法步骤过程的一般上下文中描述本文描述的各种示例性方法、装置和系统，其在一个方面可以通过计算机程序产品来实现，该计算机程序产品包含在计算机可读介质中，包括由联网环境中的计算机执行的计算机可执行指令，例如，程序代码。计算机可读介质可以包括可移动和不可移动存储装置，包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、光盘(CD)、数字多功能盘(DVD)等。通常，程序模块可以包括执行指定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文公开的方法的步骤的程序代码的示例。这种可执行指令或相关数据结构的特定序列表示用于实现在这种步骤或过程中描述的功能的相应动作的示例。

尽管已经示出和描述了特征，但是应当理解，它们并不旨在限制所要求保护的发明，并且对于本领域技术人员来说显而易见的是，在不脱离所要求保护的发明的精神和范围的情况下，可以进行各种改变和修改。因此，说明书和附图被认为是说明性的，而不是限制性的。要求保护的发明旨在覆盖所有替代、修改和等同物。

附图标记列表

1A用户、第一说话者

1B说话者、第二说话者、呼叫者

2系统

4用户输入

6训练信息、训练表示、反馈信息、训练会话、用户输出

10语音指导装置

10A存储器

10B一个或多个界面

10C处理器

12传输

14获得

16获得

18传输

20服务器装置

20A存储器

20B接口

20C一个或多个处理器

22传输

24获得

30说话者电子装置

32说话者输入、音频输入

40网络

50第一训练用户界面对象

52第二训练用户界面对象

54第三训练用户界面对象

AD音频数据

AD_1第一音频数据

AD_2第二音频数据

AS音频信号

AS_1第一音频信号

AS_2第二音频信号

A_ID外观标识符

A_ID_1第一外观标识符

A_ID_1_1第一主要外观标识符

A_ID_1_2第一次要外观标识符

A_ID_1_3第一第三外观标识符

A_ID_2_1第二主要外观标识符

A_ID_2_2第二次要外观标识符

A_ID_2_3第二第三外观标识符

A_ID_SET外观标识符集合

A_ID_SET_1主要外观标识符集合

A_ID_SET_2次要外观标识符集合

ACS外观置信度分数

ACS_1第一外观置信度分数

ACS_1_1第一主要外观置信度分数

ACS_1_2第一次要外观置信度分数

ACS_2第二外观置信度分数

ACS_2_1第二主要外观置信度分数

AL外观等级

AL_1第一外观等级

AL_1_1第一主要外观等级

AL_1_2第一次要外观等级

AL_1_3第一第三外观等级

AL_2_1第二主要外观等级

AL_2_2第二次要外观等级

AL_2_3第二第三外观等级

AM外观度量

AMD外观度量数据

AM_1第一外观度量

AM_1_1第一主要外观度量

AM_1_2第一次要外观度量

AM_1_3第一第三外观度量

AM_2_1第二主要外观度量

AM_2_2第二次要外观度量

AM_2_3第二第三外观度量

DD缺陷数据

DD_1第一缺陷数据

DD_2第二缺陷数据

SCS置信度分数

SCS_1第一置信度分数

SCS_1_1第一主要置信度分数

SCS_1_2第一次要置信度分数

SCS_2_1第二主要置信度分数

SL情感等级

SL_1_1第一主要情感等级

SL_1_2第一次要情感等级

SL_2_1第二主要情感等级

SM情感度量

SM_1第一情感度量

SM_1_1第一主要情感度量

SM_1_2第一次要情感度量

SM_2第二情感度量

SM_2_1第二主要情感度量

SM_2_2第二次要情感度量

ST_ID_1_1第一主要情感类型标识符

ST_ID_1_2第一次要情感类型标识符

ST_ID_2_1第二主要情感类型标识符

ST_ID_2_2第二次要情感类型标识符

ST_ID_SET_1主要情感类型标识符集合

ST_ID_SET_2次要情感类型标识符集合

SMD情感度量数据

SPMD说话者度量数据

SPMD_1第一说话者度量数据

SPMD_1_1第一主要说话者度量数据

SPMD_1_2第一次要说话者度量数据

SPMD_1_3第一第三说话者度量数据

SPMD_2第二说话者度量数据

SPMD_2_1第二主要说话者度量数据

ST_ID情感类型标识符

ST_ID_1第一情感类型标识符

ST_ID_1_1第一主要情感类型标识符

ST_ID_1_2第一次要情感类型标识符

ST_ID_SET情感类型标识符集合

ST_ID_SET_1主要情感类型标识符集合

ST_ID_SET_2次要情感类型标识符集合

UI_1第一用户界面

VD语音数据

VD_1第一语音数据

VD_2第二语音数据

100操作语音指导系统的方法

S102获得音频数据

S104获得语音数据

S104A确定第一说话者度量数据

S104B确定第一缺陷数据

S104C确定第二说话者度量数据

S104D确定第二缺陷数据

S106将第一语音数据和第二语音数据聚集成语音数据

S108确定语音数据是否满足训练标准

S110确定第一训练会话

S110A确定第一训练表示

S111确定用户已经执行了训练会话

S112确定反馈信息

S114输出训练信息

S114A显示用户界面元素

S116输出反馈信息

200操作语音指导系统的方法

S202输出第一语音的第一音频数据

S202A输出文本数据

S204获得第一语音的第二音频数据

S206基于第二音频数据获得第二语音数据

S208确定第二语音数据是否满足第二训练标准

B重复、重启。

Claims

1.一种操作语音指导系统的方法，所述语音指导系统包括语音指导装置，所述语音指导装置包括界面、处理器和存储器，所述方法包括：

获得表示一个或多个语音的音频数据，所述音频数据包括第一语音的第一音频数据；

基于所述第一音频数据获得第一语音数据；

确定所述第一语音数据是否满足第一训练标准；

根据所述第一语音数据满足第一训练标准的确定，而确定第一训练会话；

经由所述语音指导装置的界面输出指示第一训练会话的第一训练信息。

2.根据权利要求1所述的方法，其中，基于所述第一音频数据获得第一语音数据包括基于所述第一音频数据确定第一说话者的第一说话者度量数据，所述第一说话者度量数据包括第一主要说话者度量数据。

3.根据权利要求2所述的方法，其中，所述第一训练标准基于第一说话者度量数据。

4.根据权利要求1-3中任一项所述的方法，其中，所述第一训练标准基于第一标准。

5.根据权利要求1-4中任一项所述的方法，其中，获得所述第一语音数据包括确定指示第一语音的一个或多个缺陷的第一缺陷数据。

6.根据权利要求1-5中任一项所述的方法，其中，确定第一训练会话包括确定第一训练表示。

7.根据权利要求6所述的方法，其中，所述第一训练会话包括表示第一缺陷数据的一个或多个第一练习。

8.根据权利要求7所述的方法，其中，所述一个或多个第一练习包括说话音调练习、言语特征练习和声音特征练习中的一项或多项。

9.根据权利要求5所述的方法，其中，所述第一缺陷数据包括说话音调缺陷、言语特征缺陷和声音特征缺陷中的一项或多项。

10.根据权利要求1-9中任一项所述的方法，其中，所述第一训练信息是执行第一训练会话的推荐，并且其中，输出第一训练信息包括在所述界面的显示器上显示训练用户界面对象。

11.根据权利要求1-10中任一项所述的方法，所述方法包括：

确定用户已经执行了第一训练会话；

获得第一语音的第二音频数据；

基于所述第二音频数据获得第二语音数据；

基于所述第二语音数据确定指示第一训练会话反馈的第一反馈信息；并且

经由所述语音指导装置的界面输出第一反馈信息。

12.根据权利要求1-11中任一项所述的方法，所述音频数据包括第一语音的第二音频数据，所述方法包括：

基于所述第二音频数据获得第二语音数据；

确定所述第二语音数据是否满足第二训练标准；

根据所述第二语音数据满足所述第二训练标准的确定，而确定第二训练会话；并且

经由所述语音指导装置的所述界面输出指示所述第二训练会话的第二训练信息。

13.根据权利要求12所述的方法，所述方法包括：

将所述第一语音数据和所述第二语音数据聚集成语音数据；

确定所述语音数据是否满足第三训练标准；

根据所述语音数据满足所述第三训练标准的确定，而确定第三训练会话；并且

经由所述语音指导装置的界面输出指示所述第三训练会话的第三训练信息。

14.一种语音指导系统，所述语音指导系统包括服务器装置和语音指导装置，其中，所述语音指导装置被配置为执行根据权利要求1-13中任一项所述的方法。

15.一种语音指导系统，所述语音指导系统包括服务器装置和语音指导装置，所述语音指导装置包括界面、处理器和存储器，其中，所述语音指导系统被配置为：

基于所述第一音频数据获得第一语音数据；

确定所述第一语音数据是否满足第一训练标准；

根据所述第一语音数据满足所述第一训练标准的确定，而确定第一训练会话；

经由所述语音指导装置的界面输出指示所述第一训练会话的第一训练信息。