CN117396881A

CN117396881A - 用于微调自动情绪分析的系统和方法

Info

Publication number: CN117396881A
Application number: CN202180098675.2A
Authority: CN
Inventors: A·马扎; L·海金; E·奥巴赫; A·法扎科夫
Original assignee: Guinness Cloud Services Ltd
Current assignee: Guinness Cloud Services Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2024-01-12
Also published as: BR112023023460A2; WO2022240404A1; AU2021445464A1; US20220366197A1; CA3218840A1; CO2023016153A2; EP4338090A1

Abstract

本发明涉及一种用于通过至少一个处理器微调自动情绪分类的方法和系统，该方法和该系统可包括：接收第一机器学习(ML)模型M₀，该第一ML模型基于第一注释训练数据集被预先训练以执行话语的自动情绪分类；将一个或多个模型M₀实例关联到一个或多个对应站点；以及对于一个或多个(例如，每个)ML模型M₀实例和/或站点：经由该对应站点接收至少一个话语；获得对应于该至少一个话语的至少一个注释反馈数据元素；基于第二注释训练数据集，重新训练该ML模型M₀，以产生第二ML模型M₁，其中该第二注释训练数据集可包括该第一注释训练数据集和该至少一个注释反馈数据元素；以及使用该第二ML模型M₁来根据一个或多个情绪类别对话语进行分类。

Description

用于微调自动情绪分析的系统和方法

技术领域

本发明整体涉及自动自然语言处理的领域。更具体地，本发明涉及微调自动情绪分类。

相关申请和优先权要求的交叉引用

本申请要求2021年5月12日提交的标题为“用于微调自动情绪分析的系统和方法(SYSTEM AND METHOD FOR FINETUNING AUTOMATED SENTIMENT ANALYSIS)”的美国专利申请17/318,467的优先权。

背景技术

情绪分析的任务是检测书面文本或口头话语中的情绪，包括例如，诸如喜悦、愤怒、惊讶和讽刺之类的情绪。用于执行情绪分析的当前可用方法可包括例如训练机器学习(ML)模型以区分情绪性句子与中性句子。对于输入句子，此类ML模型可返回情绪类别和可反映其预测的置信水平的分数。

采用情绪分析的一个商业方面可存在于联络中心的领域中。在该领域中，情绪分析主要用于检测客户在他们与公司座席的交互期间表达的情绪。此类交互可采取聊天、电子邮件、社交媒体、语音呼叫等的形式。在后一种情况下，术语情绪分析可指代对自动语音识别引擎从语音呼叫中生成的文本的分析。

自然地，任何情绪分类模型都可能产生不正确的预测，这些不正确的预测可能是总体和客观的，或者根据呼叫中心分析者的感知是主观的。当系统遇到未被包括在训练材料中的新领域并且碰到可能在该新领域中具有特定含义的新词汇或词语时，可能出现情绪分析模型或系统的部署中的内在困难。

发明内容

本发明的实施方案可通过实现交互过程来解决该挑战，通过该交互过程，可允许用户提供关于由应用程序做出的预测的反馈，并且因此影响其未来的预测。本发明的实施方案可以多种方式利用该反馈。

例如，具有经校正的输出情绪的话语可用于重新训练或微调模型，目的是将模型推广到相关领域和业务中的类似话语。术语“重新训练”和“微调”在本文中在改进模型的训练的意义上可互换使用，如本文所述。

又如，通过分析预测对真值的随机样本，本发明的实施方案可学习最佳地调谐用于本发明的每个实例化或安装的情绪分类的预测阈值。

本发明的实施方案可包括一种通过至少一个处理器微调自动情绪分类的方法。该方法的实施方案可包括接收第一机器学习(ML)模型M₀，该第一ML模型基于第一注释训练数据集被预先训练以执行对话语的自动情绪分类；以及将一个或多个模型M₀实例关联到一个或多个对应站点。对于每个ML模型M₀实例，实施方案还可包括经由对应站点接收至少一个话语；获得对应于该至少一个话语的至少一个注释反馈数据元素；基于第二注释训练数据集，重新训练ML模型M₀，以产生第二ML模型M₁，其中第二注释训练数据集可包括第一注释训练数据集和该至少一个注释反馈数据元素；以及使用第二ML模型M₁来根据一个或多个情绪类别对话语进行分类。

根据本发明的一些实施方案，该至少一个处理器可经由与对应站点相关联的用户界面(UI)以交互方式获得该至少一个注释反馈数据元素。注释反馈可包括例如根据零个或更多个情绪类别对该至少一个话语的分类。

本发明的实施方案可包括接收可包括多个话语的注释验证数据集，以及计算对应的多个置信度得分。例如，每个置信度得分可表示将话语分类到情绪类别的确定性水平。本发明的实施方案可根据所计算的置信度得分，在排序列表中对验证数据集的话语进行排序；

本发明的实施方案可包括针对排序列表的一个或多个条目，计算分类精度的值；识别对应于所需分类精度值的排序列表的索引；以及将所识别的索引的置信度得分确定为用于将话语分类为属于情绪类别的预测阈值。

本发明的实施方案可包括一种通过至少一个处理器微调自动情绪分类的方法。该方法的实施方案可包括接收ML模型M₀，该ML模型被预先训练以执行对话语的自动情绪分类，其中模型M₀可与至少一个预测阈值相关联；以及将一个或多个模型M₀实例关联到一个或多个对应站点。

对于至少一个(例如，每个)ML模型M₀实例和/或站点，本发明的实施方案的实施方案可经由对应站点接收至少一个话语；获得对应于该至少一个话语的至少一个注释反馈数据元素；根据所需精度水平并且基于该至少一个注释反馈数据元素来自动校准该至少一个预测阈值；以及使用该至少一个预测阈值来将话语分类为属于一个或多个情绪类别。

根据本发明的一些实施方案，获得该至少一个注释反馈数据元素可包括：经由UI向用户呈现一个或多个话语；以及经由UI从用户获得注释反馈数据元素，其中注释反馈可包括根据零个或更多个情绪类别对所呈现的一个或多个话语的分类。

根据本发明的一些实施方案，呈现一个或多个话语可包括：根据每个话语与情绪类别的相关性，计算对应的多个话语的多个置信度得分；基于该多个话语的相应置信度得分选择该多个话语的话语子集用于反馈；以及经由UI呈现所选择的话语子集。

根据本发明的一些实施方案，对于每个情绪类别，选择一个或多个话语用于反馈可包括：从该多个话语中选择超过选择阈值的第一话语子集；以及从第一子集中随机选择第二话语子集；以及经由UI呈现第二话语子集。

根据本发明的一些实施方案，预测阈值对于每个情绪类别可为特定的。

根据本发明的一些实施方案，第二话语子集的大小可由预定子集大小限制，该预定子集大小对于每个情绪类别可为特定的。在一些实施方案中，第二话语子集可包括或可限于300个或更少的话语。

根据本发明的一些实施方案，校准该至少一个预测阈值可包括：根据每个话语与情绪类别的相关性来计算与第二子集的一个或多个话语相对应的一个或多个置信度得分；根据置信度得分，在降序排序列表中对第二子集的该多个话语进行排序；针对排序列表的一个或多个条目，基于注释反馈计算分类精度的值；识别对应于所需分类精度值的排序列表的索引；以及将所识别的索引的置信度得分确定为预测阈值的值。

在一些实施方案中，可选择预定子集大小以便保证预测阈值对应于具有预定误差范围(例如，0.05)内的预定置信度值(例如，至少95％)的基准真值精度。

根据一些实施方式，情绪类别可包括例如积极情绪类别、消极情绪类别和中立情绪类别。

本发明的实施方案可包括一种用于微调自动情绪分析的系统。系统的实施方案可与特定站点相关联并且可包括：(a)存储指令代码的非暂态存储器设备；和(b)与存储器设备相关联的至少一个处理器。

根据一些实施方案，该至少一个处理器可被配置为执行指令代码以便：接收第一ML模型M₀，该第一ML模型基于第一注释训练数据集被预先训练以执行对话语的自动情绪分类；经由站点接收至少一个话语；获得对应于该至少一个话语的至少一个注释反馈数据元素；基于第二注释训练数据集，重新训练ML模型M₀，以产生第二ML模型M₁，其中第二注释训练数据集可包括第一注释训练数据集和该至少一个注释反馈数据元素；以及使用第二ML模型M₁来根据一个或多个情绪类别对话语进行分类。

附图说明

在说明书的结束部分中特别指出并清楚要求保护被视为本发明的主题。然而，当结合附图阅读时，通过参考以下详细描述，可最好地理解本发明的组织和操作方法连同其目的、特征和优点，其中：

图1是描绘了根据一些实施方案的可被包括在用于微调自动情绪分类的系统中的计算设备的框图；

图2是描绘了根据一些实施方案的用于微调自动情绪分类的系统的框图；

图3是描绘了根据一些实施方案的可用于确定预测阈值的数据的示例的表格；

图4是描绘了根据一些实施方案的通过至少一个处理器微调自动情绪分类的方法的流程图；并且

图5是描绘了根据一些实施方案的通过至少一个处理器微调自动情绪分类的另一方法的流程图。

应当理解，为了简单和清楚说明，图中所示的元件不一定按比例绘制。例如，为了清楚起见，一些元件的尺寸可相对于其他元件被放大。此外，在认为适当的情况下，附图标号可在附图中重复以指示对应或类似的元件。

具体实施方式

本领域的技术人员将认识到，可在不脱离本发明的精神或实质特征的情况下以其他特定形式来体现本发明。因此，前述实施方案在所有方面中都被认为是例示性的而不是对本文所述的本发明的限制。因此，本发明的范围由所附权利要求指示，而不是由前述描述指示，并且因此属于权利要求等同物的含义和范围内的所有变化均旨在被包括于其中。

在下面的详细描述中，给出了许多具体细节，以便提供对本发明的彻底理解。然而，本领域的技术人员将理解，本发明可在没有这些具体细节的情况下被实践。在其他情况下，未详细描述众所周知的方法、规程和部件以免模糊本发明。关于一个实施方案所描述的一些特征或元件可与关于其他实施方案所描述的特征或元件组合。为了清楚起见，可不重复对相同或相似特征或元件的讨论。

虽然就这一点而言本发明的实施方案不受限制，但是利用术语诸如例如“处理”、“计算”、“预测”、“确定”、“建立”、“分析”、“检查”的讨论可指代计算机、计算平台、计算系统或其他电子计算设备的操作和/或过程，其将表示为计算机的寄存器和/或存储器内的物理(例如，电子)量的数据操纵和/或变换成类似地表示为计算机的寄存器和/或存储器内的物理量的其他数据或可存储执行操作和/或过程的指令的其他信息非暂态存储介质。

虽然就这一点而言本发明的实施方案不受限制，但是如本文所用的术语“多个”可包括例如“多个”或“两个或更多个”。在整个说明书中，术语“多个”可用于描述两个或更多个部件、设备、元件、单元、参数等。术语“组”当在本文中使用时可包括一个或多个项目。

除非明确陈述，否则本文所述的方法实施方案不限于特定次序或序列。另外，一些所描述的方法实施方案或其要素可同时、在相同时间点或并行地发生或执行。

现在参考图1，其是描绘了根据一些实施方案的可被包括在用于微调自动情绪分类的系统的实施方案内的计算设备的框图。

计算设备1可包括处理器或控制器2，该处理器或控制器可以是例如中央处理单元(CPU)处理器、芯片或任何合适的计算设备、操作系统3、存储器4、可执行代码5、存储系统6、输入设备7和输出设备8。处理器2(或一个或多个控制器或处理器，可能在多个单元或设备上)可被配置为执行本文所述的方法，和/或执行或充当各种模块、单元等。多于一个计算设备1可被包括在根据本发明的实施方案的系统中，并且一个或多个计算设备1可充当根据本发明的实施方案的系统的部件。

操作系统3可以是或可包括被设计和/或配置为执行涉及协调、调度、仲裁、监督、控制或以其他方式管理计算设备1的操作的任务(例如，调度软件程序或任务的执行或使得软件程序或其他模块或单元能够通信)的任何代码段(例如，类似于本文所述的可执行代码5的代码段)。操作系统3可以是商业操作系统。应当注意，操作系统3可以是可选部件，例如，在一些实施方案中，系统可包括不需要或包括操作系统3的计算设备。

存储器4可以是或可包括例如随机存取存储器(RAM)、只读存储器(ROM)、动态RAM(DRAM)、同步DRAM(SD-RAM)、双倍数据速率(DDR)存储器芯片、闪存存储器、易失性存储器、非易失性存储器、高速缓存存储器、缓冲器、短期存储器单元、长期存储器单元或其他合适的存储器单元或存储单元。存储器4可以是或可包括多个可能不同的存储器单元。存储器4可以是计算机或处理器非暂态可读介质，或者计算机非暂态存储介质，例如RAM。在一个实施方案中，非暂态存储介质诸如存储器4、硬盘驱动器、另一存储设备等可存储指令或代码，这些指令或代码当由处理器执行时可使得处理器执行如本文所述的方法。

可执行代码5可以是任何可执行代码，例如应用程序、编程、进程、任务或脚本。可执行代码5可在操作系统3的控制下由处理器或控制器2执行。例如，可执行代码5可以是可微调自动情绪分类的应用程序，如本文进一步所述。虽然为了清楚起见，在图1中示出了可执行代码5的单个项目，但是根据本发明的一些实施方案的系统可包括类似于可执行代码5的多个可执行代码段，这些可执行代码段可被加载到存储器4中并且使得处理器2执行本文所述的方法。

存储系统6可以是或可包括例如在本领域中已知的闪存存储器、内部或嵌入其中的存储器、在本领域中已知的微控制器或芯片、硬盘驱动器、CD可记录(CD-R)驱动器、蓝光盘(BD)、通用串行总线(USB)设备或其他合适的可移除和/或固定存储单元。涉及口头和/或文本话语的数据可存储在存储系统6中，并且可从存储系统6加载到存储器4中，在该存储器中，数据可由处理器或控制器2处理。在一些实施方案中，可省略图1所示的一些部件。例如，存储器4可以是具有存储系统6的存储容量的非易失性存储器。因此，虽然被示为单独的部件，但是存储系统6可被嵌入或包括在存储器4中。

输入设备7可以是或可包括任何合适的输入设备、部件或系统，例如可拆卸键盘或小键盘、鼠标等。输出设备8可包括一个或多个(可能是可拆卸的)显示器或监视器、扬声器和/或任何其他合适的输出设备。任何适用的输入/输出(I/O)设备可连接到计算设备1，如框7和8所示。例如，有线或无线网络接口卡(NIC)、通用串行总线(USB)设备或外部硬盘驱动器可被包括在输入设备7和/或输出设备8中。应当理解，任何合适数量的输入设备7和输出设备8可操作地连接到计算设备1，如框7和8所示。

根据本发明的一些实施方案的系统可包括部件，诸如但不限于多个中央处理单元(CPU)或任何其他合适的多用途或专用处理器或控制器(例如，类似于元件2)、多个输入单元、多个输出单元、多个存储器单元和多个存储单元。

神经网络(NN)或人工神经网络(ANN)诸如实现机器学习(ML)或人工智能(AI)功能的神经网络可指信息处理范例，该信息处理范例可包括被组织成层的被指代为神经元的节点，在神经元之间具有链路。链路可在神经元之间传递信号，并且可与权重相关联。NN可被配置或训练用于特定任务，例如模式识别或分类。训练NN用于特定任务可涉及基于示例调整这些权重。中间层或最后层的每个神经元都可接收输入信号，例如，来自其他神经元的输出信号的加权和，并且可使用线性或非线性函数(例如，激活函数)来处理输入信号。输入层和中间层的结果可被传递到其他神经元，并且输出层的结果可被提供作为NN的输出。通常，NN内的神经元和链路由数学构造表示，诸如激活函数以及数据元素和权重的矩阵。处理器(例如，CPU或图形处理单元(GPU))或专用硬件设备可执行相关计算。

现在参考图2，其描绘了根据一些实施方案的用于微调自动情绪分类的系统100。

根据本发明的一些实施方案，系统100可被实现为软件模块、硬件模块或它们的任何组合。例如，系统100可以是或可包括计算设备诸如图1的元件1，并且可被适配为执行可执行代码的一个或多个模块(例如，图1的元件5)以微调自动情绪分类，如本文进一步所述。

根据一些实施方案，并且如图2所示，系统100可包括或可接收基于机器学习(ML)的模型120(例如，120A、120B)。ML模型120可在初始设置或环境20中被初始训练或预先训练，以使用第一注释数据集来执行对话语的自动情绪分类。术语“话语”可在本上下文中用于指代可包括一个或多个音节或词语的口头或声音话语。附加地或另选地，术语“话语”可在本上下文中用于指代可表示一个或多个所说出的音节或词语且可经由语音到文本转换而获得的文本数据元素，如在本领域中已知的。

如图2所描绘的，初始或预先训练模型在本文中可被表示为“基础模型”M₀和/或ML模型120，并且这些符号在本文中可互换地使用。

第一注释数据集可以是或可包括例如注释或标记的训练数据集，在图2中表示为元素23。附加地或另选地，第一注释数据集可以是或可包括在图2中表示为元素25的验证数据集。

根据一些实施方案，初始设置或环境20在本文中可指代可能未必与特定客户端环境相关联的环境。例如，初始设置或环境20可涉及系统100的供应商或分销商，并且可相对于任何特定客户端环境断开或离线。作为补充，术语客户端站点或实例化环境30在本文中可用于指代可涉及系统100在与客户端站点相关的一个或多个计算设备(例如，图1的计算设备10)上的特定安装或实例化的站点或计算环境。

如图2的粗箭头所示，在初始设置或环境20中对系统100进行初始训练之后，系统100可被安装或部署在可与客户端站点相关的一个或多个计算设备10上，该客户端站点包括例如组织计算网络、托管与特定客户端或组织相关联的网站的一个或多个计算机等。因此可认为，包括一个或多个相应模型M₀实例的一个或多个系统100的安装或实例化可被关联到一个或多个对应的实例化环境或客户端站点30(例如，网站、计算网络等)。

根据一些实施方案，对于一个或多个(例如，每个)ML模型M₀实例(例如，涉及每个客户端站点30)，系统100可经由对应的客户端站点30接收至少一个话语143。

例如，客户端站点30可以是或可包括特定客户端或组织的聊天室、与客户端或组织相关联的网站、客户端或组织的联系中心等。因此，接收到的话语143可以是已经在客户端站点30处接收到(例如，经由电话、聊天等)的声音话语、口头话语、表示口头话语的文本元素等。

在一个非限制性示例中，系统100可作为联络中心分析应用程序被安装或部署在客户端站点30中作为客户端站点的一部分。如本文所述，系统100可被适配为使得联络中心分析应用程序的用户能够通过经由用户界面140向该应用程序提供关于其预测的交互反馈来影响情绪内容检测的过程。交互反馈可促进ML模型120的本地的独立微调或重新训练，在某种意义上，该ML模型可与特定的客户端站点30(例如，特定的联络中心站点或云租户)相关联。例如，ML模型120的微调或重新训练可使情绪分析模型120适应可用于组织的领域和/或业务中使用的行话。根据一些实施方案，用户可能能够修复ML模型120的不尽如人意的预测，和/或加强正确的预测。

如本文所述，系统100可使用交互反馈来对话语进行分类以：(a)重新训练或微调ML模型120，以及(b)微调一个或多个预测阈值，以产生期望的目标精度。

根据一些实施方案，系统100可包括用户界面(UI)140，该UI可对应于或促进到客户端站点30的界面。例如，UI 140可以是可促进到客户端网站30的界面的应用程序(例如，网页)。附加地或另选地，UI 140可以是或可包括聊天应用程序，该聊天应用程序可促进客户端站点聊天室30。附加地或另选地，UI 140可以是或可包括可促进组织的代表与该组织的客户之间的呼叫中心的应用程序。

根据一些实施方案，系统100可例如经由UI 140接收包括未见数据(诸如未见话语143)的一个或多个数据元素。系统100可执行对未见话语数据元素143的一个或多个现场预测。换句话讲，系统100可利用预先训练的模型M₀的实例化120B来对至少一个接收到的话语143进行分类或预测(如本领域中通常所指代的)类别。

所预测的类别可以是或可包括例如至少一个第一类别的积极话语，诸如客户对客户端站点提供的服务表示满意的话语(例如，“非常感谢，我很感激你的帮助”)。作为补充，所预测的类别可包括至少一个第二类别的消极话语，诸如客户对客户端站点提供的服务表示不满的话语(例如，“我已经等很久了”)。

根据一些实施方案，系统100可(例如，经由UI 140从用户)接收或获得至少一个反馈数据元素145。反馈数据元素145可以是对应于该至少一个话语143和/或对应的现场预测的注释反馈数据元素。换句话讲，该至少一个注释反馈数据元素可经由与对应客户端站点30相关联的用户界面(UI)以交互方式获得，如本文所述。

例如，UI 140可(例如，经由图1的输出设备8，诸如屏幕)向用户呈现至少一个话语143和由模型120做出的对应现场预测320。用户可能不同意现场预测320。例如，用户可确定系统100错误地将话语143分类为消极情绪，而实际上它是积极或中性的，反之亦然。用户随后可选择输入(例如，经由图1的输入设备7)交互反馈数据元素145，以纠正该错误。例如，用户可在注释反馈中根据零个、一个或多个情绪类别(诸如“积极情绪”类别121、“消极情绪”类别121和中性类别121)包括对该至少一个话语的分类。

本文使用的术语“交互式”的含义是，系统100可经由UI 140呈现和/或查询与话语143有关的现场预测320的有效性，随后可经由UI 140接收用户响应于该呈现或查询的反馈数据元素145。

在一些实施方案中，例如，在情绪类别121包括“积极情绪”类别和“消极情绪”类别的情况下，反馈145可包括针对每个类别121(例如，“积极情绪”和“消极情绪”)的一个或多个反馈类型，其包括例如假阳性(FP)反馈类型、假阴性(FN)反馈类型、真阳性(TP)反馈类型和真阴性(TN)反馈类型。

例如，假阳性(FP)反馈类型可与消极或积极情绪类别相关，并且在本文中可分别表示为FP/NEG和FP/POS。例如，如果话语145(诸如“今天天气真糟糕”)被模型120错误地分类为121传递消极情绪，则用户可提供注释交互反馈145，诸如FP(例如，FP/NEG)。另选地，如果话语(诸如“谢谢，再见”)被模型120错误地分类为121传递积极情绪，则用户可提供注释交互反馈145，诸如FP(例如，FP/POS)。

又如，假阴性(FN)反馈类型可与消极或积极情绪类别相关，并且在本文中可分别表示为FN/NEG和FN/POS。例如，如果话语或句子143“如果你们不解决我的问题，我就转去Netflix”未被模型120分类为121传递消极情绪，则该话语或句子可被交互反馈145注释为FN(例如，FN/NEG)。另选地，如果话语143(诸如句子“谢谢，我真的很感激”)未被模型120分类为121传递积极情绪，则用户可将该话语标记为FN(FN/POS)。

又如，真阳性(TP)注释和真阴性(TN)注释可作为交互反馈145提供，以支持由模型120针对任一情绪类别(例如，消极、积极或中性情绪类别)做出的预测。

根据一些实施方案，系统100可包括训练模块130，该训练模块被适配为重新训练或微调ML模型120(例如，M₀)，以便产生第二ML模型或ML模型120的第二个版本。该经微调的模型在图2中表示为模型M₁或元素120B。

根据一些实施方案，训练模块130可基于注释训练数据集重新训练或微调ML模型120，该注释训练数据集可包括第一注释训练数据集(例如，训练数据集23和/或验证数据集25)以及该至少一个交互注释反馈数据元素145。

根据一些实施方案，情绪类别可表示某一情绪，并且可包括例如积极情绪类别、消极情绪类别、中性情绪类别等。系统100可利用微调或重新训练的ML模型M₁，以根据一个或多个情绪类别(例如，积极情绪、消极情绪、中性情绪类别等)来对传入话语143进行分类。附加地或另选地，系统100可利用训练模块130来持续训练或微调ML模型M₁ 120B。在此上下文中，所用术语“持续”的含义是，训练模块130可在例如一个或多个交互反馈数据元素145等输入之后，重复或定期地重新训练ML模型M₁，如本文所述。

本领域技术人员可理解的是，经微调的模型M₁可以是三个因素的产物：(a)交互反馈145，(b)基础模型M₀(例如，表示为120A)和(c)原始数据集(例如，训练数据集23和/或验证数据集25)。根据一些实施方案，训练模块130可基于(a)以及(b)和(c)中的一者或多者来重新训练或微调ML模型120。

可理解的是，针对任何微调过程的输入都可包括反馈数据。然而，仅基于反馈进行微调的模型往往会遗忘部分原始训练材料。因此，原始训练数据或部分原始训练数据通常会被添加到微调训练集中。

根据一些实施方案，训练模块130可包括原始训练数据集(例如，训练数据集23和/或验证数据集25)的至少一部分(例如，全部的原始训练数据集)作为微调过程的输入。例如，训练数据集23和/或验证数据集25可存储在基于云的存储服务器上，以促进对系统100的本地(例如，涉及客户端站点30)实例化进行训练。

根据一些实施方案，可对用于训练的数据部分进行加权，以便突显特定部分的重要性。例如，在对模型120进行重新训练或微调的过程中，可对交互用户反馈数据145进行加权或重复，以赋予用户反馈145附加的重要性。实验结果示出，针对重新训练模型120，重复5到10倍的用户反馈145可提供最佳性能。

根据一些实施方案，训练模块130可从已经训练好的现场模型(例如，M₀或M₁)120开始模型120的微调过程，而非“从头开始”(例如，使用随机权重)。实验结果示出，随着交互反馈数据145的不断输入，这种训练方式可在整个微调过程中产生稳定的结果。相比之下，从头开始训练模型120可能会在不同的运行中趋向于收敛到不同的局部最佳状态，从而导致与反馈数据145无关的话语得分出现更多波动。训练模块130可通过后续微调调用中F1的平均变化来衡量这种稳定性，每次微调调用都会将反馈145数据实例的数量增加更多的几个样本。训练模块130可使用较小的学习速率(例如，3^e-5的数量级)，例如，该学习速率可比用于训练基础模型M₀的学习速率小3到30倍。

下面的表1包括用于对基础模型M₀进行微调(例如，以便生成微调模型M₁)的反馈话语以及这些话语的变体的示例，微调模型M₁成功地针对这些变体做出了准确的预测，但基础模型M₀失败了。表1的预测被认为是二进制的，在某种意义上，相对于在相应模型(例如，M₀和M₁)的验证集上达到80％精度的预测阈值，这些预测可能是正确的，也可能是不正确的。在表1的示例中，经微调的模型M₁能够很好地归纳出对与原始话语意义类似但不完全相同的话语143(例如，句子)的分类121。

表1

在任何基于ML的分类过程中，一个重要的决策是如何从分类器的原始输出向量中预测类别(例如，生成类别预测)。该过程可能需要计算一组预测阈值，其通常被称为工作点。确定工作点的方法可以是找到在验证数据集25上产生所需精度值p_req的预测阈值。针对每个类别，精度可计算为正确预测的数量除以阳性预测的数量，详见以下公式1：

公式1：

精度＝TP/(TP+FP)

其中，TP是相关类别的真阳性率，并且

FP是相关类别的假阳性率。

例如，针对每个类别(例如，消极情绪类别)，在预测阈值0.8时计算出的精度值p_calc可以是置信度>＝0.8的正确预测(例如，消极情绪预测)的数量除以置信度>＝0.8的预测总数量(例如，消极情绪的正确和不正确的预测)。

该方法的问题可能在于，验证集25可能不一定表示客户端站点30上的数据(例如，话语数据元素143)。因此，实际计算出的精度值p_calc可能低于或高于所需精度p_req。

如果特定类别的实际计算精度p_calc低于p_req(例如，超出预定的边界值)，则可能需要增加p_calc，以便减少系统100的错误预测数量，避免过多的错误预测被系统100高度排序，如本文所述。

作为补充，如果特定类别的p_calc高于p_req(例如，超出预定的边界值)，则可能需要降低相关类别的预测阈值，以便提高类别的召回率，获得更多高质量的分类。如本领域所知，类别的召回值可根据以下公式2来计算：

公式2：

召回率＝TP/(TP+FN)，

其中，TP是相关类别的真阳性率，并且

FN是相关类别的假阴性率。

根据一些实施方案，ML模型120可被配置为接收输入话语143，并生成(或预测，如本领域中通常所指代的)情绪类别121和对应的置信度得分122。置信度得分122可表示置信度水平，或将相关话语分类到情绪类别的确定性。置信度得分122可以是或可包括数值，例如，介于0与1之间，其中低值(例如，0.1)表示对分类121的置信度低，高值(例如，0.9)表示对分类的置信度高。

在一些实施方案中，例如情绪类别121包括“积极情绪”类别和“消极情绪”类别，大多数预测可能是中性的，例如既不涉及积极情绪也不涉及消极情绪。因此，此类实施方案中的实际挑战可能是检测极性(例如，消极或积极)话语。

为此，初始预测阈值模块150A可通过找到两个预测阈值151A(一个用于消极类别，一个用于积极类别)来设置初始工作点，这两个预测阈值在验证集25上产生所需精度水平(例如，p_req＝0.8)。然而，如本文所讨论的，该方法可能无法根据客户端站点30上未见过的话语数据来保证所需精度。为了解决此问题，系统100可包括微调阈值模块150B，该微调阈值模块被适配为基于客户端站点30的特定数据话语143和对应的置信度得分122来计算预测阈值151B，如本文所述。

根据本发明的一些实施方案，系统100可利用这样一种见解，即计算精度p_calc可能只取决于超过预测阈值151B的话语143。因此，微调阈值模块150B只需从具有高极性置信度得分122的传入话语143的总数量中采样相对较小的随机话语子集143即可。针对该子集，系统100可主动(例如，经由UI 140)提示用户进行反馈。例如，反馈可以是正确/不正确选择的形式，以确认或反驳对相关话语143的分类。如本文所述，微调阈值模块150B随后可寻找会针对该样本生成所需精度p_req的预测阈值151B(例如，针对消极/积极情绪类别)。由于采样是随机执行的，因此可保证客户端站点30话语数据143的实际计算精度值p_calc位于距目标精度p_req任意小的置信度区间内。样本大小越大，误差范围可能越小。

统计学领域的技术人员可理解的是，并且已经通过本发明的实施方案实验证明，可小至250个样本(每个极性类别)的采样话语143的子集可确保95％的置信度区间，误差范围可能小于0.05。换句话讲，本发明的实施方案可为交互反馈145智能选择话语数据143中非常小的样本子集，从而将人工输入的工作量降到最低，同时保持较高的置信度区间和较小的误差范围。

如本文所述，微调阈值模块150B可基于对具有高极性得分的话语143的随机采样，来对预测阈值151B执行特定于客户端站点30的微调。不同预测阈值151B的计算(例如，消极情绪阈值和积极情绪阈值)可类似地独立执行。

根据一些实施方案，微调阈值模块150B可被适配为确定预测阈值TH(在图2中表示为元素151B)，该预测阈值可诱发预定义的置信度区间，该置信度区间可能包含所需目标精度值p_req，并且具有预定义的误差范围。例如，微调阈值模块150B的目标可能是找到围绕p_req＝0.8的95％的置信度区间，并且误差范围e<0.05。统计学领域的技术人员可理解的是，并且已经显示，如果交互反馈145包括至少250个随机样本，且这些随机样本取自置信度得分[TH,1]的范围，则此类置信度区间可得以保证。

然而，由于确切的预测阈值TH 151B可能无法事先得知，而且理论上该预测阈值可能位于[0.5,1]的范围内，因此在关键范围[TH,1]中获取250个样本可能需要从[0.5,TH]的范围中抽取许多无关样本。例如，如果模型120预测的置信度得分在[0.5,1]范围内均匀分布，并且如果预测阈值TH＝0.75产生目标精度p_req，则微调阈值模块150B可能需要500个样本来计算预测阈值TH 151B的值，即使其中只有250个样本用于估算高于预测阈值TH151B的精度。由于每个样本都可能需要用户经由UI 140提供反馈145，因此可能期望将所需样本数量最小化到超过保证置信度区间所需的最小值250。

如本文所述(例如，与图2有关)，系统100可包括或可接收ML模型120，该ML模型被预先训练以执行对话语143的自动情绪分类。ML模型120可与至少一个初始预测阈值151(例如，151A)相关联。

根据一些实施方案，可将一个或多个ML模型120实例实例化或与一个或多个对应的客户端站点30相关联。对于每个ML模型120实例(和每个对应的客户端站点30)，系统100可经由对应的站点接收至少一个话语143，获得对应于该至少一个话语143的至少一个交互注释反馈数据元素145。

如本文所述，对于每个ML模型120实例，系统100随后可根据所需精度水平p_req并且基于该至少一个注释反馈数据元素来自动校准该至少一个预测阈值151(例如，151A)，以获得校准或微调预测阈值151B。

然后，ML模型120可利用该至少一个微调预测阈值151(例如，151B)来将话语143分类为属于一个或多个情绪类别121。

例如，如果ML模型120预测对特定话语143的分类121(例如，“积极情绪”)，并且对应的置信度得分122超过该类别的预测阈值151B，则系统100可确定相关话语确实按照ML模型120的预测进行分类(例如，“积极情绪”)。作为补充，如果对应的置信度得分122没有超过该类别的预测阈值151B，则系统100可确定相关话语没有按照ML模型120的预测进行分类(例如，“中性情绪”)。

现在参考图3，其是描绘了根据本发明的一些实施方案的可用于确定预测阈值151B的数据的示例的表格。可理解的是，图3中描绘的数据可表示用于自动校准该至少一个预测阈值151B的简化算法。本文还提供了自动预测阈值算法的更详细版本。

如本文所述(例如，与图2有关)，系统100可例如经由UI 140向用户呈现一个或多个话语143以及由模型120(例如，模型M₀或M₁)做出的对应现场预测320。例如，话语可以是消极句子的口头或文本话语，诸如“我对服务不满意”，并且由模型120做出的现场预测320可包括对“消极情绪”分类的指示。

根据一些实施方案，模型120可根据每个话语与情绪类别的相关性，计算对应于多个话语143的多个置信度得分122。例如，如图3的示例中最左列所示，模型120可将消极(例如，消极情绪)类别置信度得分计算为[0,1]范围内的浮点数，其中高值(例如，0.9)表示具有高置信度的消极情绪分类，低值(例如，0.1)表示具有低置信度的消极情绪分类。

根据一些实施方案，处理器110可基于多个话语的相应置信度得分122，从多个话语143中选择话语子集143，以将该话语子集呈现在UI 140上用于反馈。UI 140随后可呈现所选择的话语子集143并从中获得反馈。例如，如图3的示例的“人类注释”列所示，人类用户可以“是”或“否”(表示为0/1)注释的形式提供反馈，从而指示他们是同意(例如，“1”)还是不同意(例如，“0”)分类。

根据一些实施方案，处理器110可通过以下方式选择话语子集143用于反馈：(a)从多个话语中选择置信度得分122超过选择阈值(例如，0.5)的第一话语子集；以及(b)从第一子集中随机选择第二话语子集。

如本文所述，由于对用于反馈的话语的选择是随机执行的，因此可保证客户端站点30话语数据143的实际精度值位于计算精度p_calc的较小置信度区间内。如本文所述，本发明的实施方案可对分类预测的精度进行微调，以收敛到所需精度(表示为p_req)。因此，可保证客户端站点30话语数据143的实际精度值位于所要求的精度p_req的较小置信度区间内。此外，随着样本大小(例如，第二子集中的话语数量)的增大，误差范围可能会越小。

根据一些实施方案，可针对每个类别将选择阈值设置为不同或特定值。例如，对于第一类别(例如，“消极情绪”)，可使用第一选择阈值，而对于第二类别(例如，“积极情绪”)可使用不同的第二选择阈值。

如图3所示，微调阈值模块150B可根据置信度得分122(例如，最左列的“消极类别置信度得分”)，在降序列表中对第二子集的多个话语143进行排序。然后，针对排序列表的一个或多个(例如，所有)条目，微调阈值模块150B可基于注释反馈来计算分类精度值。

例如，从最上面的置信度得分122开始，微调阈值模块150B可汇总“正确”(例如，“1”)人类注释的数量(例如，如“汇总正确”列所示)，然后将其除以特定话语数量(例如，如“前缀大小”列所示)。因此，例如，四个话语后计算出的精度是4/4＝1.0，而五个话语后计算出的精度是4/5＝0.8。

根据一些实施方案，微调阈值模块150B可识别对应于所需分类精度值的排序列表的索引。例如，所需分类精度值可以是0.8，微调阈值模块150B可识别计算精度降至所需分类精度值以下的话语的第一索引。在图3的示例中，这是第17个话语，其计算精度已降至0.76，例如，降至0.8的预定义阈值以下。计算精度低于预定阈值的话语在图3的示例中以灰色标出。

根据一些实施方案，微调阈值模块150B可根据所识别的索引来校准或微调预测阈值151B。

例如，微调阈值模块150B可将校准或微调预测阈值151B确定为等于对应于所识别的索引的置信度得分122。在图3的示例中，该值为0.895903877。另选地，微调阈值模块150B可将微调预测阈值151B确定为等于对应于所识别的索引的正上方的索引的置信度得分122。在图3的示例中，该值为0.896371917。另选地，微调阈值模块150B可将微调预测阈值151B确定为两个或更多个类别置信度得分122之间的函数(例如，平均值)(例如，AVG(0.896371917,0.895903877)＝0.896137897)。也可采用其他基于排序列表的置信度得分122来确定微调预测阈值151B的具体方式。

可理解的是，可针对每个类别独立实现或执行微调预测阈值151B的校准或微调。附加地或另选地，预测阈值151B对于每个情绪类别可为特定的。

例如，第一预测阈值151B可用于将话语143分类为涉及“积极情绪”类别，并且不同的第二预测阈值151B可用于将话语143分类为有关“消极情绪”类别。

根据一些实施方案，可选择第二子集的大小，例如，被选择用来呈现以用于反馈(例如，呈现以用于人类注释)的话语的数量，以便保证预测阈值将对应于在预定误差范围内具有预定置信度值的基准真值精度。例如，可选择第二子集的大小，以便保证预测精度将在与基准真值精度的0.05的误差范围内达到95％的置信度。

根据本发明的一些实施方案，第二话语子集(例如，随机选择以用于反馈的话语)的大小可由预定子集限制大小值来限制，该预定子集限制大小值对于每个情绪类别可为特定的。换句话讲，系统100可针对第一类别(例如，“积极情绪”)随机选择第一数量的话语用于反馈，并针对第二类别(例如，“消极情绪”)随机选择不同数量的话语用于反馈。

根据一些实施方案，第二话语子集可包括300个或更少的话语。换句话讲，一个或多个(例如，所有)类别的子集限制大小值可以是300或更小的值。实验证明，对于商业规模的话语数据集而言，此类300个或更少的少量话语足以满足p_req＝0.8的所需精度值，围绕p_req＝0.8的置信度区间为95％，并且误差范围e<0.05。

附加地或另选地，本发明的实施方案可根据所需精度水平p_req，基于注释验证数据集25来校准该至少一个预测阈值151(例如，151A)，以获得校准或微调预测阈值151B。

在此类实施方案中，系统100可接收注释验证数据集25，该注释验证数据集可包括多个话语。注释验证数据集25可能被注释，在某种意义上，该注释验证数据集可能包括对一个或多个(例如，所有)包含在其中的话语的真实分类或标记。模型120(例如，M₀或M₁)可计算多个置信度得分122，该多个置信度得分对应于注释验证数据集25的多个话语，其中每个置信度得分122表示将话语分类到情绪类别(例如“消极情绪”类别)的确定性水平。微调阈值模块150B随后可根据计算出的置信度得分122在排序列表中对注释验证数据集25的话语进行排序，如图3的示例中所示。针对排序列表中的一个或多个条目，微调阈值模块150B可计算分类精度值，并且以类似于上文阐述的方式来识别对应于所需分类精度值的排序列表的索引。微调阈值模块150B随后可以类似于上文所述的方式来将所识别的索引的置信度得分122确定为用于将话语分类为属于相关情绪类别的预测阈值151B。

附加地或另选地，微调阈值模块150B可根据替代算法来校准至少一个类别(例如，“消极情绪类别”)的预测阈值151B，如下文所述。

微调阈值模块150B可作为输入接收：(a)目标或要求的精度值p_req(例如，0.8)，(b)最小样本大小MS(例如，250个)，(c)额外样本数量eps(例如，30个)，其可用于验证在返回的预测阈值151B以下，精度确实降至p_req以下；(d)置信度区间概率C(例如，95％)；和(e)误差范围e(例如，0.05)。

本文所用的术语“样本”可指代本发明的实施方案所选择的一个或多个话语，该一个或多个话语被呈现给用户，以获得针对分类的监督反馈(例如，真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN))，如本文所述。

根据一些实施方案，微调阈值模块150B可采用三阶段分析算法，以基于该输入来确定、生成或发出至少一个类别(例如，“消极情绪”类别或“积极情绪”类别)的预测阈值151B，该预测阈值针对预测阈值151B以上的至少MS个样本的随机样本实现精度p_req(或尽可能接近p_req)，并保证整个群体围绕p_req具有误差范围e的C置信度区间，如本文所述。

根据一些实施方案，微调阈值模块150B最初可收集置信度得分122超过预定选择阈值的所有话语，按得分递减排序(例如，如图3所呈现)，并将其划分为预定数量n_bins且大小相等的分区，表示为b₁…，b_{n_bins}，其中b₁是得分最高的分区，b_{n_bins}(例如，b₁₀)是得分最低的分区。例如，置信度得分122超过预定选择阈值(例如，>0.5)的所有话语的数量可以是600,000个。微调阈值模块150B可将这些话语划分为10个分区(例如，b₁…，b₁₀)，每个分区具有60,000个话语，其中b₁是得分最高的分区，b₁₀是得分最低的分区。

在第一阶段(在本文中表示为“阶段1”)，微调阈值模块150B可对所需预测阈值151B可能所在的分区索引进行初始估算。在此阶段，“i”可指示当前的分区索引，“s”可指示每个分区的初始样本大小(例如，每个分区30个样本)。

在阶段1期间，从第一分区(例如，“i”初始化为“1”)开始，微调阈值模块150B可针对每个分区重复步骤1a、1b和1c，直到满足停止条件，如下文所述：

阶段1

{

1a.计算目前为止所取的所有样本(例如，来自所有分区的样本)的精度p_calc。

1b.如果p_calc>＝p_req，则从下一个“未使用的”分区b_i中取样s个(例如，30个)话语，并递增i个(例如，i＝i+1)。

1c.否则(例如，p_calc<p_req)，在每个“未使用的”分区中添加预定数量(例如，10个)的附加样本，并设置s＝s+10(例如，s＝30+10＝40)，然后进一步基于附加样本来计算p_calc。

}

例如，停止条件可以是：(a)特定计算精度(例如，按照与图3有关的示例所述计算)p_calc小于所需p_req精度；以及(b)样本数量n_samp超过最小值，详见以下公式3：

公式3

p_calc<p_req；

size(n_samp)>＝MS+eps；

例如，假设(p_calc<p_req)发生在第六个分区(例如，i＝6)，且s＝30，则n_samp＝6*30＝180<MS＝250。针对每个使用过的分区添加第一批10个样本后：n_samp＝6*(30+10)＝240<MS＝250，且尚未满足停止条件。针对每个使用过的分区添加第二批10个样本后：n_samp＝6*(30+10+10)＝300>MS＝250，满足停止条件。

在第二阶段(在本文中表示为“阶段2”)，微调阈值模块150B可找到确切的预测阈值151B，其中计算精度降至p_req以下。

在此阶段，微调阈值模块150B可重复步骤2a至2d，如下文所述：

阶段2

{

2a.微调阈值模块150B可按照置信度得分122的递减顺序对所获取的n_samp个(例如，当前示例中为300个)样本进行排序。

2b.针对排序集的每个前缀，微调阈值模块150B可计算其精度p_calc，如本文所述(例如，与图3有关)。

2c.微调阈值模块150B可确定索引j，该索引是对应于精度值p_calc>＝p_req的最大索引。微调阈值模块150B可用p(j)来表示对应前缀的精度。

2d.如果j<MS(例如，对应于精度值p_calc>＝p_req的最大索引)小于预定最小样本数量，则算法可返回到步骤1c(例如，向每个“开放”分区添加10个样本)。

}

在本文中表示为“阶段3”的第三阶段中，微调阈值模块150B可执行在本文中表示为“尾部分析”的过程，其被配置为确定低于索引j的精度的下降在统计上可能表示趋势而非局部下降或“故障”，如下文所述。微调阈值模块150B可重复步骤3a到3d，直到在步骤3d处找到所需阈值151B为止：

阶段3

{

3a.如果被限定为样本数量(例如，n_samp，在该示例中为300)与预定最小的样本数量(例如，MS，在该示例中为250)之间的差值的尾部大小小于预定数量(例如，20，在该示例中为300-250＝50>20)，则微调阈值模块150B可回到步骤1a(例如，从下一个“未使用的”分区bi中取样s个话语，并递增i个(i＝i+1)。

3b.令k为尾部中的真实预测的数量(例如，最后300-250＝50个样本)。微调阈值模块150B可针对n_samp-j次试验中的至多k次成功计算p值，假设具有成功概率p_req的二项式分布。此p值可表示尾部区域中的精度为p_req或更高的零假设，并且使用二项式累积分布函数(CDF)来计算得出。

3c.如果p值大于0.05(接受零假设)，则微调阈值模块150B可从新分区b_i提取s个样本，并且微调阈值模块150B可回到步骤2a。此步骤的动机可以是：由于接受了零假设(例如，将所计算的精度p_calc的下降检测为误报)，因此微调阈值模块150B可从新分区抽取最少附加数量的样本，并且重新计算p_calc低于p_req的点。

3d.如果p值<＝0.05(拒绝零假设)，则微调阈值模块150B可返回预测阈值151B作为索引j处的样本的分数。

}

可理解的是，在终止时，C＝95％置信区间是[p_calc-e，p_calc+e]，其中：e(例如，误差范围)可根据下面的公式4来计算：

公式4

其中Z_0.95是0.95处的z分数。

以所需精度水平p_req＝0.8为例，并且由于期望p_calc非常接近p_req，所以公式4可得出：

这意味着给定0.8的目标精度和300的样本大小，整体的实际精度被包含在范围[0.751,0.849]内的概率至少是0.95。

现在参考图4，其是描绘了根据本发明的一些实施方案的通过至少一个处理器(例如，图1的处理器2)微调自动情绪分类的方法的流程图。

如步骤S1005所示，该至少一个处理器可接收第一ML模型M₀(例如，图2的ML模型120A)。第一ML模型M₀可基于第一注释训练数据集23和/或验证集25被初始训练或预先训练以执行对话语的自动情绪分类。

如步骤S1010所示，该至少一个处理器可将一个或多个模型M₀实例与一个或多个对应站点关联，或者在一个或多个对应站点处部署一个或多个模型M₀实例。这些一个或多个站点可包括例如网站、呼叫中心、在线聊天室等，其可属于一个或多个对应的组织、客户端和/或公司或者与一个或多个对应的组织、客户端和/或公司相关联。可理解的是，根据注释训练数据集23和/或验证集25预先训练第一ML模型M₀可在ML模型M₀的供应商的站点处执行，并且可在将ML模型M₀部署或关联到该一个或多个站点之前完成。

如步骤S1015所示，对于至少一个(例如，每个)ML模型M₀实例，该至少一个处理器可经由对应站点接收至少一个话语143。例如，该至少一个话语可以是经由与作为呼叫中心的站点的电话呼叫从顾客接收的声音或口头话语。又如，该至少一个话语可以是经由作为在线聊天或组织网页等的站点从顾客接收的文本话语。

如步骤S1020所示，对于至少一个(例如，每个)ML模型M₀实例，该至少一个处理器可获得对应于该至少一个话语的至少一个注释反馈数据元素145。例如，该至少一个注释反馈数据元素145可包括与该至少一个话语143的情绪分类相关的标记或注释。例如，注释反馈145可包括关于通过ML模型120A对至少一个话语143的分类的监督反馈，诸如真阳性(TP)注释、真阴性(TN)注释、假阳性(FP)注释和假阴性(FN)注释。附加地或另选地，至少一个注释反馈数据元素145可包括标记或注释数据诸如该至少一个话语143的“基础真实”情绪分类(例如，“积极情绪”、“消极情绪”)。

如步骤S1025所示，对于至少一个(例如，每个)ML模型M₀实例120A，该至少一个处理器可重新训练或微调ML模型M₀的训练，以产生第二ML模型M₁(例如，图2的ML模型120B)。ML模型120A的重新训练可基于第二注释训练数据集，其中第二注释训练数据集可包括第一注释训练数据集23和该至少一个注释反馈数据元素145。

如步骤S1030所示，对于至少一个(例如，每个)站点(例如，和/或对应的ML模型M₀实例120A)，该至少一个处理器可使用第二ML模型M₁ 120B来根据一个或多个情绪类别(例如，根据“积极情绪”类别、“中性情绪”类别和“消极情绪”类别)对话语，例如在相关联的站点处接收到的话语143，进行分类。

现在参考图5，其是描绘了根据本发明的一些实施方案的通过至少一个处理器(例如，图1的处理器2)微调自动情绪分类的另一方法的流程图。

如步骤S2005所示，该至少一个处理器可接收第一ML模型M₀(例如，图2的ML模型120A)。第一ML模型M₀可基于第一注释训练数据集23和/或验证集25被初始训练或预先训练以执行对话语的自动情绪分类。附加地或另选地，ML模型M₀可与至少一个预测阈值(例如，图2的初始阈值151A)相关联。

如步骤S2010所示，该至少一个处理器可将一个或多个模型M₀实例与一个或多个对应站点关联，或者在一个或多个对应站点处部署一个或多个模型M₀实例。这些一个或多个站点可包括例如网站、呼叫中心、在线聊天室等，其可属于一个或多个对应的组织、客户端和/或公司或者与一个或多个对应的组织、客户端和/或公司相关联，如本文所述。

如步骤S2015所示，对于至少一个(例如，每一个)ML模型M₀实例120A，该至少一个处理器可经由对应站点接收至少一个话语，如本文所述(例如，与图4有关)。

如步骤S2020所示，对于至少一个(例如，每个)ML模型M₀实例，该至少一个处理器可获得对应于该至少一个话语的至少一个注释反馈数据元素145，如本文所述(例如，与图4有关)。

如步骤S2025所示，对于至少一个(例如，每一个)ML模型M₀实例，该至少一个处理器可根据所需精度水平(例如，在本文中表示为p_req)并且基于该至少一个注释反馈数据元素145来自动地校准该至少一个预测阈值151B，如本文所述(例如，与图3有关)。

如步骤S2030所示，对于至少一个(例如，每个)站点，该至少一个处理器可使用该至少一个预测阈值来将话语143分类为属于一个或多个情绪类别，如本文所述。

本发明的实施方案可包括用于执行基于ML的自然语言处理的实际应用。

本发明的实施方案可包括对基于ML的分类、特别是基于ML的自然语言处理和情绪分析的当前可用技术的若干改进。

例如，本发明的实施方案可根据部署ML模型的特定环境、特定站点或组织的行话和/或领域，通过细化或重新训练预先训练的情绪分析ML模型来改进基于ML的情绪分析技术。该重新训练可基于或考虑：(a)初始训练数据集，在该初始训练数据集上，ML模型被初始预先训练；和(b)监督反馈数据，该监督反馈数据涉及部署ML模型的特定站点。

又如，本发明的实施方案可通过以下方式来改进基于ML的情绪分析技术：接收所需精度水平(在本文中表示为p_req)，基于p_req智能选择最少但仍足够的话语数量作为用于接收人类反馈的样本，以及基于该最少的样本数量自动微调ML模型的预测层的预测阈值。

除非明确陈述，否则本文所述的方法实施方案不限于特定次序或序列。此外，本文所述的所有公式仅旨在作为示例，并且可使用其他或不同的公式。另外，一些所描述的方法实施方案或其要素可在相同时间点发生或执行。

虽然本文已举例说明和描述了本发明的某些特征部，但是本领域的技术人员可想到许多修改、替换、变化和等同形式。因此，应当理解，所附权利要求旨在涵盖落入本发明的真实实质内的所有此类修改和变化。

已经呈现了各种实施方案。这些实施方案中的每一者当然可包括来自所呈现的其他实施方案的特征，并且未具体描述的实施方案可包括本文所述的各种特征。

Claims

1.一种通过至少一个处理器微调自动情绪分类的方法，所述方法包括：

接收第一机器学习(ML)模型M₀，所述第一ML模型基于第一注释训练数据集被预先训练以执行对话语的自动情绪分类；

将一个或多个模型M₀实例关联到一个或多个对应站点；

对于每个ML模型M₀实例：

经由所述对应站点接收至少一个话语；

获得对应于所述至少一个话语的至少一个注释反馈数据元素；

基于第二注释训练数据集，重新训练所述ML模型M₀，以产生第二ML模型M₁，其中所述第二注释训练数据集包括所述第一注释训练数据集和所述至少一个注释反馈数据元素；以及

使用所述第二ML模型M₁来根据一个或多个情绪类别对话语进行分类。

2.根据权利要求1所述的方法，其中经由与所述对应站点相关联的用户界面(UI)以交互方式完成获得所述至少一个注释反馈数据元素。

3.根据权利要求1所述的方法，其中所述注释反馈包括根据零个或更多个情绪类别对所述至少一个话语的分类。

4.根据权利要求1所述的方法，所述方法还包括：

接收包括多个话语的注释验证数据集，以及计算对应的多个置信度得分，其中每个置信度得分表示将话语分类到情绪类别的确定性水平；

根据所计算的置信度得分，在排序列表中对所述验证数据集的所述话语进行排序；

针对所述排序列表的一个或多个条目，计算分类精度的值；

识别对应于所需分类精度值的所述排序列表的索引；以及

将所识别的索引的所述置信度得分确定为用于将话语分类为属于所述情绪类别的预测阈值。

5.一种通过至少一个处理器微调自动情绪分类的方法，所述方法包括：

接收ML模型M₀，所述ML模型被预先训练以执行对话语的自动情绪分类，其中模型M₀与至少一个预测阈值相关联；

将一个或多个模型M₀实例关联到一个或多个对应站点；

对于每个ML模型M₀实例：

经由所述对应站点接收至少一个话语；

根据所需精度水平并且基于所述至少一个注释反馈数据元素来自动校准所述至少一个预测阈值；以及

使用所述至少一个预测阈值来将话语分类为属于一个或多个情绪类别。

6.根据权利要求5所述的方法，其中获得所述至少一个注释反馈数据元素包括：

经由UI向用户呈现一个或多个话语；以及

经由所述UI从所述用户获得所述注释反馈数据元素，其中所述注释反馈包括根据零个或更多个情绪类别对所呈现的一个或多个话语的分类。

7.根据权利要求6所述的方法，其中呈现一个或多个话语包括：

根据每个话语与情绪类别的相关性，计算对应的多个话语的多个置信度得分；

基于所述多个话语的相应置信度得分选择所述多个话语的话语子集用于反馈；以及

经由所述UI呈现所选择的话语子集。

8.根据权利要求6所述的方法，其中对于每个情绪类别，选择一个或多个话语用于反馈包括：

从所述多个话语中选择超过选择阈值的第一话语子集；以及

从所述第一子集中随机选择第二话语子集；以及

经由所述UI呈现所述第二话语子集。

9.根据权利要求8所述的方法，其中所述预测阈值对于每个情绪类别为特定的。

10.根据权利要求8所述的方法，其中所述第二话语子集的大小由预定子集大小限制，所述预定子集大小对于每个情绪类别为特定的。

11.根据权利要求8所述的方法，其中所述第二话语子集包括300个或更少的话语。

12.根据权利要求8所述的方法，其中校准所述至少一个预测阈值包括：

根据每个话语与情绪类别的相关性，计算对应于所述第二子集的所述一个或多个话语的一个或多个置信度得分；

根据所述置信度得分，在降序排序列表中对所述第二子集的所述多个话语进行排序；

针对所述排序列表的一个或多个条目，基于所述注释反馈计算分类精度的值；

识别对应于所需分类精度值的所述排序列表的索引；以及

将所识别的索引的所述置信度得分确定为所述预测阈值的所述值。

13.根据权利要求8所述的方法，其中选择所述预定子集大小以便保证所述预测阈值对应于在0.05的误差范围内具有至少95％的置信度值的基准真值精度。

14.根据权利要求5所述的方法，其中所述情绪类别选自由积极情绪和消极情绪组成的列表。

15.一种用于微调自动情绪分析的系统，其中所述系统与特定站点相关联并且包括：(a)存储指令代码的非暂态存储器设备；和(b)与所述存储器设备相关联的处理器，其中所述处理器被配置为执行所述指令代码以便：

接收第一ML模型M₀，所述第一ML模型基于第一注释训练数据集被预先训练以执行对话语的自动情绪分类；

经由所述站点接收至少一个话语；