CN116806343A

CN116806343A - 概率图形网络

Info

Publication number: CN116806343A
Application number: CN202180081243.0A
Authority: CN
Inventors: 托马斯·凯勒; 马库斯·古尔思; 索纳利·辛哈
Original assignee: Claude Smart Ltd
Current assignee: Claude Smart Ltd
Priority date: 2020-10-01
Filing date: 2021-10-01
Publication date: 2023-09-26
Also published as: WO2022072894A1; WO2022072897A1; US20220108195A1; US20220108074A1; CA3194708A1; WO2022072898A1; US11507753B2; US20220108075A1; EP4222658A1; CA3194689A1; CA3194705A1; WO2022072896A1; WO2022072895A1; EP4222614A1; US20220108138A1; US11586826B2; CA3194695A1; US20230067915A1; CN116982037A; CA3194696A1

Abstract

提供了在探索和优化之间进行平衡的过程，以及应用于密集询问预算的非结构化数据的知识发现过程。在对其特征进行结构化的评估中(例如，在结构化评估中或从非结构化数据中确定并提供评估)，概率图形网络可以将机器学习模型的输入和机器学习模型的输出用图表示为图形元素，其中一个或多个边或节点，或与之相关的值，可以基于输出。例如，当排序实体集在评估期间参与专家系统时，专家系统可以确定并更新表示评估状态的概率图形网络(例如，在一个或多个排名事件之后的某个时间点)，或者(例如，在完成之后)基于由排名实体提供的输入的最终状态和确定的分数。

Description

概率图形网络

相关申请的交叉引用

本申请是要求于2020年10月1日提交的、申请号为63/086,542的美国临时申请的权益。出于所有目的，上述申请的全部内容通过引用并入本文。

背景技术

1、领域

本发明总体上涉及人工智能，并且更具体地，涉及利用应用于具有密集询问预算(tight interrogation budgets)的非结构化数据的知识发现过程在探索(exploration)和优化之间的平衡。

2、相关技术的描述

人工智能可采取多种形式，具有各种权衡(trade-offs)和相对强度。示例包括各种形式的机器学习和专家系统。通常，人工智能应用程序经历训练阶段或其他配置阶段，其中，参数是基于训练集配置的，然后是运行时间阶段，其中，训练后的应用程序用于产生响应于运行时间输入的输出。

发明内容

以下是本技术的一些方面的不详尽的清单。在以下公开中描述了这些方面和其他方面。

一些方面包括在探索和优化之间进行平衡的计算机执行过程以及应用于具有密集询问预算的非结构化数据的知识发现过程。示例性过程的一些方面可以包括通过计算系统获得多个自然语言文本。计算系统可以例如使用自然语言处理模型来确定每个文本的高维向量表示，其中这种高维向量表示包含多于50或多于500个维度，并且在一些示例中在700至800个维度之间。计算系统可以例如利用编码器模型将每个高维向量表示缩减为具有较少维度的缩减向量表示，例如小于20或小于10个维度。三个维度可以对应于三维潜在嵌入空间内的位置数据。计算系统可以基于其相应的位置数据将每个缩减向量表示嵌入在三维潜在嵌入空间内，并确定三维潜在嵌入空间内具有低于阈值的向量密度的至少一个区域。基于该确定，计算系统可以为至少一个区域更新优先级值，以偏向于对与至少一个区域相对应或被识别为至少一个区域的自然语言文本的选择。

示例性过程的一些方面可包括利用计算机系统获得要确定的选项之间的排名的选项集。计算系统可以从选项集中选择包括从选项集中选择的选项子集的第一样本。计算系统可以从第一排名实体接收第一选项样本内的选项之间的排名的指示。选项的测试会增加新的选项。例如，计算系统在从其他排名实体接收到针对其他样本的排名的至少一些指示后，可以用至少一个新选项来增加选项集。然后，计算系统可以从增强选项集中选择包括来自增强选项集的选项子集的第二样本，并且第二子集中的一个或多个选项可以是新选项。计算系统可以接收来自第二排名实体的选项的第二样本内的选项之间的排名的指示。概率分布可以由计算系统确定，以基于样本的排名的指示来评估选项集中的每个选项相对于每个其他选项的性能，从而由计算机系统基于性能的评估来输出选项集中选项之间的排序的指示。

示例性过程的一些方面可包括通过计算系统获得待由多个实体评估的多个特征。计算系统可以选择特征以呈现给实体的第一子集。可以接收用于该特征的多个第一分数和多个第一自然语言文本响应。计算系统可以从用于特征的第一响应中选择特征和不同的第一响应子集，以呈现给实体的第二子集。可以接收用于特征的多个第二分数、多个第二自然语言文本响应以及在第一子集中的相应子集中的响应的多个第一排序。可以存储包括每个分数、响应和排序事件的事件的时间序列数据集。计算系统可以获得时间序列数据集并在非循环图内实例化与特征相对应的第一节点和与响应中的相应响应相对应的多个第二节点。图中的节点可以链接到其他节点，例如，第一节点可以通过非循环图中的第一边链接到多个第二节点中的每一个，并且至少一些第二节点可以基于相应响应的自然语言文本之间的共享分类或确定距离，通过非循环图内的第二边链接到其他第二节点。计算系统可以为每个第一边确定基于与相应的第二节点相关联的一个或多个排名的边值(edge value)，并更新基于非循环图的特征的第一节点的特征分数，其中，特征分数是基于与第二节点中的相应第二节点相关联的分数乘以其相应的第一边值的加权。

示例性过程的一些方面可以包括基于从多个实体中的相应实体接收的反馈的时间序列数据集来获得概率图形网络模型，这些反馈用于与评估相对应的一个或多个特征，例如通过计算系统。计算系统可以获得与概率图形网络模型中表示的特征相对应的观测数据，并基于与该特征相对应的基准训练数据集来训练机器学习模型。计算系统可以通过机器学习模型基于与特征相对应的观察数据来确定观察分数，并基于概率图形网络模型来确定后验预测的分布。该分布可以根据基于包括由概率图形网络模型编码的一个或多个分数的相应反馈为每个实体确定的后验预测。计算系统可以在归一化尺度上确定分布的峰值与观察到的分数之间的距离，该距离指示实体对特征的偏差。

示例性过程的一些方面可以包括使用计算机系统基于从多个实体中的相应实体接收的针对与评估相对应的多个特征的反馈的时间序列数据集来获得概率图模型。计算系统可以为每个实体确定指示针对每个特征从实体接收的反馈的分数，以获得多个特征中的相应特征的分数集，每个分数基于概率图模型。计算系统可以基于针对相应特征获得的分数集来为每个特征确定相应的分布，以形成分布集。该分布集的图可以由计算系统生成以用于显示。

一些方面包括存储指令的有形、非暂时、机器可读的介质，当指令由数据处理设备执行时使数据处理设备包括上述过程的操作。

一些方面包括一种系统，包括：一个或多个处理器；以及存储指令的存储器，这些指令在由处理器执行时使处理器执行上述过程的操作。

附图说明

当鉴于以下附图阅读本申请时，将更好地理解本技术的上述方面和其他方面，其中相同的数字表示相似或相同的元件：

图1是根据一些实施方式的用于执行专家系统的示例性计算环境；

图2是根据一些示例性实施方式的可以在其上执行本技术的专家系统的示例性机器学习和训练环境；

图3A是根据一些实施方式的示例性机器学习模型；

图3B是根据一些实施方式的机器学习模型的示例性组件；

图4A是根据一些示例性实施方式的用于确定对齐的测量可以基于的相关分数的示例性过程的流程图；

图4B是根据一些示例性实施方式的对探索和优化进行平衡的语义空间进行采样的示例性过程的流程图；

图5A和图5B示出了根据一些示例性实施方式的在示例性评估期间探索的语义空间的可视化示例，以及用户可以通过其与可视化交互和修改可视化的用户界面；

图5C是根据一些示例性实施方式的用于管理和测量语义覆盖范围(semanticcoverage)的示例性过程的流程图；

图6A、图6B和图6C示出了根据一些示例性实施方式的扩展A/B测试(scale A/Btest)的示例性过程的特征相对应的可视化示例；

图6D是根据一些示例性实施方式的用于扩展A/B测试的示例性过程的流程图；

图7是根据一些示例性实施方式的用于生成概率网络(例如概率贝叶斯网络)的图形表示的示例性过程的流程图；

图8A示出了根据一些实施方式的基于概率图形网络和用于被审计的结果的噪声测量的分布曲线的示例；

图8B示出了根据一些实施方式的基于概率图形网络和对齐测量的不同特征的分布曲线的示例；

图9是根据一些示例性实施方式的根据基于概率图形网络所确定的分布来确定测量的示例性过程的流程图；以及

图10是示出了可以执行上述技术的某些方面的计算装置(或数据处理系统)的示例的物理架构框图。

虽然本技术易受各种修改和替代形式的影响，但其具体实施方式在附图中以示例的方式示出，并且将在本文中详细描述。附图可以不是按比例的。然而，应该理解，附图及其详细描述并不旨在将本技术限制为公开的特定形式，相反，其意图是涵盖落入如权利要求所限定的本技术的精神和范围内的所有修改、等同物和替代方案。

具体实施方式

为了缓解本文所述的问题，发明人必须发明解决方案，并在一些情况下同样重要的是，必须认识到人工智能领域中其他人忽视(或尚未预见)的问题。事实上，发明人希望强调的是，识别那些初期出现且在未来变得更加明显的问题的困难将会如发明人所预期的那样应该在行业内一直继续的趋势。此外，由于解决了多个问题，所以应该理解，一些实施方式是针对特定问题的，并所有实施方式并不是解决了本文所述的传统系统的每个问题或提供了本文所描述的每个益处。也就是说，下文描述了解决这些问题的各种排列的改进。

应用人工智能技术的一个子域被称为知识发现。人工智能技术的任务是从各种来源提取(或分类)知识(或对感兴趣的数据进行其他识别和分类)。在这个(和其他)子域中，用于从各种来源提取知识(或识别感兴趣的数据)的传统技术传统上依赖于从存储在数据库或其他语料库中的结构化数据集获得的输入，以输出有意义的结果。探索和管理此类结构化数据集不仅繁重，而且限制了将此类人工智能技术部署到存在这些结构化数据集的应用中。在用于知识发现的许多潜在应用中，无论是现有的还是新的或不可预见的，用于处理的结构化数据集中的结构数据的初步任务通常是不切实际的。因此，各种人工智能技术已被用于处理非结构化输入数据，但这些尝试的特点是倾向于产生错误的结果或经受过于狭窄的焦点而不能允许更广泛的适用性，例如下面解释的原因。

与结构化数据集相比，非结构化输入(如自然语言文本)更难处理。其中一个原因是，在探索此类知识的来源(例如，询问语料库或人类(如专家))和基于在此类探索中观察到的内容优化模型之间做出适当权衡的挑战。当探索和优化操作昂贵时，例如，在计算上，在延迟约束方面，或者在被询问的人的时间和精力方面，这种权衡变得特别重要。现有的方法通常不太适合受较密集的询问预算约束的过程，即，其中，实际约束限制了可以用于了解系统的问题或其他刺激的数量。特别是对于非结构化、高凸性的数据，现有的方法往往在给定之前的答案的情况下不能一致地提出正确的下一个问题。

本文公开的一些实施方式通过计算技术缓解了这些和其他问题，该计算技术在学习的同时，基于对先前提示的响应，动态地确定何时从寻求新想法(例如，探索)过渡到对迄今为止观察到的结果进行优先考虑(或以其他方式优化模型)。优化机器学习技术以在非结构化数据集的动态噪声环境中导航循证推理的组合，对减少协作环境中的噪声(例如，不同系统或人类之间，在这种情况下，结果可作为分数或指示探索和优先级的可视化输出)具有潜在的深远影响，通过在来自对齐的生产性动作和来自未解决的判断差异的过量自由能量或噪声之间取得平衡。预计这些技术将具有广泛的适用性，并且预计通过使用有效平衡探索和优先级的技术来改进各种形式的人工智能。示例包括调整专家系统和机器学习之间的权衡的用例(use case)，以及下面讨论的其他用例。

与其他类型的机器学习相比，一些类型的专家系统提供一定的优势。许多类型的机器学习是不可判读的，这意味着很难或不能确定为什么一个模型达到了一个特定的结果，或者明确地保证约束模型的行为。因此，这样的模型通常不适合特别高风险的用例，在这些用例中，不可预测的行为是不可接受的。此外，许多类型的机器学习的数据效率特别低，通常需要相对较大的训练集来训练模型。因此，这类模型通常不适合其中训练数据稀缺或获取成本特别高的用例。

在一些实施方式中，专家系统可以缓解部分或全部这些问题。在一些情况下，专家系统被配置为模拟专家的行为，例如人类专家(本文中的术语“专家”是指专家系统被训练来模拟的实体，并且不需要任何客观或主观的专业知识水平来达到这样的资格)。一些形式的专家系统是可判读的，在一些情况下，在给定输入的运行时通知用户输出或结果以及给定输入的输出或结果的原因。在一些情况下，原因可具有有意义的解释力，而不仅仅是给定的感知器(例如，神经网络)触发并导致其他一些感知器触发，例如，在许多缺乏可判读性的神经网络的类型中会产生。此外，一些类型的专家系统在训练方面具有特别高的数据效率。一些类型的专家系统让专家明确地手工编码规则，产生特别有数据效率的结果，而另一些类型的专家系统则摄取指示专家如何在环境中对刺激做出反应的数据，并学习如何在面对新刺激时表现得像专家。

然而，许多类型的现有专家系统都存在挑战。通常，从专家那里获取数据的成本特别高，他们的时间通常非常宝贵，而手工编码规则的专家往往很难精确地阐明这些规则。因此，专家系统传统上一直不受特定部分的人工智能群体的青睐，他们认为专家系统是“脆弱”的方法，在实际实施方式中，面对意想不到的极端情况，专家系统会失败。此外，许多类型的专家系统只容纳来自单一专家的训练数据，这会使这些系统特别脆弱和不准确，例如，在专业知识分散的用例中，在共识有限的专家群体中产生不同的结果，或者由具有不同专业领域的不同专家组持有。

现有的从群体中聚集专业知识的方法并不太适合人工智能应用。例如，群体决策领域经常寻求各种投票方案来合计群体的知识或偏好，但这些方法中的许多都无法产生具有足够自由度的模型，以参与琐碎复杂环境之外的任何事情，例如，要求一组人在一次选举中在两位总统候选人之间投票，合计偏好，但无法产生可以推广到其他领域的模型。其他方法，如德尔菲方法，通常广泛依赖于专家的非结构化数据和人工智能对该数据的解释，以推进决策过程。因此，这些方法中的许多方法不适合更自动化的方法，这些方法会充分利用技术来提高计算机相对于人类更擅长的数据领域的效率。

前面关于权衡的任何讨论都应该被视为不放弃任何技术，因为下面描述的方法可以与上面描述的各种技术结合来执行。

为了缓解上述一些或全部问题，一些实施方式在专家对刺激的响应(例如反馈)上训练预测贝叶斯模型(例如贝叶斯置信网络或其他图形模型，如概率图模型)。在一些实施方式中，在训练阶段期间通过在选择策略中的探索和优化之间进行平衡来选择刺激。一些实施方式在采样函数的发散分量和收敛分量之间进行平衡，该采样函数确定接下来要向专家提出哪些刺激的问题。在一些实施方式中，在训练期间(例如，在整个训练期间)，例如，单调地(或平均地)，随着训练的进行，背离发散/探索且朝向收敛/优化调整该平衡。在一些实施方式中，采样函数模拟了一个好的会议服务商所做的事情：不断从专家那里获得新的观念，同时平衡这与完成会议的需要。

然而，将这种直觉知识转化为代码并非易事。Moravec的悖论认为，有些任务即使是人类的孩子也相对容易完成(比如在照片中发现狗)，但对于计算机来说，这些任务执行起来却非常复杂和具有挑战性。这就是这类场景的一个例子。会议服务商所使用的简单心理过程，没有一种可以直接转化为计算机代码，以在探索和收敛之间进行平衡。输入的维度，以及专家会议可以演变的大量方式防止了模拟会议服务商头脑中发生的事情的简单规则的清晰表达。因此，以下不应该被表征为简单地用计算机执行心理过程，因为在一些实施方式中使用了不同于心理方法的算法，以及一个更易于处理计算机操作的算法。

图1示出了根据一些实施方式的用于执行专家系统的示例性计算环境100。该计算环境100可以包括一个或多个用户设备104、服务器102和数据库130。虽然仅示出了一台服务器(例如，专家系统102)和数据库(例如，对齐数据库130)，但是专家系统102或数据库可以包括多个计算或存储服务器，或者由包括多个计算或存储节点的分布式系统来执行，并且存储的功能或数据可以分布在多个节点或服务器上。专家系统102、数据库130和用户设备104(或本文描述的其他组件)中的每一个都可以通过网络150(例如互联网)相互通信(这不是建议组件需要与每一个其他组件通信)，网络150可以包括公共或私有局域网。这些计算设备中的每一个都可以具有下面描述的计算系统的特征，包括处理器和存储器。在一些实施方式中，本文所描述的功能可以用存储在有形、非暂时、机器可读的介质上的程序代码或其他指令来执行，使得当该程序代码由一个或多个处理器执行时，实现所描述的功能。

在一些实施方式中，专家系统102可以经过训练，然后在各种类型的物理体系结构上在运行期间运行以响应新的输入。示例包括客户端-服务器架构、去中心化架构(例如在区块链治理中)，或作为在单一计算设备上运行的单片应用程序。在一些实施方式中，专家(如2人、5人、20人、500人、5000人或更多人的组)可各自访问计算设备(例如，用户设备104a-n)，通过该计算设备向相应的专家展示(例如，在显示屏上视觉地或用扬声器可听地)刺激，并且相应的专家用该计算设备对这些刺激做出响应。在一些实施方式中，训练过程可以在这些计算设备或集中式计算设备上运行，如远离专家的服务器系统，例如在数据中心中。

在一些实施方式中，专家系统102可以基于相对于刺激提供的响应来确定与刺激相关联的对齐测量。例如，在将刺激及其相关的评估问题呈现给用户集之后，可以向给定用户提供由其他用户提供的评估问题的响应，并对回答与该刺激相关的评估问题的其他用户的这些响应进行排名。随着时间的推移，更多的响应被记录下来，采样函数必须从更大的可能的响应集中选择呈现给用户的问题集进行排名。为了确定与多个用户排名相关的相关分数，服务器可以应用A/B测试算法来确定排名响应的层次结构(例如，哪些响应在多个用户完成的多个排名中获得最高排名)。可以使用采样函数来选择响应的子集进行排名，以便扩展A/B测试，因为随着响应数量随时间的增加，A/B测试无法自行扩展。因此，A/B测试可以用于从采样函数中为用户选择的排名评估问题回答的子集，以及用于其他子集的其他用户，并且可以将排名组合在矩阵中，通过该矩阵可以对不同响应的主体进行排名。例如，在用户提交一个或多个响应排名之后，可以执行来自所有用户的总排名的确定，计算相关分数，并且可以确定用户之间围绕针对刺激的响应以及呈现的多个刺激之间的对齐的一个或多个测量。

专家系统102的实施方式可以包括训练子系统114、评估子系统116和可视化子系统118，通过这些子系统可以执行如上所述的专家系统102的功能。这些组件的功能或以其他方式归属于专家系统102的功能可以以不同的方式划分，在一些情况下在不同的服务器之间划分。例如，这些组件中的一个或多个可以托管在提供专家系统102功能的服务器上，或者托管在由多个服务器执行的服务器系统上，这些服务器每个或集体地对数据或数据的部分执行处理，如本文所述。在一些示例中，对齐数据库130可以在专家系统102的上下文中执行，例如通过一个或多个服务器或存储服务器来执行，专家系统102的组件的功能通过一个或多个服务器或存储服务器来执行，或者单独地执行，例如在云存储系统中执行，专家系统102可以与该云存储系统通信以存储数据并获得存储数据。

训练子系统114可以训练一个或多个模型，该模型可以包括贝叶斯模型、深度学习模型或其他机器学习模型(例如，结合图1-3或本文其他地方描述的任何模型)。这种模型的示例可以包括对齐模型、采样模型和编码器模型。不同的模型可以以不同的方式进行训练(单独地或同时地通过端到端训练)，并且一些模型可以基于其他模型的输出接收输入。模型的训练可以包括端到端的训练，或者模型(例如，像流水线)的不同阶段(例如，像子模型)的训练。一些例子可以组合这些方法，例如通过训练模型，然后将该模型包括在模型中，或者作为端到端训练的流水线的阶段。可以使用服务器系统102从对齐数据库130或用户设备104(例如通过网络150)获得的数据来执行训练。训练子系统114可以从对齐数据库130内存储、访问或更新处于各种训练状态的一个或多个模型。例如，训练子系统114可以访问先前训练的机器学习模型(或正在训练的模型)，并基于新接收的(或分类的数据)更新该模型，并将该模型的更新版本存储在对齐数据库130中。训练子系统114可以访问已训练的模型来处理数据，该数据反过来可用于训练另一个模型。因此，训练子系统114可以存储或访问对齐数据库130中的数据，例如一个或多个模型132和训练数据134，并且训练子系统114可以处理这些数据以训练模型，通过这些模型可以处理反馈数据136以生成对齐数据138。反馈数据136和对齐数据138可用于进一步增强一个或多个模型的训练数据134。

训练子系统114的一些实施方式可以在自然语言文本上训练自然语言处理(NLP)模型，该模型可以是神经网络或深度学习模型，例如深度神经网络。训练子系统114可以基于训练数据134训练NLP模型，并将训练好的NLP模型存储在模型132数据库中。经过训练的NLP模型可以被专家系统102访问并加载到存储器中以处理自然语言文本，例如在反馈数据136中获得的自然语言文本。在一些示例中，可以接收指示处理先前所接收的反馈数据136的结果的质量测量的新反馈数据136，并且基于该新反馈和质量测量，可以将自然语言文本和结果存储为用于更新模型的训练数据。自然语言处理(NLP)模型可以接收自然语言文本或其部分作为输入，并输出指示自然语言文本属性的分数。分数的一些示例可以指示自然语言文本与一个或多个主题(如主题)或主题的描述符的相关性，这些主题可以在训练数据集中被识别，该训练集包括指示一个或多个自然语言文本(如文本的一部分和主题分类)的训练记录。在一些示例中，NLP模型可以推断潜在的主题，例如基于自然语言文本的分组(如自然语言文本的聚类(cluster))，基于自然语言文本之间的距离，并基于聚类中表示的单词或短语(或同义词或同义短语)的频率来推断潜在的主题。在一些示例中，n-grams、长短期记忆网络或其他技术可以与上述技术组合或代替上述技术来确定主题分类。一个或多个潜在的主题可以被分配给聚类，并因此聚类内的文本，无论手动还是基于阈值(例如，聚类内的样本的频率与数量之比低于阈值)或基于示例主题集和一个或多个潜在的主题和样本主题之间的距离(例如，当一个或多个潜在主题和样本主题的距离低于阈值时，可以自动分配样本主题)。

训练子系统114的一些实施方式可以训练对齐模型，该对齐模型可以是对刺激的响应(例如，反馈)的预测贝叶斯模型(如贝叶斯置信网络或其他图模型，如概率图模型)。一些实施方式可以使用迭代训练过程来训练与评估相关联的对齐模型，该评估可以包括在评估过程中(以及模型的相应训练)的几个评估会话上对刺激的多个响应的收集。训练子系统114可以基于在评估子系统116的评估期间获得的数据来训练对齐模型，其可以包括将训练后的结果输出到评估子系统116，并且基于该结果的数据可以用于随后的评估以获得由训练子系统处理的附加数据。实施方式可以迭代训练和评估过程，例如，多次，如5次、7次或15次(或更多次，尽管实施方式倾向于减少迭代次数以减少人类评估者背景下的参与者疲劳，并且在示例用例中，这些改进可以由于最小化迭代次数而减少训练时间)，以训练与评估相对应的对齐模型。

例如，在训练期间，一些实施方式可以获得刺激集以训练对该刺激集的响应的对齐模型。在一些示例中，专家或用户集，例如通过相应的用户设备104A-n，可以在评估过程中呈现该刺激集。在给定的评估会话期间，可以向用户呈现一个或多个刺激，并且评估可以包括多个会话。在一些示例中，例如基于其他用户提供的与刺激相关的反馈数据136，可以向用户呈现与刺激相关的项目集。用户可以提供(例如，作为附加反馈数据)集合内的项目的排名，例如，作为项目质量的排名选择测量。在一些实施方式中，对齐模型可以用于学习因果关系，而不仅仅是相关性。在一些情况下，这组人可以是特定领域或不同领域的专家。在一些情况下，专家是(或包括)非人类智能体，例如，不可判读的机器学习模型，从中训练可判读的专家系统，以提供那些不可判读的机器学习模型无法提供的各种性能保证，从而通过学习来近似其行为，将那些不可判读的机器学习模型转换为可判读的专家系统。

在一些实施方式中，刺激集可以包括命题集，或其他内容以寻求响应，并且部分或全部刺激可以寻求定性或定量反馈。在一些示例中，反馈可以是显式的或隐式的。例如，用户在提供给定反馈类型时的停留时间可以被跟踪，或者停留时间可以被跟踪作为反馈的测量。例如，可以向用户呈现一系列图像，并且可以将用户在给定图像上的停留时间记录(并评分)作为隐式反馈的测量，单独地，用户提供的分数(例如，正/负或在尺度上的分数或排名)可以记录为定量反馈(例如，显式的)，并且可以提示用户进行定性反馈。例如，用户会被提示问题，比如“这个项目比那个项目好吗”，或者“这个命题是对的还是错的”，或者“是否有可以改进的地方”等等。在一些情况下，刺激集是由先前编写的人类可读的内容(例如，自然语言文本、口语自然语言文本的音频、图像、视频等)定义，或者刺激集可以例如利用生成刺激的功能在程序上定义。在一些情况下，刺激集可以包括5个以上、10个以上、20个以上、50个以上、500个以上、5000个以上、50000个以上或500万个以上不同或有区别的刺激。在一些情况下，刺激可以由专家在之前的训练例程迭代中提供。在一些情况下，这些专家提供的刺激可以经过处理，例如，将具有潜在语义分析的语义相似的刺激分组，或将它们分组为具有潜在狄利克雷分配或嵌入式主题建模的主题，或者在一些情况下结合上述或类似的技术。在一些情况下，刺激可以被分组为各种形式的度量学习和聚类(例如，DB-SCAN、k-means等)。可以将组中选定的代表性成员(例如，最接近聚类质心的成员)添加到刺激集中。

一些实施方式可以在训练期间获得反馈事件集，其中每个反馈事件对应于刺激中的相应刺激和组中的相应成员。在一些情况下，反馈事件可以是专家组成员对刺激的响应。这可以包括将相应的刺激呈现给该组的相应成员，并从该成员接收关于相应刺激的反馈，例如定量或定性反馈。例如，该成员可以向相应的刺激提供组中相应成员的分数和相应的自然语言文本响应(或其他形式的响应，如音频，或选择单选按钮或复选框或滑块UI的调整)。一些实施方式可以包括对组中其他成员对相应刺激的自然语言(或其他形式)响应的子集进行采样。一些实施方式可以将采样呈现给组的相应成员，以征求成员对响应于其他用户的刺激而提供的反馈的反馈。一些实施方式可以接收采样的组的相应成员的排名，该排名基于组的相应成员与以上的响应的采样子集或组的其他成员对相应刺激的对齐。在一些情况下，专家可以指示来自组中其他成员的采样响应的排序，表明组中相应成员与其他人的响应的对齐程度。在一些情况下，子集可以包括2个、5个、15个、50个或更多个响应。在一些情况下，刺激可以是定量或定性问题。在一些实施方式中，响应可以既包括对问题的回答，也包括给出答案的原因，其中的一者或两者都可以是结构化值或自然语言响应。

训练子系统114的一些实施方式可以训练采样模型，该采样模型可以被训练为在探索和优化之间取得平衡。例如，采样模型可以确定输入文本在语义空间内的映射，并基于输入文本在语义空间内的映射来选择文本的子集。可以基于语义空间内不同文本之间的距离和不同文本相对于其他文本的排名(例如，用户反馈排名)来执行选择。因此，在一些示例中，采样模型可以接收其他模型(如NLP模型)的输出以及与这些输出相关的其他数据。例如，文本可以由NLP模型处理以确定其在语义空间内的映射，如文本的向量表示，在一些示例中，文本还可以包括一个或多个标签，如主题，并且该文本可以与相对于一个或多个其他文本的排名相关联(例如，其可以具有相同或不同的标签，但其被呈现给用户用于与相同的刺激关联进行排名)。训练数据可以包括评估的先前迭代，其中语义空间随着时间的推移而被探索，例如在多个评估事件的过程中，如5、7或15(或更多个，尽管实施方式倾向于减少迭代次数以减少人类评估者背景下的参与者疲劳，并且在示例用例中，由于最小化迭代次数，这些改进可以减少训练时间)，对应于评估。基于先前评估的训练可以最大化与覆盖阈值量的语义空间(例如，对于刺激或主题)的文本(例如，像那些新添加的和尚未排名的文本)的选择相对应的目标函数，同时将时间最小化到刺激或标签的文本排名的阈值对齐程度，如收敛。

例如，在一些实施方式中，采样模型可以处理输入以选择从具有发散分量和收敛分量的先前事件中获得的文本集。在一些实施方式中，发散分量可以将采样偏向于刺激空间的探索，而收敛分量可以将采样偏向于在探索区域中训练的模型的优化。在一些实施方式中，这两个分量对采样的相对贡献可以在训练期间动态调整，例如，单调地远离探索并朝着优化方向(例如，随着时间的推移)，或响应于反馈(例如，基于输入文本和相关的排名)。在一些实施方式中，可以基于问题的各种方法进行调整。示例包括基于值差的自适应ε贪心策略(VDBE)、基于贝叶斯集合的自适应ε贪心策略(ε-BMC)和上下文ε贪心策略。一些实施方式会对上下文强盗问题应用各种近似解，如UCBogram算法、NeuralBandit算法、KernelUCB算法或bandit Forest算法。

训练子系统114的一些实施方式可以训练编码器模型(例如，神经网络，在一些示例中可以是专注力神经网络，如深度学习神经网络或递归神经网络，包括或集成注意力模型)以将高维数据(如具有10000、100000或1000000或更多维的向量)降为具有显著更少维(如500或更少维)的潜在空间嵌入向量。一些实施方式可以包括在一个或多个模型的训练会话期间重复上述刺激呈现、提问和回答过程以及响应排名，或以其他方式呈现刺激并接收响应于刺激的事件。在一些实施方式中，在通过训练会话参与事件集的同时，一些实施方式可以针对对所获得的事件的刺激的每个响应确定嵌入空间中的相应向量，该相应向量由距离度量学习确定，例如，使用将相对高维输入(如自然语言文本)映射到较低维(例如，5维至500维)连续向量空间表示的编码器模型。例如，在一些实施方式中，潜在空间嵌入向量可以包括简化为三维空间映射的定位信息(例如，像坐标集，这并不意味着其他维度不能包括其他数据，如相应的一个或多个分数或一个或多个排名(例如，针对刺激或主题，或在所有刺激中)、由向量表示的内容等)。

在一些实施方式中，训练子系统114在高维数据上训练编码器模型，如上述与自然语言文本相对应的向量，以及与这些文本相对应的主题。编码器模型的训练可以包括策略，该策略强制保持潜在嵌入空间内的高维数据的相对距离，或潜在嵌入空间的子空间。例如，不同的主题(例如，高维数据输入向量可以通过NLP模型进行分类)可以对应于潜在嵌入空间内的不同子空间，通过该子空间可以初始化三维可视化以显示在子空间内(例如，至少)保持相对距离的输出潜在空间嵌入向量的位置。在一些示例中，可以保留子空间之间的相对距离，在一些示例中可以将其归一化以衰减子空间内嵌入的相对距离(例如，用于可视化)。

一些实施方式可以确定向量的相应对之间的嵌入空间中的成对距离。可以用各种距离度量来计算距离，包括闵可夫斯基距离、欧氏距离、余弦距离、曼哈顿距离等。一些实施方式可以为所获得事件的刺激的每个响应基于成对距离的子集来确定相应的聚合距离，包括相应响应的相应向量。一些实施方式可以根据基于排名的邻接矩阵的转移概率矩阵的特征值来确定相关分数。在一些实施方式中，其他模型可以对潜在空间嵌入向量进行操作，并且潜在空间可以对应于由不同向量覆盖的语义空间。例如，采样模型可以将自然语言文本的潜在空间嵌入向量作为输入，以在潜在嵌入空间内的降维数据上进行训练。一些实施方式可以进一步基于响应的相关分数(例如，基于排名)和响应的采样次数以及嵌入空间中的响应向量的聚合距离来调整对齐模型的采样和随后的训练迭代。

在一些实施方式中，训练子系统114可以将一个或多个得到的训练模型存储在存储器中，以在稍后的时间(例如，超过一天后)应用于运行时问题，例如，在不同的计算设备集上。在一些实施方式中，经过训练的模型可以对输入做出响应，并且计算设备可以应用经过训练的模型来产生输出，在一些情况下，还可以对输入产生输出的原因进行合理的解释。结果可以呈现在用户计算设备上并存储在存储器中。本技术可以应用于各种类型的模型，例如在训练期间具有不可微优化的模型。示例包括强化学习中的直接策略学习和行为克隆，并且一些实施方式可以将本技术应用于其他无模型强化学习模型的学习(例如，策略或激励函数)。在一些情况下，当训练涉及不可微优化时，很难或不能使用其他类型机器学习(如梯度下降)中使用的各种形式的训练。

评估子系统116评估或呈现从一个或多个来源获得的数据，例如来自对齐数据库130、用户设备104或专家系统102的其他子系统。可以对馈送到训练子系统114或从训练子系统114获得的数据以及基于该数据从用户收集的反馈执行评估。评估子系统116可以在评估期间或之后处理所获得的数据。评估子系统116可以从用户设备104获取输入，例如通过将用于评估的数据发送到用户设备(例如，可以通过由用户设备执行的评估应用(未显示)或生成包括可由用户设备(例如，通过web浏览器)访问的用于评估的数据的界面(例如，类似于基于web界面、类似于web页面或通过web应用)，并获得关于正在评估的数据的反馈(例如来自用户或用户设备)。

例如，评估子系统116可以获得关于通过用户设备显示或以其他方式传送给用户的用于评估的数据(例如，特征或其他刺激)的反馈(例如，响应)。反馈的示例可以包括隐式反馈，例如用户停留时间或指示用户参与的其他度量，或显式用户反馈，例如与特征或刺激相关的分数、评级、排名或自然语言文本响应。例如，用户可以通过用户界面元素提供或选择分数或评级(例如，定量反馈)来评估特征。可以通过用户界面元素(例如滑块)选择分数或评级，滑块可以指示用于定位滑块的可能分数或评级的范围，或者用户可以以其他方式选择或输入范围内的分数或评级(例如1至10星、1至5星、正/中/负，或二元正/负)。

在另一个示例中，用户可以通过经由用户界面元素(如文本框)提供特征的响应(例如，定性反馈)来评估特征，如自然语言文本响应(其应被读取为包括可被处理为获得自然语言文本的图像、音频或多媒体响应)评估。在一些示例中，可以与用于包括定性反馈的响应的用户界面元素(例如文本框)相关联地显示提示，并且可以响应于用户提供的分数或评级来确定提示(例如，在用响应替换分数或评级之前，对于该特征，例如用户分配给该特征的分数或评级的原因)。

在一些示例中，评估子系统116可以通过用户界面提供响应集(例如，其他用户对刺激的自然语言文本响应)以用于显示，并提示用户对项目进行排名，例如基于用户同意的程度或以其他方式理解集合中的响应。例如，用户界面可以提供可选择的排名或拖动，以相对于不同的响应重新排序或拖放或其他交互式用户界面元素，并且用户可以通过该排名或拖动来交互以指示该集合中的响应中的排名。响应的排名可由评估子系统116获得，并作为用户反馈数据136存储在对齐数据库130内。

在一些实施方式中，可视化子系统118可以获得由专家系统102的其他子系统处理的数据，并生成与该数据相对应的可视化。例如，可视化子系统118可基于潜在空间编码生成语义空间的可视化，或指示对齐分数的可视化，或存储在对齐数据库130内的其他数据。可视化子系统118可以根据基于通过网络150从用户设备104A接收的输入而应用于潜在嵌入空间的特征或数据或分数或排名(例如，通过一个或多个过滤器)或距离衰减(例如，线性或对数)的选择来重新确定可视化。

环境100的一些示例可以包括对齐数据库130，如图所示，其可以存储关于经过训练的模型或正在训练的模型的数据、用户反馈、训练数据和对齐数据。例如，对齐数据库130可以包括关于一个或多个模型132的数据(例如，其一次或多次迭代，如通过训练调整的架构、超参数和模型参数)和用于模型的刺激或其他数据。在一些实施方式中，模型数据132可以包括本文所述的各种模型的参数值(例如，权重值、偏差值等)。在一些示例中，例如在多个并行评估的情况下，其中每个评估可以对应于响应模型的迭代训练过程，模型数据132可以包括与评估相对应的记录(或其数量)，其可以包含用于评估的其他数据中的模型的评估特定参数，例如刺激。

对齐数据库130的实施方式可以包括对齐数据138，例如指示用于评估的对齐状态的预测或结果。因此，对齐数据138可以包括基于由专家系统102执行的一个或多个模型132对存储在对齐数据库130中的反馈数据136和训练数据134的处理的结果或确定。在一些示例中，对齐数据138可以包括对参与评估的用户的对齐的一个或多个预测。对齐数据138还可以包括关于预测所基于的数据的确定，例如响应与其他对齐测量之间的距离，通过这些确定可以生成评估的可视化。

对齐数据库130的实施方式可以包括训练数据134，类似于训练数据记录，通过训练数据134可以训练存储在对齐数据库中的一个或多个模型。训练数据134可以包括用于不同模型的不同训练记录集。例如，NLP模型的训练记录集可以包括自然语言文本及其分类。在一些示例中，反馈数据136，例如经过一个或多个模型的处理后，可以用来增强训练数据134。

对齐数据库130的实施方式可以包括反馈数据136。反馈数据的示例可以包括用户反馈数据，其可以存储在指示为哪个数据提供反馈的记录中。例如，反馈数据记录可以指示评估、用户、一个或多个特征(例如，刺激)以及为特征获得的响应的反馈数据。例如，用于刺激的反馈数据可以包括分数或评级和自然语言文本响应(并且在一些情况下，关于请求响应的提示的信息)，或本文所述的其他用户反馈。用于刺激的反馈数据的另一示例可以包括其他用户为该刺激提供的响应的排名。与刺激的反馈事件相对应的时间戳可以存储在记录中。关于评估，期望用户在向用户呈现多个相应刺激时提供与多个相应刺激相关的评级和响应(或其更新，其可以是新事件)(并且在一些示例中，用户可以重新访问这些刺激以更新评级或提供新响应)，并且不同的刺激可以在一段时间内呈现(例如，评估的多个会话)。此外，可以向用户呈现由其他用户提供的对刺激的响应集，例如在用户对刺激进行评级并提供他们的响应之后(或者如果用户重新访问刺激)，并且用户可以在该组响应内提供响应的排名。与这些反馈事件相关联的时间戳，在许多情况下是基于收集的数据或模型输出的当前状态，而不是数据或模型输出的最终状态，可以将反馈数据结构化为反馈事件的时间序列，通过该时间序列可以重播放评估，例如用于训练或测试更新模型的改进或以其他方式验证结果。

图2是专家系统的示例性机器学习和训练环境200，根据一些示例性实施方式，可以在其上执行本技术。在一些实施方式中，服务器可以获得与评估相对应的主题228的主题和特征。服务器可以选择一个或多个特征来评估会话数据210。例如，服务器可以选择一个或多个尚未由正在为其执行会话的用户评估的特征。用于评估的特征可以包括刺激和与该刺激相关的一个或多个评估问题。例如，服务器可以向用户呈现与投资公司或产品、雇用或提升个人或员工、出售公司或确定员工福利有关的评估问题集。

在一些实施方式中，刺激216可以通过图形用户界面呈现给用户224。该刺激可以与概念或主题的特征(例如，如要在上下文中考虑的方面)相关，并且该评估问题集可以特定于用于考虑的那个方面或特征。每个评估问题是不同的，但每个评估问题都与刺激有关。例如，刺激可以是知识产权、财务、营销、投资、管理、商业模式或与更广泛的公司评估主题相关的竞争。刺激(例如与投资相关的)可以以问题的形式呈现，例如“我们应该投资公司X吗？”。虽然刺激可以是一般性问题，但评估问题可以是与回答一般刺激问题的细节有关的问题集。例如，为了回答刺激问题“我们应该投资公司X吗？”，评估问题集可以是“你认为投资公司X会增加收入吗？”、“公司X的商业目标与我们的一致吗？”、“如果选择与公司X合作，我们应该投资多少？”。刺激可以为评估问题提供上下文参考，以评估人群的用户如何看待评估问题框架下的主题特征。

在一些示例中，刺激可以附加静态的评估问题集，这些问题一致地呈现给用户以评估刺激。在一些实施方式中，与刺激相关联的一个或多个评估问题可以作为时间的函数而变化，或作为用户最初如何对刺激进行评分或评级或对评估问题作出响应或不作出响应的函数而变化。在一些示例中，可以基于用户在一个或多个先前评估会话中提供的反馈来为刺激选择评估问题集。例如，可以基于用户是否表现出普遍悲观或乐观的评分行为来选择不同的评估问题。在一些示例中，服务器可以随机选择与刺激相关联的评估问题的子集。评估问题的随机选择可以一次选择一个评估问题，也可以一次选择全部评估问题。评估问题的随机选择可以通过在与刺激相关的所有评估问题的总集中随机选择预先确定的子集来进行。评估问题可以是单一刺激所独有的，也可以是与多个刺激相关联的评估问题的多个子集的成员。在一些示例中，服务器可以选择具有可变数量问题的刺激，在一些示例中，这可以基于用户反馈中表现的用户行为，例如在阈值数的评估问题之后跳过或省略提供一个或多个反馈分量的倾向。在一些示例中，服务器可以基于用户指示的偏好从5个、10个、25个或100个(或其他数量)可用问题中选择刺激和一个或多个评估问题。服务器可以单独选择评估问题以形成其元素等于所请求的变量数量的集合，或者服务器可以选择评估问题的子集以形成评估问题的新子集，其唯一元素的数量等于变量数量。与刺激相关联的评估问题可以彼此独立，或者呈现给用户的评估问题可以依赖于用户对先前评估问题提供的响应。

会话数据210还可以包括通过评估的用户进度状态的指示(例如，用户参与的会话数)和评估的进度状态(例如，如对齐测量230所指示的)或基于所有用户的会话参与。在一些示例中，会话数据210可包括有关用户提供的反馈质量的信息(例如，由其他用户排名)，例如影响等级，或用户与其他用户的对齐。在示例中，上述数据可作为采样模型212的输入接收，以基于其他因素对样本项214进行偏差选择。例如，基于上述因素中的一个或多个进行分类的一些类型的用户或表现出一些特征的用户可以被认为更可能(或不大可能)在待排序的样本项目集中区分一种样本项与另一种样本项。因此，例如，除了选择探测语义空间的样本项之外，样本项的选择还可以基于其他因素而产生偏差。

在评估之前，在一些实施方式中，如NLP训练数据202记录的自然语言文本(以及在一些示例中对其进行分类)可以被处理以训练NLP模型204(如神经网络，其可以是深度学习神经网络或另一机器学习模型，并且在一些情况下可以包括聚类模型)以推断主题并关联(例如，通过距离测量)自然语言文本。经过训练的NLP模型204可以接收一个或多个自然语言文本作为输入。在一些示例中，NLP模型204可以识别与输入自然语言文本对应的主题，例如基于输入文本与主题之间的距离的测量。每个主题可以对应于自然语言文本可以映射到的语义空间内的区域(例如，如子空间)。NLP模型204可以接收与评估相关联的多个自然语言文本作为输入，每个自然语言文本都可以映射到给定的主题。主题的集合可以对应于在评估期间(例如，由至少一个接收到的输入文本)覆盖的语义空间的区域。文本到主题的距离以及语义空间206内的主题之间的距离可以随着评估的进行而记录。因此，例如，可以评估语义空间206内的距离以确定哪些主题被很好地表示或未被充分表示，例如通过映射到主题的文本的数量，以及映射到给定主题的哪些文本是相似的(例如，诸如基于这些文本之间的距离)。

在一些实施方式中，NLP模型204可以处理非结构化响应，并创建与非结构化响应相对应的高维向量，例如，通过Word2Vec或BERT。NLP模型204可以基于高维向量来推断出与该向量相对应的主题(例如，确定输入文本的分类)。在NLP模型创建与非结构化响应相对应的向量之后，在一些实施方式中，可以通过编码器模型208来降低向量的维度。例如，编码器模型208可以将高维向量作为输入，并在潜在嵌入空间内返回具有降维的向量。在一些示例中，语义空间206内的距离可以基于潜在嵌入空间内的降维向量来确定(例如，其表示具有数量级的更少维度的语义空间)。在任何一种情况下，实施方式都可以确定表示语义空间206内的自然语言文本的向量之间的距离，其中语义空间可以是多维的(例如，2、5、10、100或更多维)。在一些示例中，语义空间内的向量的映射或嵌入可以简化为三维空间(这并不意味着向量可以不包括其他维度，例如相关的分数或排名或其他数据，只是表明向量包括可以在三维空间中映射嵌入的信息)。由编码器模型208针对输入文本生成的三维空间内的嵌入信息可以被处理以生成语义空间及其内向量的可视化，例如用于通过用户设备226上的用户界面呈现。可以在评估过程中更新语义空间内的向量嵌入，并且可视化可以描述在语义空间内探索的点或区域的时间点视图。其他数据，如与那些向量对应的附加维度，如分数或排名，或哪个用户提供了由向量表示的响应，以及响应的内容，也可以被呈现，例如通过基于分数或排名的三维空间内的对应嵌入的不同大小或颜色，显示响应文本(例如，对于排名高或分数高的响应，或对于其聚类，或通过选择给定的嵌入)以及其他数据。

如上所述，会话数据210(例如用于评估)可以包括主题的指示，例如正在评估的产品或决策，以及相关的主题或产品数据，例如一个或多个特征，作为用户在给定评估会话期间进行评估的刺激。会话数据210可以包括从评估的先前会话接收到的数据，例如从其他用户接收到的数据，或者基于在先前评估会话期间从用户接收到的数据。会话数据210可以包括在给定的评估会话期间提供给用户的一个或多个刺激(例如，特征)和评估问题。在评估过程中，用户可以参加多个评估会话，其中，在每个评估会话中，用户可以响应或其他评估至少一些新的会话数据210，例如通过提供反馈，如在反馈事件中。可以将会话数据210提供给采样模型212，并且采样模型212可以获得关于用户和其他用户的先前会话的数据，例如用户反馈数据，例如排名，以及关于被排名的内容的信息，例如它们在语义空间内的距离和该数据的其他分类。

在一些实施方式中，采样模型212可以评估对评估问题的响应，例如基于它们在语义空间内的距离和用户所指示的相关排名来选择样本项214作为提供给采样模型212的响应的子集。因此，样本项214可以是先前提交的与评估问题相关的其他用户的非结构化响应。可以通过用户设备224将样本项214和刺激216呈现给用户。用户可以向刺激216提供反馈，其中反馈218可以是分数或评级，如在尺度上，或二元响应(例如，“是”或“否”，1或0，真或假)，或对提示对该特征进行反馈的评估问题的特征的非结构化响应。然后，用户可以向样本项214提供反馈，其中反馈218可以是评估问题样本集中的非结构化响应中的排名。

在一些实施方式中，服务器可以通过图形用户界面向参与评估会话的用户224呈现基于用户的会话数据210与刺激216相关联的评估问题。所获得的反馈218可以包括分数或非结构化数据。分数可以对应于明确的用户反馈，例如用户提供的评级。分数可以是二进制的(例如，好/坏)或<其他，例如，1-10，A-F等的等级>。在一些情况下，分数可以对应于明确的用户反馈，例如用户是否执行了特定的动作，例如购买产品或继续进行第一个选择的选项，或者与用户同意所提出的推理的程度相关联的数值(例如，1表示完全不同意，3表示没有意见，或5表示完全同意)。非结构化数据可以包括通过图形用户界面输入的响应。在一些情况下，隐式用户反馈(如在页面的选项或区域上停留的时间)可以作为用户反馈218获得并评分。因此，获得的用户反馈数据的示例可以包括分数和非结构化数据。示例用户界面可以提示分数的输入并提供(例如，通过对话框)非结构化自然语言文本的输入。因此，例如，用户可以在对话框中输入关于用户为什么将其给定的分数以散文形式分配给该特征的原因或响应(尽管不要求用户输入内在地相关)。

在一些实施方式中，服务器可以使用API来获取关于样本项214或刺激216的用户反馈或收集用户反馈218。例如，服务器可以实时地获得关于会议中的特征的讨论而传送的自然语言文本(其可以基于音频或文本输入)响应，例如通过基于网络的界面或视频会议应用的视频会议。服务器可以处理所获得的自然语言文本并例如向用户界面元素(如评估窗格)输出要排名的其他用户的特征和响应(例如，为用户生成的响应的采样)的指示。在收到来自用户的响应的排名的提交后，随后的响应集可以返回给用户，例如在阈值数的其他用户分别对其响应采样进行排名之后。采样和排名可以重复，就像在本文讨论的其他示例性评估的情况下一样，并且处理以训练模型，通过该模型可以分析会议参与者的对齐，并根据本文公开的技术评估会议所涵盖的语义空间。

所获得的用户反馈218可以被提供回采样模型212，并带有被提供的刺激或样本项的指示。如果用户反馈218是非结构化响应，则采样模型212可以向NLP模型204提供非结构化响应。然后NLP模型204可以将非结构化响应转换为向量，例如通过Word2Vec或BERT。NLP模型204或编码器模型208可以确定与非结构化响应对应的向量206与语义空间内其他向量之间的语义距离。转换后的向量和距离可以提供给采样模型212，采样模型212可以更新，例如，用于为另一个用户选择样本项目集的自然语言文本响应的优先级(例如，基于距离，例如响应是否对应于语义空间的探索区域或未探索区域，以及其他目标)。

在一些实施方式中，采样模型212可以确定要呈现给用户224的样本项214。采样项214可以是非结构化的响应，其在语义空间中的相应向量满足语义空间内的相对于彼此的阈值距离。例如，在语义空间中选择彼此相距甚远的向量可以向用户224呈现在上下文或主题中彼此不同非结构化响应，如由NLP模型206确定的，并且其用户排名可以指示(例如，具有更大的区别)用户在上下文中与哪些响应最接近地对齐。在一些情况下，在语义空间中选择彼此接近的向量可以向用户224呈现在上下文或主题中彼此相似的非结构化响应，并且其用户排名可以指示(例如，具有更大的区别)用户认为哪些响应最能代表语义空间的区域。

在一些实施方式中，用户224可以以非结构化响应的形式提供用户反馈218。该非结构化响应可通过采样模型212提供给NLP模型204，并确定语义空间中对应于该非结构化响应的第一向量，并确定其与语义空间206内的其他向量的距离。当采样模型212接收到第一向量及其相对于语义空间中其他向量的距离时，如果确定该非结构化响应与先前排名较低的非结构化响应相似，则该采样模型212可以选择不将该非结构化响应包括作为可能的样本项214。采样模型212可以确定第一向量与对应于低排名非结构化响应的第二向量之间的语义距离足够接近，从而预测第一向量将获得低排名。

用户反馈218，例如语义空间内向量的排名，以及向量和距离，可以提供给对齐模型220。对齐模型可以相对于由向量表示的响应并基于向量之间的距离来确定用户和其他用户的排名218上的对齐230的一个或多个测量。

对齐模型220可以输出一个或多个指示用户在评估过程中(例如，到目前为止)对所获得的响应的对齐230的测量。指示对齐的示例测量可以包括排名的分布，该分布指示提供反馈的所有用户关于从会话数据中提供给采样模型的刺激或主题彼此对齐的程度。系统可以为下一个或更新的会话数据初始化新的会话，并且采样模型212可以在相应的下一个评估会话222中连续地向用户224(以及具有样本项的其他用户)提供样本项214，直到对齐模型220输出的结果指示用于评估的至少阈值最小化状态。当对齐230的测量中的一个或多个随着包含新用户反馈或排名218而表现出小于变化的阈值量时，可发生最小化，这可对应于用于初始化用于用户的下一个会话222的停止条件。在一些示例中，每个用户可以评估每个刺激，但在一些情况下，用户(或用户的子集)可以仅评估可用刺激的子集。直到对齐230的测量最小化，系统可以继续提供会话数据210的下一个会话222以进行评估。在一些实施方式中，可以在每个用户排名事件之后或在评估会话结束时向用户226(其可以是与用户224相同或不同的用户)提供对齐230的当前测量。在另一个实施方式中，在对齐模型230达到对齐230的测量的最小化之后，可以向用户226提供对齐230的测量。对齐模型220可以用于所有用户反馈或排名或用于用户反馈或排名的子集来确定对齐230的测量。可以为用户设备226提供用于所有用户排名的对齐230的测量，用于用户排名的子集的对齐230的测量，或两者兼有。

作为关于图3A所描述的示例，机器学习模型302可以获取一个或多个输入并生成一个或多个输出。机器学习模型302的示例可以包括本文所述的神经网络或其他机器学习模型，可以基于该模型的输入和参数值获取输入304(例如，如上所述的输入数据)并提供输出306(例如，如上所述的输出数据)。例如，可以向模型302馈送输入或输入集304，用于基于用户反馈数据或由其他模型确定的输出进行处理，并提供输出或输出集306。在一些情况下，可以将输出306作为输入反馈给机器学习模型302以训练机器学习模型302(例如，单独地或与输出306的性能的指示、与输入相关联的阈值或与其他反馈信息相结合)。在另一个用例中，机器学习模型302可以基于其针对反馈信息(例如，分数、排名、文本响应或其他反馈信息)或其他模型的输出(例如，分数、排名、距离、主题等)对预测或指令(例如，输出306)的评估来更新其配置(例如，权重、偏差或其他参数)。在另一个用例中，例如机器学习模型302是神经网络的情况下，可以调整连接权重以调和神经网络的预测或指令与反馈之间的差异。在进一步的用例中，神经网络的一个或多个神经元(或节点)可以要求通过神经网络将它们各自的错误向后发送给它们，以促进更新过程(例如，误差的后向传播)。例如，对连接权重的更新可以反映在完成前向传递后后向传播的误差的大小。例如，通过这种方式，可以训练机器学习模型302以生成更好的预测或指令。

在一些实施方式中，机器学习模型302可以包括人工神经网络。在这样的实施方式中，机器学习模型302可以包括输入层和一个或多个隐藏层。机器学习模型的每个神经单元可以与机器学习模型302的一个或多个其他神经单元连接。这种连接对连接的神经单元的激活状态的影响可以是强制的，也可以是抑制的。每个单独的神经单元可以有求和函数，该求和函数将其一个或多个输入的值组合在一起。每个连接(或神经单元本身)可以有阈值函数，信号在传播到其他神经单元之前必须超过该阈值函数。与不使用机器学习的计算机程序相比，机器学习模型302可以是自学习或训练的，而不是显式编程的，并且在解决问题的一些领域可以表现得明显更好。在训练期间，机器学习模型302的输出层可以对应于分类，并且已知对应于该分类的输入可以在训练期间输入到机器学习模型的输入层中。在测试期间，可以将没有已知分类的输入输入到输入层中，并可以输出确定的分类。在一些示例中，分类可以是是否预测样本的选择来优化目标函数的指示，该目标函数在语义空间的探索和探索区域中的收敛的优化之间取得平衡。在一些示例中，分类可以是对自然语言文本中检测到的主题的指示，例如基于指示自然语言文本的向量。在一些示例中，分类可以是基于向量表示的自然语言文本的排名的语义空间内的向量嵌入之间的对齐(例如收敛)的指示。在一些示例中，分类可以是在嵌入空间内高维输入和降维输出之间相对保留距离的指示。一些示例性机器学习模型可以包括一个或多个嵌入层，在这些嵌入层上，信息或数据(例如，本文结合示例模型讨论的任何数据或信息)被转换为一个或多个向量表示。消息的一个或多个向量表示可以在一个或多个后续层进行池化，以将一个或多个向量表示转换为单一向量表示。

在一些实施方式中，机器学习模型302可以被构造为因式分解机器模型(factorization machine model)。机器学习模型302可以是可以执行分类或回归的非线性模型或监督学习模型。例如，机器学习模型302可以是系统用于分类和回归任务的通用监督学习算法。可选地，机器学习模型302可以包括贝叶斯模型，该贝叶斯模型被配置为对先前处理过的数据(或输入集中的其他输入)的输入执行变分推断(例如，偏差或收敛)。机器学习模型302可以执行为决策树或集成模型(例如，使用随机森林、自助聚合(bagging)、自适应增强器、梯度增强器、XGBoost等)。在一些实施方式中，机器学习模型302可以包含一个或多个线性模型，通过这些模型对一个或多个特征进行预处理或对输出进行后处理，并且模型的训练可以包括由这些模型进行预处理或不进行预处理或后处理的训练。

在一些实施方式中，机器学习模型302通过一个或多个神经网络执行深度学习，其中一个或多个神经网络可以是递归神经网络。例如，一些实施方式可以在将高维数据(例如，具有一百万个或更多个维度)提供给强化学习模型之前对其进行降维，例如通过形成本文的各种实施方式中所述的基于高维数据形成潜在空间嵌入向量(例如，具有500个或更少个维度)来降低处理复杂性；并且在一些情况下可以将指示不同输入之间距离的高维数据的子集降低到支持在三维可视化空间内的表示输出的程度。在一些实施方式中，可以通过编码器模型(可以执行神经网络)来减少高维数据，该编码器模型处理由NLP模型输出的向量或其他数据。例如，机器学习模型302的训练可以包括生成多个潜在空间嵌入，作为可以被分类的模型的输出306或与该模型的输出306相结合(例如，在一个或多个评估会话期间进行排名)。本文所讨论的模型中的不同模型可以基于未探索或未发现的空间嵌入和已知的潜在空间嵌入，并基于这些嵌入之间的距离来确定或执行动作(例如，采样)，或者确定指示正在评估由嵌入表示的内容的用户对齐的分数(例如，基于为嵌入提供的用户排名和嵌入之间的距离)。

机器学习模型的示例可以包括多个模型。例如，聚类模型可以对训练(或输出)数据中表示的潜在空间嵌入进行聚类。在一些情况下，对聚类内的一个(或多个)潜在空间嵌入的排名或其他分类可以指示关于聚类内的其他潜在空间嵌入或分配给聚类的其他潜在空间嵌入的信息。例如，聚类模型(例如，K-means、DBSCAN(基于密度的带噪声应用的空间聚类)、或用于聚类的各种其他无监督机器学习模型)可以将潜在空间嵌入作为输入，并确定其是否属于(例如，基于阈值距离)先前已训练过的其他空间嵌入的一个或多个其他聚类。在一些示例中，可以确定嵌入的聚类的代表性嵌入，例如通过聚类的一个或多个采样来获得可以选择代表性嵌入的排名，并且可以对该代表性嵌入进行采样(例如，更频繁地)以对不在聚类中的其他嵌入或其他聚类的代表嵌入进行排名。

图3B是根据一些实施方式的机器学习模型的示例组成部分。图3B示出了根据一些示例性实施方式接收输入并产生输出神经网络的示例神经元。如所示出的，示例神经元可以基于输入到神经元的特征X1、X2和相关权重w2、w2和偏差b来生成输出Y。图示是单一神经元的示例，然而，神经网络可以包括多个具有相应权重和偏差的神经元，并且其分别接收输入特征集的一个或多个特征，如输入向量。在一些情况下，一个神经元的输入可以是一个或多个其他神经元的输出，或作为输入反馈到其自身的神经元的输出。

每个神经元可以利用输入和偏差的函数F来确定其输出Y。在一些例子中，函数F可以将输入作为特征X1、X2和权重w1、w2的乘积。特征X1、X2和权重w1、w2的乘积可以连同偏差b一起求和，然后再提供给神经元的函数F。特征X1、X2与权重w1、w2的乘积可以是标量乘积、向量乘积、矩阵乘积或这三种乘积的任意组合。权重w1、w2可以通过利用神经元(或任意数量的神经元)的机器学习算法来确定，其中权重可以基于单一神经元或多个神经元的激活来确定。

可以将多个神经元组合以创建神经网络机器学习算法中的层。神经网络的实施方式可以有一层、五层、十层、一百层或更多层，或其他数量的层。每一层中的神经元数量在所有层中可以是相同的，或者每一层的层数可以不同。神经网络中的每一层可以具有不同偏差项b和权重w1、w2的神经元，或者一层中一个或多个或所有神经元的偏差或权重可以是相同的。神经网络的训练可以通过后向传播技术、或梯度下降、或其他优化算法来确定每个神经元的权重值，以减少输出误差。权重w1、w2可以是标量、维数D的向量或维数M×N的张量，其中，D、M和N是整数值。

神经元可以使用函数F，其形式是sigmoid函数、Softmax函数或线性函数。权重w1、w2可以从最小化过程(例如梯度下降过程)、或通过后向传播技术、通过使用层之间的跳跃、或这些技术的组合来确定。总的来说，神经网络中的神经元可以使用监督算法或无监督算法进行训练，并且在一些情况下可以端到端进行训练。

在一些实施方式中，Hopfield模型用于将深度学习与多元智能(人类或非人类，如机器学习模型)响应中的对齐测量联系起来。Hopfield模型是基于电磁学的Ising模型。在Hopfield模型中，将Ising模型的交换能量改为w_ij，以将自旋对齐映射到输入神经元对齐，例如：

Hopfield模型的w_ij项对应于神经元s_is_j之间的相互作用的强度，θ_i对应于神经元s_i的激活阈值。关于上述示例神经元，Hopfield模型可以由示例神经元s_i和s_j来表征，神经元s_i和s_j在关联时具有较低的自由能，从而形成了在神经网络内编码联想记忆的概念的基础。这种用于深度学习的构造可以应用于测量对刺激的响应中的对齐，从而在专家系统和知识发现的背景下创建宏观行为模式。为了说明这一点，假设在上述模型中产生响应和响应排名的两个实体由s_is_j表示。输出E可以被认为是沙子s_i与s_j之间相互作用强度的测量。当它们对齐时，相互作用的输出E是最小的。不对齐意味着系统中有多余的自由能。根据对齐的类别，不同的结果可以是明显的，例如，随着最近邻居相互作用的数量增加(例如，在语义空间内与距离相关的响应的排名)表明对齐，能量交换被最小化。学习对齐(例如，根据它们的响应来获得真正的智能对齐)会影响智能收集达到结果的速度和准确性。未解决的自由能线索(1ead)可以表明，在实施动作时发生系统之间不必要的仲裁，这会减慢系统网络有效行动的能力。

在一些实施方式中，与结果集相匹配的证据的概率表示为：

p(e)＝σ[-H(e)-μ]

其中H(e)是系统的能量的哈密顿量，在贝叶斯规则的表述中，对于假设G，

H_G(e)≡-ln(P(e|G))

其中σ是Softmax函数，μ是偏差项，给出为：

H_G(e)≡-ln(P(e|G))

本文描述的深度学习技术可以包括构建n层神经网络来学习H(e)，其中n可以随网络设计参数变化，并且在一些示例性实施方式中，n的范围可以从3层到10层，或者在一些情况下更多。Hopfield哈密顿量等于Hopfield模型能量E。对于深度学习，H(e)可以使用与H(e)相同的过程用于学习样本函数以进行相关学习。因此，可以创建一种学习机制，用于学习不同智能群体预测的响应对齐。函数p(e)可以根据深度学习来解释，其中寻求n层神经网络来计算H(e)。最小化Hopfield模型的自由能相当于最小化Ising模型的自由能，确定了响应对用户排名所指示的开放式响应的对齐(注意，根据示例性实施方式，给定用户可以相对于接收到的响应总数(由其他用户排名)单独对响应的一小部分进行排名(例如，通过采样响应的一个或多个排名)。

神经网络中的神经元可以使用训练数据集进行训练，然后使用验证数据集来确定权重w1、w2是否准确地预测了与验证数据集相关的输出。在一些示例中，验证集可以基于接收到的或检测到的输出反馈来选择的。因此，例如，网络可以在生成输出时进行迭代训练，并为结果收集反馈。如果权重为w1、w2的神经网络中的神经元不能准确预测与验证集相关的输出，则神经网络可以重新启动该过程，以确定权重w1、w2的新值，其中权重w1、w2可以在训练过程开始时随机确定，并使用后向传播技术进行修改，以确定权重w1、w2的新值。神经网络中神经元的输出Y可以是单一标量、单一向量或单一张量，或者神经元可以有多个输出Y，其中每个输出可以是标量、向量或张量。神经元的输出Y可以作为特征输入到位于神经网络更深层的第二个神经元中。

图4A是根据一些示例性实施方式的用于确定相关分数的示例性过程400A的流程图，对齐的测量可以基于相关分数。在一些示例性实施方式中，服务器(如专家系统102)或其他计算设备可以执行过程400A以基于针对刺激获得的用户反馈来更新相关分数(或获取可通过其更新相关分数的数据)。

在一些实施方式中，服务器确定将呈现给用户的刺激402。例如，服务器可以从与决策、产品或其他主题的不同特征相对应的预定义刺激集中选择刺激以进行评估。在一些示例中，刺激402可以包括与刺激相关的一个或多个评估问题，用户可以对这些问题评分或以其他方式评分，并提供对所提供的分数或评级回应(例如，原因)。

在一些示例中，可以从刺激集中选择刺激，其中该刺激集可以从数据库中访问。用于评估的决策或主题的示例可以包括投资、营销、雇用或提升员工、寻求知识产权或扩展到其他市场。每个刺激都可以对应于从参与评估的用户征求反馈的特征。示例刺激集可以包括与决策或主题相关的不同查询生成器。例如，不同的刺激可以启动调查的一些组成部分，以了解用户如何响应通知决策或主题的不同方面。例如，对雇主主题的评估可以包括刺激集，包括(但不限于)以下问题：用户对增加员工福利的感受？，用户对业务增长的关注是什么？，用户认为谁是公司CEO的最佳人选？。评估可以在其他领域内进行，例如对产品(或潜在产品)的评估，其中刺激集可以包括产品的图像、产品的规格等，并且相关问题可以与特定刺激相关(例如，关于设计或颜色、或者规格是否满足或超过用户需求等)。

在一些实施方式中，服务器可以获得与刺激有关的反馈408。例如，服务器通过用户设备104访问的网页或用户设备104执行的应用从为其选择刺激的用户的用户设备104接收反馈。响应于刺激从用户获得的反馈可以包括但不限于自然语言文本(结构化或非结构化)和呈现给用户的刺激的分数中的一种或多种。分数可以是显式分数(例如，由用户分配)，或其可以基于一个或多个隐式度量(例如，用户在屏幕上花费了多长时间，用户突出显示了多少文本，或者用户跳过与刺激相关的呈现给用户的问题)。

例如，为了获得反馈408，在一些实施方式中，可以通过用户界面向用户呈现与刺激相对应的评估问题。服务器可以通过图形用户界面以开放式响应的形式向用户提供(例如，集体地(collectively)或按顺序地)问题集。用户可以回答所提供的评估问题的全部或子集。开放式响应可以伴随着基于评估问题的刺激的定量分数(例如，1到10)。在一些示例中，评估问题可以只取定量分数，而不以开放式响应为特征。评估问题可以呈现二元选项，以指示用户是否同意该评估问题。例如，评估问题可以是“你认为我们应该收购公司X吗？”。用户可以使用下拉菜单来回答问题，以表明他们同意(例如，通过选择基于选项的文本，如“真”或“是”，或从呈现的颜色列表中选择颜色，如绿色)或不同意(例如，通过选择基于选项的文本，如“假”或“否”，或从呈现的颜色列表中选择颜色，如红色)。用户可以针对刺激的多个问题(例如，5个、7个、10个或更多个)中的每一个问题提供反馈。用户不需要在单一会话中就每个问题提供反馈，而是可以在第一时间为第一个问题提供反馈，然后在稍后的某个时间为第二个问题提供反馈。

在一些实施方式中，服务器可以处理所获得的反馈410。在一些示例中，可以将自然语言文本转换为语义空间中的向量(例如，通过Word2Vec或BERT)。在一些示例中，可以基于用户提供的显式分数或与用户相关的隐式分数中的一个或多个来确定定量分数(其可以伴随提供的自然语言文本响应)。处理的结果，如自然语言文本、语义空间中的相应向量和分数(隐式或显式或组合式)可以与刺激的指示(其可以包括为刺激征求反馈的评估问题的指示)和提供反馈的用户相关联地存储在数据库中。

在一些实施方式中，例如通过过程400A的其他迭代将刺激呈现给其他用户，系统可以获得来自其他用户的反馈，该反馈是从先前用户提交的自然语言文本的形式。从先前用户提交的自然语言文本可以被处理410(例如，使用Word2Vec或BERT将自然语言文本转换成语义空间中的向量)以供用户评估并提供给样本函数(并且从用户获得的反馈可以被处理410，并且可以通过样本函数对其他用户进行采样)。

样本函数可以选择从其他用户获得的反馈中表示的N项作为样本呈现给用户412。可以根据本文所述的示例性实施方式，用采样函数(例如，参照图4B更详细地描述)来选择样本。

例如，在一些实施方式中，服务器通过图形用户界面呈现先前提交的非结构化数据响应的样本。服务器可以执行采样函数，以从针对特征获得的先前提交的用户反馈响应集中选择这些响应的子集，以便在与获得408用户反馈的刺激和问题相关联的界面中显示。例如，在接收到针对特征的阈值数的用户反馈响应之后，由用户提交的先前响应的子集由采样函数选择以呈现给当前用户。

通过用户界面呈现N个样本项目集，用户可以相对彼此对所选的N个样本进行排名。为响应的子集选择的样本的排名可以作为A/B测试来执行。例如，可以通过指示所选的N个样本之间的排序来执行排名。排名(例如，从最高到最低)可以与用户与所选的N个样本在刺激或问题和刺激方面的对齐程度相关。例如，所选的N个样本可以是自然语言文本，并且用户可以基于用户与其他用户提供的与刺激或刺激和问题相关的自然语言文本响应的同意程度来对每个项进行排名。

在一些实施方式中，用户可以指示编号方案来分配所选的N个样本中与用户对齐程度最高的项目(例如，如果大小N等于10，则用户可以将用户同意程度最低的的自然语言响应分配为1，将用户最不同意的自然语言响应分配为10，而将其他响应分配为2至9中的一个值)。用户可以通过用户设备上的图形用户界面拖放自然语言响应，以创建与用户对响应的同意程度相关的列。例如，列顶部的响应可以是用户最同意的响应，而列底部的响应可以是用户最不同意的响应。

在一些实施方式中，用户还可以将a分配给排名项中的一个或多个。例如，用户可以分配100分中的分数来表示用户对特定响应的同意程度，其中分数1表示最低的同意度，分数100表示最高的同意度。因此，例如，用户可以表示他们是否不同意排名较高的响应(例如，作为可用的最佳选择)，或者用户是否同意排名较低的响应(例如，因为用户与许多可用的选择对齐)。用户可以在所选的N个样本中为多个响应分配相同的分数，或者用户可以选择不为某个响应分配分数。

在用户对项进行排名之后，服务器可以接收并处理这些项的排名414。例如，服务器可以基于用户对样本项的排名来更新赢/输矩阵。例如，对于提供给用户并由用户排名的响应h₁-h₁₀的子集，服务器可以接收指示h₉、h₇、h₄、h₁、h₂、h₃、h₁₀、h₅、h₆的示例排序(例如，从第一到最后)的排名信息，该排序可以通过说明性示例被概念化为赢/输矩阵：

其中，对于响应的成对组合，h_i行值对应于赢，而h_i列值对应于输。对于(行，列)＝(h_i，h_i)，赢/输矩阵值可以默认为零(例如，因为响应不能对其自身赢或输)。

赢/输矩阵可以保留有序的排序。例如，作为排名最高的响应的h9可以包括关于设置为1的h的其他可能性中的每一个的行值。如图所示，对应于h₉的行具有设置为1的所有条目(除了如上所述的h₉)，以便指示其在所有其他条目之前的顺序。相反，因为h₆是排名最低的响应，所以h₆对应的行所有条目都为0，以指示所有其他响应的排名都高于h₆。

在一些实施方式中，赢/输矩阵维度对于多个用户是不同的。服务器可以使用采样函数来选择响应集来呈现给用户。该响应集在用户之间可以相同，也可以不同。局部赢/输矩阵的维度(即在单一排名事件中为单一用户生成的赢/输矩阵的维度)由提供给用户用于排名的响应的数量决定，并可随着时间的变化而变化。一旦用户完成了对由采样函数生成的呈现的响应的排名，则可以基于赢/输矩阵计算呈现的响应的相关分数。在一些示例中，可以为执行响应的相应排名的所有用户构建响应的全局排名，例如通过组合多个局部赢/输矩阵来确定全局赢/输矩阵。维数d的全局赢/输矩阵可以由多个基数表示，其中用于表示局部赢/输矩阵的基数在用户之间可以是不同的。对于由多个局部赢/输矩阵形成的全局赢/输矩阵，可以对局部赢/输矩阵进行基本变换，以确保全局赢/输矩阵准确地反映来自所有用户的排名。然后可以使用全局或局部赢/输矩阵来计算用户的对齐分数。因此，所获得的呈现给用户的响应的排名可以被分解成赢/输矩阵，该矩阵结合了多个用户对每个已被采样和排名(例如，由至少一个用户)的响应的排名。当全局赢/输矩阵更新时，全局赢/输矩阵可用于更新开放式响应的相关分数。

为了更新相关分数416，在一些示例中，服务器可以将刺激的上下文建模为张量(tensor)。例如，过程400A可以是在上下文H或焦框的范围内的某个时间间隔T上发生的离散事件过程。离散序列中的每个排名事件可以发生在时间t_i∈T。如上所述，该过程的参数可以包括评估者或参与者或用户的数量M和所提供的排名事件的数量ω。如上所述，评估问题EQ或特征可以是定义了上下文H(或焦框)的范围的自然语言问题或其他提示，并且EQ集可以对应于评估(例如，对于执行过程的评估有关的一个或多个上下文)可以建模的特征。

上下文的张量H建模可以包括与相应响应相对应的向量，并且向量的值可以对应于响应的属性，例如语义距离、排名或其他属性。例如，张量H的元素可以是每个响应的向量，其定义了相对于其他响应的相关性，以及与其他响应的语义距离的测量(例如，基于用于相应自然语言文本的NLP模型的输出之间的距离)。H的元素可以采用以下形式：

H_ij＝[h_w,h_d,h_r]

在上下文H或h_w中，响应h的胜数可以是来自用于响应的排名事件ω的h_i>h_j的胜数：

h_i和h_j之间的相对语义距离h_d可以表示为：

关联概率h_r可以是一个响应相对于所有其他响应的相关概率。H的矩阵形式可以基于每个H的赢(win)、语义距离和相关概率来构造。

服务器可以确定用户提供的所有响应的分布或具有最高相关分数的响应的子集。在一些实施方式中，可以基于与排名事件R_i相对应的向量来计算相关性分布，其中下标指的是ω应的向量处的排名事件：R₁＝{h_1Rel,h_2Rel，…，h_nRel}。为了计算过程中任意点的R，可以用下面的形式构造邻接矩阵：

通过将邻接矩阵归一化为概率矩阵，可以将邻接矩阵转换为转移矩阵。通过应用矩阵幂律，可以计算出最大的特征值/特征向量：

R_t+1＝TR

其中，所确定的结果，例如，在排序事件R之后的R_t+1，可以对应于响应的概率分布，在某种意义上，例如，特征向量的值指示了基于排序事件的排序相关概率。如本文其他地方所讨论的，可以执行类似的技术来确定每个参与者的影响的概率分布(例如，基于其他用户如何对该用户提交的响应进行排名或评估)。

服务器可以指示哪些响应表示排名或分布中的异常值。服务器可以通过图形用户界面请求在没有异常值的情况下重新计算概率分布，或者一旦计算出相关分数和概率分布，服务器可以请求关于异常值的后续动作。还可以将排名响应中的对齐测量与相关分数和概率分布一起呈现给用户。对齐测量可以是用于指示与排名响应的相关分数和概率分布相关的计算校准的定量值(例如1至100)或定性值(例如，A至F)。服务器可以呈现一个以上的对齐分数，例如，考虑所有相关分数的对齐分数或不包含任何异常值的相关分数集的对齐分数。

在一些实施方式中，主题相关性可以从给定主题内响应的相关分布中得出。服务器可以基于每个上下文的响应的相关性θ来生成响应的排名。概率分布P(r)中的每个响应都可以与定量分数(例如，与响应相关联地提供的分数)相关联，在示例中，评估问题除了响应之外还请求以定量分数的形式反馈。概率分布P(r)可以指示评估的预测结果。虽然这一过程减少了相关响应的数量，但解释价值受益于将响应分组为主题类别(称为主题)。主题相关性T_r可以从相关分数h_i的分布P(r)中推断出来。单一主题不需要相互排斥。响应r_i的相关性可以表示为R＝{r_j}:P(r_i)。主题可以是由NLP分类产生的R的子集，例如语义空间内的共享分类(例如，与本文所述的自然语言文本对应的主题地标识)。在一些示例中，主题相关性的定义可以包括P(r)的最大值、P(r)的平均值、或取P(r)的最高排名部分的平均值的组合。实施方式可以基于与附有r_i的定量分数相关联的评分模式来推断用于主题的语义(例如，基于分数)。在一些示例中，r_i可以属于多个主题(例如，实施方式可以选择为自然语言文本识别的主题集，例如具有高于阈值分数的主题)。

在一些实施方式中，服务器可以(基于其自然语言文本)确定每个响应在向量空间中的嵌入，通过该向量空间可以计算响应之间的语义距离，或者可以推断响应的主题，例如在一个或多个排名事件之后对响应的相关性进行评分或更新如上所述的响应的相关分数。一旦更新了相关分数416，则可以将相关分数写入数据库418。数据库可以改变所呈现的自然语言文本响应的相关分数，或者它可以存储多个相关分数集，其中米格相关分数集与不同的用户相关。

响应的相关分数可用于指示哪些响应与提供对齐分数的用户对齐。对评估问题的回答的相关分数可以归一化为1至10或1至100的等级。最低值(例如1)可以指示用户集的相关分数较低(例如，用户没有很好地与该响应对齐)，而最高值(例如10或100)可以指示该用户集的相关分数较高(例如，用户与开放式响应对齐)。

在一些实施方式中，服务器确定指示服务器从用户接收到的所有排名事件的相关分数的输出。相关分数可以表示为具有其相应定量相关分数的开放式响应的列表。所呈现的分数可以包括具有最高相关分数的前5个、10个、25个或更多个的响应。所呈现的分数可以是前5个分数，也可以是后5个分数。相关分数可以概率分布的形式呈现，其中分布可以分析函数或图形分布的形式呈现。

在一些实施方式中，过程可以在任何大小的选项列表上产生概率分布，其中可以包括概率模型的训练，该概率模型处理样本和排名以在其他情况下需要扩展的A/B测试的结果(就其本身而言，A/B测试不扩展，这并不意味着放弃这种配置)，以及对结果指示对齐的程度的置信度的测量，如分数。在一些实施方式中，排名事件状态的序列随时间的联合分布的概率被给出为：

可以训练贝叶斯模型来从排名的序列中学习响应的真实排名。在完成时，要学习的真实排名θ可以表示刺激集相关排名或刺激的评估问题：

当一个组的智能(人类智能体或人工智能体)对齐时，样本列表β根据上下文中的排名来紧密估计出真正的共享优先级。在这种情况下，L(θ)(证据的对数似然性)被最大化：

每次发生排名事件时，R都会更新，并生成一个新的β—随时间演变的上下文响应相关性的一系列模型。集体推理进化轨迹详细说明了不同的用户排名和用户对齐是如何围绕响应的范围形成的。最大化L(θ)是通过注意隐藏变量上的任何分布Q(R)都是L(R)的下界来简化的，因为对数函数是凹的(也称为Jensen恒等式)。因此，L(θ)可以表示为：

L(θ)＝∑_RQ(R)log(P(R,β|θ))-∑_RQ(R)log(Q(R))，

这表明L(θ)等于负的吉布斯自由能。

当β对列表进行采样时，例如对问题的响应的集合，其与用户对齐的真实值θ相匹配，自由能被最小化。测量和分类对于响应的排名的自由能可以用来(例如，评分)作为用户之间对齐的预测因子。

图4B是根据一些示例性实施方式的用于平衡探索和优化的语义空间进行采样的示例性过程400B的流程图。在一些实施方式中，为了有效地确定提交的响应集中所有响应的全局排名，可以由多个不同的用户对由采样模型(或函数)输出的项的相应样本进行评估，从而对多个不同的子集执行A/B测试。如果对所有提交的响应的整个集合执行A/B测试，则系统会在规模上表现出过大的效率下降，因为随着所需的成对排名数量呈指数增长，传统的A/B测试技术过于昂贵(例如，在时间和复杂性方面)。相反，系统可以评估在所有子集的排名上执行的A/B测试的结果，以确定所有响应的集合中的响应的全局排名。

在一些实施方式中，使用采样模型来有效地确定全局排名，并具有不同响应的充分覆盖。具体而言，在许多示例中，响应主体太大而无法随机采样，并且简单的选择技术可以冗余地覆盖一些区域而不覆盖其他区域。有效的采样函数应该在不影响效率的情况下跨越用户响应的语义空间(例如，给每个响应一个公平的机会)，并且在一些示例中，可以通过识别和减少许多类似响应的呈现来提高效率(例如，支持可以反映集合上类似响应的代表性的响应)。新选项可以随时添加到选项列表中。采样过程可以有起点(例如，评估的开始)和终点(例如，基于采样模型的确定或基于采样模型输出的其他模型)。在一些示例中，该过程可以从选项的种子列表开始，其中所有选项具有相同的偏好概率。参与者(人类或智能体)可以提出可以添加到选项列表中的新选项。参与者可以被提供一个选项的样本列表，并被要求在A/B权衡的优先级元素中选择和排名项(例如，在样本列表中x比y更受欢迎)——A/B测试通常用于检测选择偏好。例如，如果测试过程有10个选项用于学习排名的偏好，则至少需要45个A/B测试才能对这10个选项进行正确排名。在完成一个或多个子集的A/B测试的情况下，该过程可以将优先级列表转换为赢/输矩阵。

例如，非结构化数据响应可以由采样函数选择以呈现给用户，其中采样函数从包含对评估问题的响应的数据库中选择N个项目。如前所述，用户可以通过按特定顺序拖放响应或为响应分配数值来对非结构化数据响应进行排名(例如，值1表示排名最高的响应，N表示排名最低的响应)。响应的用户排名可用于基于响应与用户的对齐方式对呈现的响应进行优先级排序。与用户对齐最多的响应得到最高的排名或对齐分数，而与用户对齐最少的响应得到最低的排名或对齐分数。对于单一评分事件，服务器可以接收指示响应的有序排名421的向量或位置信息(例如，样本集中项目的排名)。跨多个用户对相应用户指示其排名的不同的响应集的评分事件可以被处理以构造全局赢/输矩阵423，例如，指示所有用户的响应排名(例如，在评估期间或之后的一段时间内)。

与自然语言文本响应一样，响应421可以被处理以确定语义空间内不同响应之间的距离。这些语义距离(例如响应的成对组合之间的语义距离)可以指示哪些响应是彼此相邻的(例如，基于阈值)、哪些响应不靠近任何其他响应(例如，基于阈值)、以及介于两者之间的那些响应。采样模型427可以考虑这些距离和其他数据，以便有效地跨语义空间对响应进行采样。

在一些实施方式中，采样模型427可以包括可扩展的A/B测试的概率模型(就其本身而言，A/B测试不能扩展，这并不是说否定任何方法)。该过程可以包括基于选项在A/B测试中的表现来确定选项列表上的概率分布和所有选项的完整排名。为了创建基于结构化评估的概率图形网络，该过程采用结构化的输入。在一些示例中，可以根据本文描述的一个或多个模型来处理非结构化数据，以生成输入集或确定输入的特征。在一些示例中，输入可以包括线性模型，该线性模型包含特征集(F₁到F_n)，其中对于每个F_i，参与者提交分数和响应。该系统使用采样函数β生成样本，并使用带有专有参数集(相关性，到分数的链路)的自由文本字符串。分类器为每个F生成条件概率表，将响应映射到可能的分数。生成条件概率表，将分数与可能的模型结果链接起来，并且该机制自动计算用于结构化(或在一些示例中，非结构化)评估的以下函数：

P(原因)(或响应)可以从相关学习算法中学习。在任何过程的最终状态中，都会有一个P(原因)分布，该分布在上下文框架(例如，焦框)内产生优先响应的表示。这代表了集体的优先真实置信θ。贝叶斯置信网络可以被训练成组的集体智能的可执行表示。对于经过训练的模型，提供给该模型的响应集将在没有任何人类交互的情况下产生预测分数。

在一些实施方式中，可以呈现种子响应的样本(例如，对“你的分数的原因是什么？”问题的生成响应)。在状态i的上下文中的响应的集合表示为R_i，而种子响应集表示为R₀。在其他示例中，如果不存在(或低于阈值数)响应，则可以不向用户呈现用于排名的响应，在这种情况下，可以在收到响应的阈值数后初始化R₀。第一人称，M₁可以被要求输入他们对分数的响应。然后，他们被要求从种子响应的样本中选择与其对齐的响应，并按照其对齐程度的优先顺序对所选的响应进行排名。这个过程可以利用比较判断的法则，例如，向评审员提供样本中的响应之间的经济权衡。响应R₁的集合随着过程的每一步而增加。此外，以评分矩阵的形式进行排名，更新R₁。集合中的每个响应可以被分配分数和与每一步相关的概率。系统可以满足只依赖于最后状态的马尔可夫性质。β的每次采样可以取自更新了概率分布的R。在系统的任何状态下，R_i都可以被认为是这个情境下的世界模型。这是响应的总体，每个响应都有概率，代表参与者的排名相关分数。上下文的语义覆盖范围很重要。具体来说，考虑这样一个场景：许多用户对一个问题提供相同的响应。示例性实施方式可以使用编码器模型在降维向量空间中嵌入基于相应响应的NLP处理的向量，并且可以计算向量之间的距离以确定被采样的响应之间的语义距离。采样函数β可以评估响应之间的距离。

在一些实施方式中，数据收集方法来自结构化的评估对话。定性问题要么支持定量评分(例如，数字的原因)，要么可以将定性讨论转化为可量化的预测。定性问题的输入可以是包括图像在内的任何对象。然后，系统返回输入对象的相关排名。在一些实施方式中，采样函数被用来模仿引导者的行为，在尝试学习参与者的对齐(例如，学习获胜的想法)的同时，输入所有提供的响应。采样函数可以采用以下形式：

β(ω)～Q_d(1-λ(ω))+λ(ω)Qc

其中，符号～作为采样从中读取。在采样函数中，Q_d对新的h_i(响应)进行采样。

采样模型应确保新想法获得足够的机会来“赢”其他想法——它是发散的或生成的，是信息熵增函数，随机选择响应，同时最大化响应之间的语义距离。Q_c是熵减函数，它以当前最高的相关概率对h_i进行采样，并基于支持的对齐来寻找紧急顺序——它采用测试潜在赢家的策略进行采样，并且是随着过程成熟到上下文的语义覆盖范围的主导采样函数。

逻辑映射方程可以对在焦框为λ的上下文中的响应的总体进行建模。具体地说，λ可以用以下函数来描述：

其中，χ_最大是评估上下文中唯一响应的总数的参数，仅取决于增长率，而不是初始值，χ_i是上下文中的单一响应，并且ρ是进入系统的响应的增长率，例如基于重点问题定义的上下文的评估语义覆盖范围将注意力从Q_d转移到Q_c—对应于2的值意味着每个评级的响应是二倍。当增长率等于3时，迭代会产生两个稳定的解。

在一些实施方式中，对于多个评级事件ω，λ可以从0开始，并在ω→∞时接近1。采样函数可以使用具有调谐参数的启发式λ。目标是找到λ，该λ使导致收敛的优先级事件的数量最小化：

这种启发式也可以称为样本守恒。算法可以在算法上将λ定义为离散函数。该过程可以根据排名事件ω的数量被划分成n段。对于多个采样的项目N，可以将λ设置为以下过程中由段确定的值：

对于i从1到n：

对于在范围段_i中的|ω|i：

将λ设为值(段_i)

β(ω)～Q_dN(1-λ(ω))+λ(ω)QcN

例如，如果λ＝0，在采样函数采样N个Q_d和0个Q_c。该过程的模拟可以采用已知真值的随机列表，然后基于每个提供排名的实体对多少项目进行评级和样本大小来监控该列表收敛的真排名的收敛速度。该算法可以快速学习优先级最高的项目，而排名较低的项目则不太确定。这意味着该过程是可靠、可扩展的方法，可以学习任何规模的组的对齐。该过程的结果是基于给定上下文的共享相关性的排序的响应集。因此，潜在的混沌过程的复杂性被简化为可学习的响应集。因此，由焦点问题定义的语义空间由按优先级排序的同行评审的响应集来表示。

因此，采样模型427可以基于输/赢矩阵和响应与输出候选样本429的的成对组合之间的语义距离425来接收作为输入的响应的数据排名。候选样本429可以是非结构化响应的选择，其相应的向量满足语义空间内彼此之间的阈值距离，以及上述的其他因素。例如，候选样本429也可以基于非结构化响应的排名来选择，其中非结构化响应的排名可以从赢/输矩阵中提取。在一些实施方式中，候选样本429可以被过滤以删除用户已经排名的响应、或用户提供的响应、或在语义上类似于其中之一的响应。

该过程可以从候选样本429中选择N个样本项431以呈现给用户进行排名或收集其他反馈。所选的样本项的数量N可以由用户偏好指示、由系统配置(例如，5个、7个、或10个或更多个或更少个)、或其他指标。反过来，如上所述，用户可以通过用户设备上的图形用户界面提供排名或反馈。

用于管理和测量语义覆盖范围的上下文控制

自然语言处理和自然语言理解系统在诸如将自由形式的自然语言文本准确地分配到与外部推理(无论是人类判断的还是人工判断)对齐的主题等领域的实际表现不佳。用于上下文控制的过程的实施方式可以通过为上下文创建可测量的几何空间来缓解这些问题和其他问题，例如解决问题、仲裁、决策或评估上下文的上下文。

如上所述，自然语言文本可以通过NLP模型进行处理，例如处理成相应的向量。示例NLP模型的输出向量(或中间向量)可以包括超过500个维度，并且在许多情况下包括700个至800个维度。如图5C所示，过程500的实施方式可以通过基于在评估期间收到的响应(例如自然语言文本)的向量来定义与评估相对应的语义空间的几何特征(例如其大小或相对距离矩阵)来管理和测量语义覆盖范围。在一些实施方式中，执行该过程的系统可以生成语义空间的可视化。例如，图5A和图5B举例说明了在示例性评估期间探索的语义空间的可视化示例，以及用户可以通过其与可视化交互和修改可视化的用户界面，这些示例将在下面进行更详细的解释。

在一些实施方式中，过程500C包括获取自然语言文本550。当用户在评估中“提交”响应时，可以获得文本。过程500C可包括获取多个这样的响应，并对每个响应执行所描述的一个或多个步骤。

该过程可以确定文本的高维向量表示551。例如，NLP模型输出的n维向量可以唯一地表示原因。在一些示例中，n可以超过500维，并且在至少一个示例用例中，n可以为768。在一些实施方式中，BERT或Word2Vec等非结构化自然语言处理(NLP)技术可以处理文本以生成文本的向量表示。

该过程可以确定向量在语义空间内的嵌入552。语义空间可以包括与评估中接收到的相应文本(例如响应)相对应的彼此向量的嵌入。语义空间的大小可以对应于n维空间(例如，对应于响应的向量表示的n维)，其中每个维度n_i的大小是基于在向量表示中找到的n_i值的范围来确定的。

在一些实施方式中，该过程可以在具有降维的语义空间内确定向量的潜在空间嵌入552。例如，语义空间可以限制为2维或3维，这可以提供可视化并且可以减少下游过程中文本属性的处理开销。在一些实施方式中，文本的高维向量表示被提供作为编码器模型的输入，该编码器模型输出具有降维的向量，例如具有二维或三维的向量。在一些实施方式中，基于一个或多个主成分分析(PCA)、t-分布随机邻居嵌入(t-SNE)或均匀流形近似和投影(UMAP)分析技术，维数可以降维到三维空间。降维可以对应于向量的属性将在二维或三维语义空间中表示的维度，并且不应被解读为暗示着：响应的向量可以不包括与响应相关联的其他附加数据元素(例如，创建者、与其他原因的距离、优先考虑原因的人员列表、时间戳、主题分类等)。

在一些实施方式中，降维过程保持降维向量表示之间的相对距离。因此，例如，嵌入在降维空间内的两个降维向量之间的成对距离可以与它们在高维空间中的成对距离成比例。相对距离的保持可以确保在降维向量上执行的分析(例如推断语义空间的属性)在高维空间内是有效的，而不会产生大量的处理开销(overhead)。

该过程可以基于代表文本的向量的嵌入来确定语义空间的覆盖范围553。在语义空间中，向量可以嵌入为指示相应文本(例如，响应的句子或短语中的一个单词或多个单词)的点。可以定义语义空间的几何特征，例如大小和相对距离矩阵。语义空间内的向量的嵌入可以指示具有语义空间的不同区域已经被各自的响应所覆盖。因此，例如，可以识别尚未探索的区域或探索较少的区域。

该过程可以基于确定的覆盖范围输出结果，例如语义空间中哪些区域未被覆盖、良好地覆盖或覆盖最小的指示。可以确定和处理语义空间内向量之间的成对距离，以针对向量确定最近的相邻向量。具有低于阈值的成对距离的两个向量可以被确定为具有较高的共享相关性，或者彼此相似。关于语义空间的上述信息和其他信息可以通知采样模型，该采样模型可以优先探索空间的外围区域以确保语义覆盖范围(例如，当接收到新的响应并嵌入到先前未探索的空间中时，例如由与其他向量的大的成对距离指示)。此外，例如，基于附加数据，例如基于用户反馈的响应的分数，实施方式可以确定谁在语义空间的哪个区域内对哪些响应共享协议，并且即使每个用户没有对每个响应提供反馈，代表响应的向量之间的相似性测量也可以通知该确定。

在一些实施方式中，过程500C可以根据以下用于特征集的伪代码来执行。接收到响应的评估，标记为RC(推理上下文)，可以由具有元素F的特征集F来定义。对于F中的每个F，可以存在由人类或智能体以自由形式的自然语言文本提供的定量分数和响应r，作为对元素F评估的支持。r的完整集合可以表示为R，例如，r_i∈R。该过程的实施方式可以：

对于每一个f∈F

收集r_i

计算r_i在RC中的表示(例如，高维RC，其中n＝768)

对简化后RC，简化r_i(例如，低维，其中n＝3)

计算RC的中心

计算RC的半径。

RC的中心可以对应于用于锚定语义空间的可视化的原点，RC的半径可以对应于体积(例如，对于球体)的半径，在该体积内可以相对于原点显示缩小的向量。因此，在(例如，三维)中，RC可以具有有限的体积和基于RC内的向量数量的密度。向量可以基于其相应的向量(例如，点的坐标)相对于原点分散在体积内，因此，RC的不同区域可以与不同的密度(例如，区域内的向量数)相关联。例如，在一些实施方式中，可以基于向量之间的成对距离来识别多个聚类。在一些示例中，可以基于聚类中心或阈值距离内的聚类中心的集合来围绕聚类定义区域，并且区域的半径或边可以基于到区域的最近相邻中心的距离或阈值(例如，距离区域中心的最小或最大距离)，在一些示例中，其可以是基于RC尺寸的归一化距离，以及基于相应阈值可以在RC内形成的预先指定的或最大或最小数量的区域。

实施方式可以定义一个或多个用于RC的归一化“大小”和用于RC的归一化多样性。例如，具有小的推理多样性的空间将在原点周围聚集的点。

图5A和5B示出了根据上述技术进行的可视化。例如，可以向用户呈现图形用户界面，以显示语义空间中的点以及分配给每个点的数值，例如分数(例如，相关分数)。在空间上接近某个点的原因可以按距离增加的顺序显示。每个点可以表示对刺激接收的响应，并且不同点之间的距离可以指示它们在语义空间内相距多远。

用户可以与可视化交互，例如通过他们的用户设备。例如，用户可以选择一个点来查看有关响应的附加信息。例如，用户可以选择点87，其中87可以对应于响应的相关分数。如图5A所示，选择可以导致显示关于该点的附加数据。例如，可以生成窗格并显示例如以下信息：提供点所表示的响应的用户的指示、为其提供响应的刺激、与对刺激的响应相关联的用户提供的评级以及相关性、或本文所述的其他数据。

在一些实施方式中，作为对选择的响应，如图5B所示，可以示出为最近的嘶鸣点提供的响应。窗格可以示出关于最近点的信息，例如通过在语义空间内显示相应响应的文本及其与选择点的距离。所示出的距离可以是余弦距离(例如，基于代表性的高维向量)或欧几里德距离(例如，基于代表性的降维向量)。

无限可扩展的A/B测试

A/B测试通常用于检测眼睛测试、产品特征等方面的选择偏好。如本文所述，用于学习排名偏好的A/B测试协议呈指数级扩展。例如，测试10个选项来学习排名偏好的A/B测试协议可以进行至少45次A/B成对测试来确定选项的排序。因此，在传统的测试协议下，经验性地测试选项集中的每一个选项，选项集包括数百个、数千个或数十万个或更多个选项(在一些用例中甚至是数十个选项)，实际上是不可行的。

传统的A/B测试协议在扩展时，对于计算系统或现有数据集来说，最多可以是计算上昂贵的过程(并且在更大的规模下是不可行的昂贵的过程，例如对于1000个或更多的选项)。受时间或延迟限制(例如，提供样本对和接收响应之间的延迟)的用例会随着选项数量的增加而进一步降低可行性。

实施方式可以使用概率模型来扩展A/B测试协议(传统意义上)，用于包括数十个、数百个、数千个或数十万个或更多个选项的选项集。概率模型可以按数量级减少为确定选项的排序而执行的测试的次数。因此，示例用例可以包括在减少计算费用的情况下，在选项集中确定排序，并且对于高延迟系统，在减少的时间内(例如，与样本响应会话的减少乘以提供样本和接收响应之间的延迟近似或成正比)。

如图6D所示，过程600的实施方式可以概率地扩展A/B测试，以确定大型选项集中选项之间的排名。例如，该过程可以包括概率模型，该模型被训练为输出选项集(例如，大的或任何大小的)的概率分布。在许多示例中，选项列表的大小可以随着过程的进行而增加，并且过程600可以迭代更新的选项列表。例如，在本文描述的示例性评估的上下文中，对评估问题的响应(或陈述)可以随着时间的推移而被接收，并被添加到选项集中，在该选项集中，排名是确定的。因此，新的选项可以随时添加到选项列表中。

在一些实施方式中，该过程包括获得要确定选项的排名的选项集650。如上所述，该选项集可以随着时间的推移而扩展，例如通过包含新选项。因此，获取选项集650的步骤可以包括获取新选项和更新该选项集。在一些示例中，过程600可以在步骤650处等待，直到接收到用于更新选项列表的选项的阈值数。然而，该过程的一些示例可以获取包括用于评估的多个种子选项的选项集，选项集可以随时间更新以包括新选项，或者种子选项可以是未更新的用于评估的特定选项集。

最初，例如在通过排名实体对列表内的选项进行任何评估之前，所有选项可以具有相同的偏好概率。可以基于排名实体对列表内的选项的评估来确定一个或多个偏好概率。为了减少疲劳(例如，人类评估者的疲劳)或计算费用(例如，非人类评估者的计算费用)，可以选择选项的样本，如子集，由排名实体进行评估。

图6A示出了接近示例性评估的开始的过程600的示例性可视化。具有曲线图601的点可以对应于正在评估的选项(在本例中为语句)，并指示选项的模拟排名(y轴)和真实排名(x轴)。一开始，这些点可以沿着图中所示的线603开始，并且随着参与的开始(例如，接收排名)，指示模拟排名的点可以基于确定的偏好概率移动，例如随着时间的推移，收敛于真实排名的点(例如，x＝y的线)。曲线图611示出了对于相应的曲线图601A-D的不同条件613A-D基于参与者(例如排名实体)数量(x轴)的模拟排名和真实排名(y轴)之间的距离的曲线图，而曲线图614示出了(例如，与曲线图611中的距离相反)对于相应的曲线图601A-D的不同条件615A-D基于参与者数量(x轴)的模拟排名和真实排名(y轴)之间的相关系数。

在一些实施方式中，该过程包括要提供给排名实体的选项的样本集的选择651，该排名实体可以是人类或非人类的实体。例如，可以向实体提供(例如，5-10个)选项的样本集，该实体以优先方式对这些选项进行排名，例如从最多到最少、从最好到最坏等，或从最少到最多、从最好到最坏，如样本集中的选项的排名选择列表。可以请求排名实体以优先排名的方式在提供的样本中选择和排名选项(例如，作为A/B权衡中的选项优先级的指示，如A优于B的偏好)。换句话说，排名实体可以根据实体对选项的排名选择偏好对样本集中的每个选项排名。该过程的实施方式可以执行选项的样本集的多个选择651，以呈现给相应的多个排名实体(例如，排名实体对至少一个样本集中的选项进行排名)。

在一些实施方式中，该过程包括获取选项的样本集的排名652。例如，该过程可以从呈现选项样本集的排名实体中获得该排名实体在样本集中的选项中的排名选择。该过程的实施方式可以获得多个排名，例如对相应的多个样本集中的每一个的排名。

图6B示出了在至少一些参与示例性评估之后但在评估的停止条件之前的过程600的示例性可视化。具有曲线图601的点可以对应于正在评估的选项(在该例中为语句)，并指示选项的模拟排名(y轴)和真实排名(x轴)。如图所示，随着参与的继续(例如，增加)，在一定数量的排名事件(例如，从参与者获得)之后，点可以开始沿着指示模拟排名＝真实排名的线605(例如，x＝y的一条线)收敛。曲线图601A-D各自可以分别对应于不同的条件，因此可以以不同的速率收敛。例如，曲线图601A对应于100个选项中的5个样本选择大小，曲线图601B对应于100个选项中的7个样本选择大小，曲线图601C对应于100个选项中的10个样本选择大小，曲线图601D对应于100个选项中的10个样本选择大小(但是，例如，其中10个选项中只有7个可以被排名，而在其他示例中，排名使得包括样本集中的每个选项)。图6B中的曲线图611和曲线图614示出了样本排名和真实排名之间的距离(例如，613A-D)和相关系数(例如，615A-D)是如何基于上述相应的曲线图601A-D条件的参与者数量而变化。可以看出，更大的样本量可以最小化收敛时间，但在许多用例中，由于本文描述的各种原因，在样本内呈现合理数量的选项而不是每个或大多数选项是有利的。

在一些实施方式中，该过程包括从同一排名实体获取多个不同的选项样本集的排名，例如随时间的排名。一些样本集可以包括新添加的选项。为不同的集合选择的一些选项之间可以有一些交叉(crossover)，或者可以没有交叉。该过程的一些示例可以包括采样模型，该模型确定在不同的样本集中呈现哪些选项，其中一些选项可以具有或可以不具有与具有另一样本集的选项有任何交叉。在一些实施方式中，采样模型可以确定用于实体的所选样本集选项是否应该或不应该具有交叉。

在一些实施方式中，该过程包括确定选项上的概率分布653，例如基于它们在选项样本集中获得的选项排名中的表现。因此，例如，采样模型可以选择尚未排名到样本集的选项(这并不是建议每个选项都需要在每个示例性实施方式中进行排名，实际上，可以应用本文描述的其他技术，例如，在确定两个选项相似的情况下，修剪一个选项或将一个选项与另一个选项相关联，因此，一个或多个选项不会通过排名实体明确地排名)。

在一些实施方式中，该过程基于所获得的选项的样本集内的选项排名确定赢/输矩阵，该赢/输矩阵指示选项列表中的一个或多个选项的赢(或输)(注意，如果选项在包括该选项的样本的排名中没有赢过任何其他选项，则该选项的赢的数量可以为零)。因此，赢/输矩阵可以指示选项列表中选项的(例如，相对)性能。概率分布可以基于对选项列表中选项的当前(但有限的)已知性能状态进行编码的赢/输矩阵来确定653。例如，该过程可以获取选项列表中选项的已知性能状态，并确定评估每个选项的相对性能的概率性能状态(例如，根据相对于基于其相对于选项的子集的已知性能的每个其他选项的选项性能的评估)。

在一些实施方式中，该过程包括确定在选项列表中的选项之间的模拟排名654。所模拟的排名可以基于对每个选项的相对性能的评估。例如，模拟排名可以基于相应的性能估评估输出选项的有序列表(例如，所有选项的完整排名)。

模拟排名可以被称模拟排名，因为每个排名实体不需要对每个选项进行排名，而是评估相对性能。评估以及因此输出的选项的有序排名，可以收敛于真实排名(例如，如果执行传统的A/B测试过程)。可以分析样本选择的特征、选项的数量、排名事件的数量和参与者的数量(例如，如事件的时间序列和评估的属性)来推断关于过程600的停止条件的信息。具体地，过程的停止条件可以基于指示评估的训练数据记录来通知，通过这些评估生成了真实的排名(或验证了模拟的排名)，并且在训练操作期间可以迭代过程600以模拟排名。

图6C示出了在参与示例性评估后的过程600的示例性可视化。该示例还示出了在基于评估的特征停止评估时可以保证与真实排名相对应的模拟排名的保证的方面(如果评估是在合理的停止条件之外进行的)。具有曲线图601的点可以对应于正在评估的选项(在本示例中为语句)，并指示选项的模拟排名(y轴)和真实排名(x轴)。如图所示，在一系列排名事件(例如，从参与者获得)之后，这些点可以沿着指示模拟排名＝真实排名的线605(例如，x＝y的线)紧密收敛。

如图所示，图6C的曲线图601A-D可以分别对应于不同的条件，并且可以不同的速率收敛。因此，例如，可以分析评估的条件或特征以确定停止条件(例如，在排序事件的阈值数之后)。例如，曲线图601A对应于100个选项中的5个样本选择大小，曲线图601B对应于100个选项中的7个样本选择大小，曲线图601C对应于100个选项中的10个样本选择大小，曲线图601D对应于100个选项中的10个样本选择大小(但是，例如，在10个选项中只有7个可以排名，而在其他示例中，排名使得包括样本集中的每个选项)。

图6C中的曲线图611和614示出了样本排名和真实排名之间的距离(例如，613A-D)和相关性系数(例如，615A-D)是如何根据基于上述各个曲线图601A-D条件的参与者数量而变化的。可以看出，更大的样本大小可以最小化收敛时间，但在许多用例中，由于本文描述的各种原因，在样本内呈现合理数量的选项而不是每个或大多数选项是有利的。此外，如图所示，随着参与者数量的增加(并且因此保证排名事件的数量的增加，这仅仅是说明性示例，因为在本文公开的一些示例性实施方式中，单一参与者可以随时间对多个不同的样本进行排名)，确定的排名和真实排名之间的距离可以最小化(例如，相关性增加)。然而，示例性曲线图示出了评估的特征可以基于例如所获得的用于评估的多个排序事件通知停止条件，并且停止条件可以根据本文所述的技术对应于保证阈值(例如，距离的最小化或相关系数的最大化的阈值水平)。

概率图形网络

在一些实施方式中，基于对应于本文所述的一个或多个过程的结果或确定，专家系统可以生成图。在一些示例中，图可以是概率图形网络(PGN)，例如包含边和节点的非循环图。节点可以对应于在评估期间处理或与评估相关联的信息分量，并且边(例如从一个节点到另一个节点)可以指示不同节点之间的关联。

在一些示例中，例如对于特征是结构化的评估(例如，在结构化评估中或从非结构化数据中确定并提供用于评估)的评估，概率图形网络可以将机器学习模型的输入(或其中一个或多个)和机器学习模型的输出(或其中一个或多个)作为图形元素，其中一个或多个边或节点，或与之相关的值可以基于输出。例如，当排名实体集在评估期间参与专家系统时，专家系统可以确定并更新表示评估状态的概率图形网络(例如，在一个或多个排名事件之后的某个时间点)或(例如，在完成之后)最终状态，并基于排名实体提供的输入确定分数。在一些实施方式中，专家系统可以执行示例性过程以确定PGN作为时间的函数，因为来自排名实体集的输入以及因此机器学习模型的输出可以随着时间的推移而演变，并且由图所反映的不同时间点结果可以指示如模型输出所指示的排名实体集(或不同的实体子集)如何随着时间的推移与其相关的特征和响应对齐(或不对齐)的轨迹。

图7是根据一些示例性实施方式的用于生成概率图形网络(例如概率贝叶斯网络)的图形表示的示例性过程700的流程图。过程700的实施方式可以根据本文描述的一种或多种技术确定将输入映射和压缩到机器学习模型和机器学习模型的输出的概率图形网络，例如PGN，其在一些示例中可以是贝叶斯置信网络(BBN)。该过程可以包括确定选项列表上的概率分布和所有选项的完整排名，基于它们在基于不同排名实体的选项子集的排序的A/B测试中确定(例如，评估)的性能。为了生成PGN，该过程可以接收基于线性模型的特征作为输入，该线性模型由用于评估的特征集(F₁到F_n)组成，其中对于每个F_i，至少有一些排名实体提交分数和响应。该过程可以使用采样函数β生成样本，并使用带有专有参数集(相关性，到分数的链路)的自由文本字符串。机器学习模型可以为每个F生成条件概率表，将响应映射到可能的分数。可以生成条件概率表，将分数与可能的模型结果联系起来。

在一些实施方式中，该过程包括在特征上训练PGN 710(例如BBN)，以便通过线性模型进行评估。在一些示例性实施方式中，特征可以是呈现给排名实体的评估问题。线性模型可以对每个特征分配权重，其中每个特征的权重值可以不同。在一些示例性实施方式中，权重基于PGN内表示的随时间变化的特征的输出(例如，分数、距离或其他度量)进行更新，例如由类似于上述和本文其他地方描述的技术确定的结果输出。对于给定特征所确定的权重可以相对于排名实体可以提供一个或多个响应的其他特征来扩展特征的重要性。线性模型接收到的特征数量可以是1、5、10、100、1000或更多。模型中的权重的数量可以等于特征的数量，或者权重的数量可以大于或小于特征的数量。线性模型的权重可以是由机器学习模型确定的整个时间的常数，或者权重可以是时间的函数。权重可以采用向量的形式，其中向量的每个分量都可以是时间的函数，并且每个分量可以与其他向量分量不同地依赖于时间。权重的时间相关函数形式可以是线性的、指数的、周期的、超越的、对数的，或者是这些的任意组合。一个或多个权重也可以在一段时间后设置为零，以指示与这些权重相关的特征在这段时间过去后不再相关。在一些示例中，所引用的时间段可以基于其他度量，例如参与者的数量或与评估相关的评分事件，因此在每种情况下不需要是固定的时间段，或甚至在本质上是暂时的，而是指示有序事件系列中的一个点，尽管在许多示例中，例如在本文所讨论的那些示例中，事件系列可以是事件的时间序列。

提供给线性模型的特征可以是评估问题，排名实体可以对其提供反馈(例如，分数或提供响应，或两者兼有)。与特征相联的值可以在排名实体向特征提交反馈之前确定，或者特征的值可以部分取决于与特征相关的接收输入。线性模型可以通过权重进行归一化，使得模型的输出值在0到1的范围内。

在一些实施方式中，该过程包括向排名实体提供特征720。在一些实施方式中，可以通过用户设备上的图形用户界面将该特征呈现给用户(例如，充当排名实体)。可以将该特征提供为排名实体相对于其在界面内的图形表示而响应的图形块，或者可以向该特征提供能够接收文本输入的开放文本框。可以用数字尺度呈现特征，排名实体可以与数字尺度交互以分配分数。还可以呈现这些特征使得既有开放的文本框又有数字刻度。特征可以用两个输入区域呈现，一个用于接收文本的输入，另一个用于接收数字输入。特征可以以行和列的形式呈现给排名实体，其中排名实体可以选择他们希望为其提供反馈的特征。在一些实施方式中，特征可以例如以编码的形式呈现给非人类智能体，非人类智能体可以对其进行处理以选择分数或以其他方式提供响应。在任何一种情况下，用户或非人类智能体都可以是提供与一个或多个特征相关的反馈的排名实体，并且随后可以对其他排名实体提供的反馈进行排名或评分。

在一些实施方式中，该过程包括对向特征提供反馈的实体进行排名730。排名实体可以以非结构化响应或分数的形式提供反馈。在排名实体以非结构化响应的形式向特征提供反馈的情况下，系统可以使用机器学习模型(例如，自然语言处理模型)将非结构化响应转换为常数或向量。如果排名实体的反馈是分数，那么该分数可以与对实体的同意的分类有关。例如，反馈分数的取值范围可以在1到10之间，其中值为1表示对排名实体的最高同意度，值为10可以表示对排名实体的最低同意度，或者分数的取值范围可以在1到100之间，其中100表示最高同意度，1表示最低同意度。排名实体可以以口头陈述的形式提交对分数的反馈，例如，排名实体可以指示对某一特征的同意程度(例如，“完全同意”、“稍微同意”、“没有意见”、“稍微不同意”或“完全不同意”)。一旦排名实体表明了他们的选择，他们的反馈可以产生分数(例如，“完全不同意”等于1，“完全同意”等于5)。排名实体的反馈可以采取例如二进制选择的形式，排名实体可以表示“是”或“否”、“真”或“假”、1或0、拇指向上或拇指向下的图标、红色按钮或绿色按钮。然后，二进制选择可以转换成分数。一旦排名实体向模型的特征提交了反馈，分数和响应可以由一个或多个模型进行处理，以确定PGN内的节点或边以及相关值。在一些实施方式中，仅可以使用排名实体提供的响应。在一些实施方式中，基于上述信息的响应子集的多个PGN。例如，第一个PGN可以表示响应相关性，第二个PGN可以表示等级实体参与(engagement)/影响，如下所述。

在一些实施方式中，该过程包括通过采样函数生成针对特征接收的反馈样本740，如上所述。该样本可以包括反馈的子集，如由一个或多个排名实体提交的响应，其提供给其他排名实体。一旦生成了样本，该过程将向PGN提供参数的自由文本字符串750。参数可以包括分配给特征的排名实体相关性，以及排名实体作为对特征的反馈的一部分提供的到分数的链路。可以通过NLP模型分析自由文本字符串以确定与反馈相关的主题(例如，自然语言文本响应)。可以根据与反馈相关的相关性或基于与分数的链路来确定主题。在一些实施方式中，基于NLP模型输出的主题分类分数(例如基于用于响应的主题分类的阈值分数)将主题与响应的子集相关联。一些主题还可以具有与之相关联的相关分数，例如基于主题与特征或刺激的相关性。在一些示例中，主题的相关性被确定为与与主题相关联的响应的子集相关联的所有响应的相关分数的平均值。在一些示例中，分数是基于与每个与主题相关的响应所附加的分数相关联的评分模式的推断。例如，可以基于与子集中的每个响应链接的距离分数来推断主题，距离的值低于形成聚类的阈值距离，并且主题是从识别到聚类的响应的子集来确定的(反之亦然)。需要注意的是，本文所描述的主题并非互斥的，这意味着与主题相关的响应子集中的元素也可以与其他主题相关联。在一些实施方式中，可以将PGN中的一个或多个主题映射到基于上下文(或评估框架)的特征。在一些实施方式中，可以基于由NLP模型针对与上下文(例如评估框架)相关联的自然语言测试输出的分类来确定针对上下文的潜在主题分类的列表，例如对上下文评估的刺激或特征。

在一些实施方式中，该过程确定与信息分量相关的条件概率760。例如，条件概率可以涉及通过其确定相关分数和排名的响应和主题，或者通过其确定参与或影响分数和排名的排名实体对实体进行排序，例如通过构造一个或多个矩阵，并基于这些矩阵确定条件概率表。

在一些示例中，PGN的一个或多个节点可以对应于响应，并且不同节点之间的边可以指示响应之间的关联。在一些示例中，一个或多个节点可以对应于所识别的主题(例如，对于一个或多个响应)、接收到响应的评估问题或刺激、或本文描述的其他信息分量。在一些示例中，边可以是有向的，例如有向无环图中的指针，并指示关联的方向(例如，多个指针可以从刺激指向对该刺激的评估问题，另外多个指针可以从评估问题指向与评估问题相关联提交的响应，并且另一个或多个指针可以从响应指向其他相关响应(例如，基于所确定的相关性)或指向已识别的主题(例如，基于所确定的相关性)，反之亦然。距离或分数可以与边(或指示节点之间的关联的指针或其他数据结构，以及在一些示例中指示方向，这并不意味着对边(或节点)进行编码的数据结构不能指示这些和其他度量)相关联。

例如，如上所述，离散序列中的每个排名事件可以在同一时间t_i∈T发生。上下文的张量H建模可以包括对应于相应的响应的向量，并且向量的值可以对应于响应的属性，例如语义距离、排名或其他属性。例如，张量H的元素可以是每个响应的向量，这些响应定义了相对于其他响应的相关性，以及与其他响应的语义距离的测量(例如，基于相应自然语言文本的NLP模型的输出之间的距离)，并且H的矩阵形式可以基于每个H的赢、语义距离和相关概率来构建。在一些实施方式中，相关分布(例如R)是基于与排序事件相对应的向量来确定的，例如通过确定邻接矩阵。通过将矩阵归一化为概率矩阵，可以将邻接矩阵转换为转移矩阵。例如，通过应用矩阵幂律，可以计算出最大的特征值/特征向量：

R_t+1＝TR

其中，所确定的结果，例如在评级事件R之后的R_t+1，可以对应于响应的概率分布，在这种意义上，例如，特征向量的值指示基于排名事件的相关性的排序概率。本文描述的过程的实施方式可以基于或指示如上所述的信息生成的PGN，其可以被处理以更新PGN。

在一些实施方式中，条件概率表可以根据给定做出主题的子集内的响应的概率的所选主题的概率来确定。条件概率表可以将线性模型的特征的响应映射到可能的分数。在一些实施方式中，该过程可以包括确定模型的可能结果，PGN采用响应的概率(与其个体相关性相关联)以及响应所属主题的概率，其中主题的概率取决于响应。PGN可以将基于条件概率表的响应和主题链接到可能的模型结果770，而无需将经验推导的结果作为输入。PGN可以使用推理的概率、以做出主题的子集中的推理为条件的概率以及以主题为条件的特征的概率来自动确定以集体推理为条件的结果概率。因此，集体推理的结果概率以基于排名实体提供的反馈的相关性的方式考虑了线性模型的特征，这些反馈可以被主题和上下文捕获。结果概率的函数形式可以给出为：

在一些示例中，PGN的一个或多个节点可以对应于参与者(例如，用户或排名实体)，并且不同节点之间的边可以指示不同参与者之间的关联。例如，参与者可以与该参与者提供的一个或多个响应相关联，并且如本文所述，其他参与者可以对这些响应进行排名或分数。节点之间的边(在一些例子中可以是有向指针)可以指示一个参与者对另一个参与者提供的响应进行排名的实例，并且指针的方向可以指示参与者A对参与者B的响应进行了排名或评分(而不是相反，这并不意味着如果参与者B对参与者A的响应进行排名和评分，则另一个指针可以不从对应于参与者B的节点指向参与者A或者由边(或节点)编码的数据结构不能指示这些和其他度量)。

在一些实施方式中，给定评估过程α和排名实体的组(或参与者)M，交互的网络可以建模为马尔可夫过程，该马尔可夫过程收敛于影响P(M)的平稳分布，其中，m_i是相关性M_i的影响。与N(出站链路)相关联的马尔可夫模型出站链路可以被处理，以确定参与排名(E)，这是对排名实体提交和评估的响应进行审查和排名的测量。如上所述，可以是有向指针的链接(如边)可以是对应于给定排名实体的节点的入站链路，并且基于提交与给定排名实体提交的响应相关联的排名(或分数)的另一排名实体，从另一排名实体形成到给定排名实体。可以从入站链路中确定邻接矩阵，并将其归一化为转换矩阵：

M_ω-1＝TM_ω

其中M_ω是影响的平稳分布。每当成员m_i评估m_j时，入站链路就会发生。每当成员m_i被m_j评估时，出站链路就会发生。在一些实施方式中，可以基于入站链路和出站链路确定该过程的网络模型。因此，例如，给定排名实体的参与度或影响排名可以基于对由该给定排名实体提交的响应进行排名的其他排名实体的参与度或影响排名的自反性(例如，作为响应的排名或分数的加权和的附加、替代或混合)。在一些实施方式中，与节点相关联的边可以表示为向量，以确定矩阵(例如，像赢/输矩阵)，从中可以确定邻接矩阵A。例如，邻接矩阵A可以具有以下形式：

其中出站链路对应于任意给定行上的链路，入站链路对应于任意给定列上的链路。可以将满足条件(行，列)＝(m_i，m_i)的邻接矩阵元素设置为零(例如，排名实体对自身的影响可以默认为零)。

在这里，可以处理邻接矩阵A，例如通过应用矩阵幂低来确定相对于不同排名实体的特征值/特征向量，从而确定其排序和影响或参与度量(例如，类似于响应的相关的度量)。在一些实施方式中，所确定的特征值/特征向量可以被归一化，例如在相应的尺度上，如1至10或1至100，通过该尺度可以与相应的评级实体关联地显示影响或参与度量(并且在一些示例中，可以基于如上文所述的示例度量在图中显示与评级实体对应的节点之间的距离和边)。

在一些实施方式中，基于不同的因素构造不同的矩阵。例如，在一些实施方式中，指示参与的邻接矩阵可以基于与排名实体相对应的出站链路的计数。如上所述，出站链路可以基于实体与信息分量的交互而形成，因此计数可以指示基于PGN的实体与多少个信息分量交互的定量测量。在另一个示例中，指示影响的邻接矩阵可以基于与交互相关联的排名，例如实体的响应相对于其他实体的响应的排名有多高。此外，实体对其他实体响应的排名可以基于其他实体对该实体响应的排名进行加权。因此，例如，具有高排名响应的实体的响应的排名(例如，对应于高影响分数)可以被加权为高于具有低排名响应的另一实体的响应的排名(例如，对应于低影响分数)。换句话说，被确定具有较高影响程度的实体可以提高(或降低)另一实体的影响潜力(从而提高该实体提供的响应)。在一些示例中，采样函数可以基于上述因素以及其他因素来降低或提高用于选择对实体进行排名的样本集的选项的优先级。

在一些实施方式中，可以基于参与和影响分数或排名来确定条件概率表760。条件概率表可以将线性模型的特征的响应映射到它们相应的实体以及每个实体对评估的可能影响，例如基于由其他实体对实体的响应进行排名或评分的频率和程度。在一些实施方式中，该过程可包括基于存在或不存在排名实体来确定模型的可能结果，例如，作为作为有或没有实体参与的可能结果分布作为影响的测量。本文所述的过程的实施方式可以基于或指示类似于上述信息生成PGN，可对其进行处理以更新PGN 770。

概率图形网络的示例可以基于节点和节点之间的关系或边的编码来映射类似于如上所述的评估的信息，例如在一些实施方式中可以被处理以由可视化系统显示的图中。该图可以示出基于为评估的不同特征(例如，评估请求、刺激等)提供的响应或关于评估过程的其他信息(例如，评级实体如何参与评估以及基于其他评级实体提交的信息)而确定的结果。

在一些实施方式中，可以处理由排名实体接收和排名的响应，以确定PGN的单一输出分数，该分数表示对评估的不同特征的排名实体之间的对齐的测量。PGN可以基于与排名时间的时间序列的响应和排名相关联的传导概率的演变进行更新770。例如，当向多个排名实体提供特征集时，排名实体可以向这些特征提供反馈。实施方式可以确定指示排名实体集的分数(或排名实体的不同子集)彼此对齐的紧密程度，并基于来自各个排名实体的相对于该特征的输入(例如，响应和反馈)确定特征的定量分数，确定概率图形网络的过程可以将输入和处理这些输入的结果浓缩为单一输出分数。

在一些实施方式中，分数(例如特征或刺激的分数)可以基于将评估问题EQ_i和权重w_i作为输入的线性模型来计算：

其中，权重可以基于如上所述的度量，例如对于特征和刺激的排名实体集或排名实体的子集(及其相应的大小)的相关性和对齐。在一些实施方式中，上述特征分数可以是子分数，例如基于跨多个特征或刺激的每个评估问题的组合分数的分量分数。

在一些实施方式中，PGN可用于在各种各样的类别中可视化地询问和改进决策性能和准确性的时间。例如，在一些示例中，专家系统可以基于PGN，根据下面描述的技术来审计噪声及其影响。此外，给定数据集，该系统可以收集关于排名实体的评估和集体推理的数据，以将预测准确性与可跟踪的结果进行比较。具体地，该系统可以具有指示导致特定分数和预测的排名实体的动作的时间序列数据集。系统可以使用具有基于跟踪变量或后续结果的训练数据的逻辑回归分类器来更新机器学习模型的参数。该系统还可以使用PGN(在一些示例中可以是BBN)形式的排名实体的集体推理的近似因果模型，PGN可用于模拟、测试和分析。这些功能可以分析交互评估过程中产生的偏差、噪音和创意演变。

因此，在一些实施方式中，概率图模型(例如PGN，例如BBN)是从与参与者的集合(例如专家)的结构化对话中获得的。给定刺激和开放式问题，就会产生各种概率分布，包括与参与者集合的响应相关的概率分布P(r)、集体模型中参与者的影响的概率分布P(m)、参与的概率分布P(e)、以及表示以知识发现过程的结果为条件的参与者的预测的联合概率分布P(结果|α)。

在基于概率图形网络的评估中诊断噪声源和测量自由能的测量和可视化

如本文所述，建模技术可包括基于与评估相对应的信息的处理生成概率图形网络(PGN)，其中一些示例可指示基于PGN所基于的信息状态的预测结果(例如，给定查询的分数)。在一些示例中，PGN是基于特定于给定查询的信息生成的，并且在一些示例中，PGN的子图可以对应于给定查询的信息子集，例如给定查询的分量(例如，评估问题或特征)或分量的子集(例如，给定刺激的评估问题集或特征)。因此，在一些实施方式中，PGN(例如PGN_x)(可以是PGN的子图)可以对应于一些特征(或评估问题或刺激)X。PGN_x(可以是BBN)可以编码该排名实体的反馈和其他排名实体的反馈的映射。

在一些实施方式中，给定排名实体的反馈可以指示该排名实体对评估中特征X的预测、评估或其他评分度量。例如，每个提供反馈的排名实体(例如，作为其他实体反馈提供的响应的分数、响应、排名)可以被过程视为贝叶斯学习器，其中处理与PGN中表示的实体相关的反馈的结果被选择为后验预测(例如，基于该实体对特征的反馈)。为相应的实体确定的结果可以被绘制以确定后验预测的分布，如分布曲线(例如，卡尼曼噪声分布曲线)，其可以相对于结果(例如，在稍后的时间发生)进行审计，以确定从实体收到的反馈中指示噪声的一个或多个度量。在一些实施方式中，响应和分数的相关概率分布提供了解释性诊断，其中PGN提供了用于确定噪声分布曲线的因果模型。例如，图8A示出了根据一些实施方式的基于概率图形网络和被审计结果的噪声测量的分布曲线的示例。分布曲线可以根据如下所述的过程基于实体的后验预测的分布来确定，以对排名实体偏差和排名实体反馈的噪声进行评分。

基于上述或PGN内编码的其他度量的分布可以是指示性的，例如对于多个不同的特征，实体在相应特征的分数中是否紧密或松散地对齐。在一些示例中，可以基于由PGN指示的各个反馈来为特征提供反馈(例如，分数、响应、作为其他实体反馈提供的响应的排名)的每个排名实体分配对齐分数。可以基于针对多个特征的相应反馈来确定实体的对齐分数。对于为给定特征的各个实体确定的对齐分数集，可以确定对齐分数的分布。给定特征的对齐分布的属性可以指示实体围绕指示实体对齐的给定分数的对齐。例如，图8B示出了根据一些实施方式的基于概率图形网络和对齐测量的不同特征的分布曲线的示例。每个分布曲线可以根据如下所述的过程基于实体对齐分数的分布来确定，以对相应特征的实体对齐(例如，一致性或缺乏一致性)进行评分排名。

图9是根据一些示例性实施方式的用于根据基于概率图形网络确定的分布来确定测量的示例性过程900的流程图。该过程的实施方式可以获得概率图模型(PGN)或数据910，通过该概率图模型(PGN)或数据可以被生成PGN并生成PGN。在任何一种情况下，PGN都可以基于与评估过程相对应的时间序列数据集。对于评估过程的给定特征，PGN可以指示时间序列数据集的子集，通过该子集可以推断出关于该特征的实体的预测或分数(例如，单独的针对该实体)。例如，如果特征对应于数据询问延迟，参与实体可以提供指示延迟度量是否满足、超过或不满足系统需求的反馈。可以对PGN进行处理，以确定参与实体是否围绕给定结果对齐，在一些示例中，这可以被视为预测的代表。

在一些实施方式中，该过程可以基于从相应实体接收到的反馈来确定每个实体的后验预测920。例如，在一些实施方式中，该过程可以确定PGN中表示的一个或多个特征的结果。考虑到上述示例，该过程可以监控系统的性能，例如查询响应时间，并获得指示数据查询延迟是否超过限制系统性能以生成查询响应的阈值的性能数据。还可以获得与其他系统相对应的数据的性能，以及其他数据，例如预测的查询数量或其他相关度量。该过程的实施方式可以利用基于所获得结果的性能数据和其他性能数据的训练数据来训练机器学习模型，该模型在一些示例中可以包括或是逻辑回归分类器，例如确定系统的数据询问延迟是否不满足、满足或超过训练数据内指示的当前或预测的阈值性能要求或基准。可以处理在PGN中映射的实体的反馈，以确定实体对该特征的预测。实体可以被视为贝叶斯学习器，以基于它们对证据的评估来确定相应的后验预测，例如，实体如何对特征进行评分，在示例上下文中，这可以是实体如何将延迟度量评分为满足、超过或不满足系统要求，以及实体如何将响应(例如，由其他实体为其分数提供的原因)与特征的相应分数相关联。实体对特征的评估可以基于反馈数据进行评分，如上文所述，该反馈数据从实体收集并在PGN中表示，例如在1至10或1至100的尺度内，这可以对应于该实体指示其特征分数的尺度。在一些实施方式中，与实体的预测相对应的分数是基于特征的分数和实体对特征评估的排序响应的分数的加权和。

在一些实施方式中，该过程确定参与实体的后验预测的分布930。例如，可以根据如上所述与相应实体相关联的反馈数据确定每个实体的预测分数。该过程可以将分数的分布确定为参与实体的后验预测的集合的代表。

在一些实施方式中，该过程基于后验预测的分布和对特征确定的(或获得的)性能数据的分类(例如，机器学习模型的分类输出)来确定一个或多个噪声测量940。例如，图8A示出了根据上述技术在评估中包含分布和噪声测量的示例图。图8A还示出了相对于其可以定位预测分布的峰值(如距离)的结果的示例，例如，零误差。例如，在数据询问延迟的上述示例的上下文中，零误差可以对应于数据询问延迟对系统性能影响的结果，该系统性能由过程转换为尺度，例如，像数据询问延迟超过或不超过性能基准的程度。在一些示例中，结果可以被归一化为参与实体对特征进行评分的尺度(或相应的尺度)。在一些示例中，在机器学习模型的训练过程中，机器学习模型可以根据基准数据和相应的分类学习到相应的尺度。在一些示例中，尺度可以被归一化为实体对特征进行评分的上下文(例如，1-10、1-100、是否等)，因此，例如，机器学习模型可以在尺度(以及可选尺度)上输出所确定的分数或位置，用于对获得的性能数据或与特征相对应的观察到的结果进行分类。可以基于将观察到的结果(例如，其位置)和分布(例如，其峰值位置和宽度，例如基于分布的标准偏差)的归一化尺度相对于输出来分析分布。预测分布的峰值与零误差(例如，观察到的结果)之间的距离可以知名参与实体的偏差。例如，考虑到上面的例子，并参考图8A，分布的峰值可以被认为对应于实体在评估系统性能方面对数据询问延迟的偏差，例如，过度乐观或过度悲观。分布的标准偏差，例如远于零误差(观察到的结果)的标准差可以指示预测与观察结果距离最远的参与实体的数量或百分比，从而指示这些实体在评估中传递了多少噪声。此外，观察到的结果的情境化位置和分布可以指示更接近预测结果的参与实体的百分比或计数。因此，宽度(例如，从分布峰值到1SD的距离)和偏差距离可影响被确定为密切预测(或不预测)结果的参与实体的数量或百分比。一些实施方式可以基于上述测量对一个或多个实体、实体的百分比或实体的计数进行分类。

在一些实施方式中，该过程生成指示上述确定的一个或多个测量的可视化950，如图8A所示。可视化和噪声度量分数(例如，具有密切预测(或没有密切预测)输出的实体的偏差、计数或百分比)可以对应于被评估的特征和观察到的结果来生成和显示。例如，在一些实施方式中，该过程可以基于上下文化扩展和观察结果的相对位置(例如，基于机器学习分类)以及特征的后验预测的分布来生成图。

在一些实施方式中，该过程可以基于从用于特征的相应实体接收到的反馈来确定特征的每个实体的对齐分数920。在一些实施方式中，对齐分数可以对应于后验预测或基于后验预测。在一些示例中，对齐分数可以基于不同的或不同的反馈因素组合。该过程可以为多个相应的特征确定每个实体的多个对齐分数，例如为每个特征确定实体集的对齐分数。例如，在一些实施方式中，该过程可以为PGN中表示的一个或多个特征中的每一个确定对齐分数集。

在一些实施方式中，如本文所述，框架可用于管理参与实体提供反馈的上下文(例如，与特征相关的上下文)。例如，在查看评估时，可以在线性模型中指定四个框架(例如，每个框架都可以包括用于评估的相应特征)。每个框架可以对应于不同的上下文域，并且可以在对应于评估问题的数据室中表示，该评估问题涉及确定的分数(例如，基于排名实体提交的分数和其他因素)、提交的响应和响应的排名。在一些示例性实施方式中，评估模板构建上下文，在该上下文中可以推断参与评估过程的实体的对齐。例如，评估问题是“模型特征X的优先级是什么？”和“模型特征X是否满足系统需求？”以及参与实体可以回应是什么原因导致他们给相应的评估问题分配特定的分数。集体推理涉及分配高分和低分的参与实体，并给出高分和低分的响应。例如，实体可以将延迟作为高优先级的特征进行评分，并基于指示的延迟度量将该特征评分为不足以满足延迟要求。其他参与实体可以较低的优先级对延迟进行评分，并将指示的延迟度量评分为足以满足延迟要求。参与实体可以为其分配的相应分数提供不同的原因。此外，参与实体可以将其他实体提交的响应作为分配分数的原因进行排名。可以处理从参与实体收集的关于上下文或框架的反馈，以确定参与实体之间对特征的对齐测量。评估问题可以被视为线性模型中特征的组成部分，因此，在一些实施方式中，可以生成代表参与实体的集体推理(例如，基于反馈)的PGN。

可以处理在PGN中映射的实体的反馈，以确定实体对特征的对齐分数，例如，基于实体如何对特征进行评分，在示例上下文中，这可以是实体如何将延迟度量评分为满足、超过或不满足系统要求，以及实体如何将响应(例如，其他实体为其分数提供的原因)与特征的相应分数相关联。该实体对特征的评估可以基于反馈数据进行评分，如上文所述，该反馈数据从实体收集并在PGN中表示，例如1至10或1至100的尺度，这可以对应于实体指示其特征分数的尺度。在一些实施方式中，与实体的预测相对应的对齐分数是基于特征的分数和实体对特征评估的排序响应的分数的加权和。

在一些示例示例中，可以训练贝叶斯模型以从特征的排名序列中学习响应的真实排名。在完成时，要学习的真实排名θ可以表示参与实体的刺激的集体相关性排名或刺激的评估问题。类似地，可以训练贝叶斯模型来学习实体(例如，即使是那些实体没有排名的)对响应的排名。在一些示例中，可以确定实体排名与真实排名之间的距离测量，并且其对应于对齐分数(例如，实体与真实排名的对齐程度)。在一些示例中，例如本文讨论的那些示例中，距离可以对应于实体与真实排名对齐的程度。距离的最小化可以对应于实体与真实排名之间的自由能的最小化。因此，基于这种距离的分布可以指示超过阈值的自由能的量，就像实体对特征的评估不一致而导致的未解决的自由能的测量。

在一些实施方式中，该过程确定对特征的实体的对齐分数的分布930。该过程可以基于相应特征的相应分数集来确定相应的对齐分数分布。因此，分布可以指示在基于其相应反馈的分数中的排名实体的紧密程度。

在一些实施方式中，该过程基于特征的实体对齐分数的分布来确定一个或多个对齐测量940。如上所述，可以确定多个特征的实体对齐，每个特征与相应的分布相关联。例如，图8B示出了包括根据上述技术的进行评估的各个特征的分布的示例图。分布的峰值可以集中在为其相应特征确定的分数上。例如，基于参与实体反馈的特征B的分数可以是70/100(例如，相对有利)。然而，特征B的分布(例如基于分布的宽度或标准差)可以指示高度对齐，例如，在评估特征B时，实体在其反馈中紧密对齐(例如，高度集中的相似分数或排名距离)。在这里，实体的未解析自由能可以被认为是最小的(例如，低于阈值)。相比之下，特征C的分布，例如基于分布的宽度或标准偏差，可以指示低程度的对齐，例如，在评估特征C时，实体在其反馈中松散对齐(例如，相似分数或排名的低集中度，或彼此远离的不同评分或排名阵营)。在这里，实体的未解析自由能可以被认为是高的(例如，高于阈值)。如图所示，特征A的分布可以具有介于特征B和特征C之间的宽度或标准偏差，并且因此未解析的自由能可以被认为分别指示高对齐度和低对齐度的阈值之间，例如中等对齐。

在一些实施方式中，该过程生成指示上述确定的一个或多个测量的可视化950，如图8B所示。可视化和对齐度量分数(例如，峰在尺度上的位置、峰的宽度和高度)可以使用键或与其对应的相应特征的其他指示对应来生成和显示。在一些示例中，不同特征的评分分布的扩展可以归一化为比较上下文，或者在一些情况下可以使用不同的尺度(例如，1-10、1-100、是否等)。因此，例如，用户可以根据各自的分布属性在视觉上对各自特征的不同分布进行比较分析。因此，不同特征的参与实体的对齐可以在视觉上表示出来，例如指示哪些特征排名实体在分数上是对齐的，以及哪些特征不是对齐的。宽度(例如，从分布的峰值到1SD的距离)以及因此高度可以在视觉上表示和上下文化排名实体在多个其他特征中的特征的分数周围的对齐(或不对齐)。一些实施方式可以基于上述测量对一个或多个实体、实体的百分比或实体的计数进行分类。

图10是示出了可以执行上述技术的一些方面的计算设备(或数据处理系统)的示例的物理体系结构框图。本文所描述的系统和方法的相应部分可以包括类似于计算系统1000的一个或多个计算机系统或在类似于计算系统1000的一个或多个计算机系统上执行。此外，本文所描述的过程和模块或子系统可以由类似于计算系统1000的处理系统的一个或多个处理系统执行。

计算系统1000可以包括通过输入/输出(I/O)接口1050耦合到系统存储器1020的一个或多个处理器(例如，处理器1010a-1010n)、输入/输出I/O设备接口1030和网络接口1040。处理器可以包括单一处理器或多个处理器(例如，分布式处理器)。处理器可以是能够执行或以其他方式执行指令的任何合适的处理器。处理器可以包括执行程序指令以执行计算系统1000的算术、逻辑和输入/输出操作的中央处理单元(CPU)。处理器可以执行为程序指令创建执行环境的代码(例如，处理器固件、协议栈、数据库管理系统、操作系统或其组合)。处理器可以包括可编程处理器。处理器可以包括通用微处理器或专用微处理器。处理器可以从存储器(例如，系统存储器1020)接收指令和数据。计算系统1000可以是包括处理器(例如，处理器1010a)的单处理器系统，或者包括任何数量的合适处理器(例如，1010a-1010n)的多处理器系统。可以使用多个处理器来提供并行或顺序执行本文所述技术的一个或多个部分。本文所描述的过程，例如逻辑流，可以由一个或多个可编程处理器来执行，该可编程处理器通过对输入数据进行操作并产生相应的输出来执行功能来执行一个或多个计算机程序。本文所描述的过程可以由专用逻辑电路执行，并且设备也可以执行为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。计算系统1000可包括多个计算设备(例如，分布式计算机系统)以执行各种处理功能。

I/O设备接口1030可提供用于将一个或多个I/O设备1060连接到计算机系统1000的接口。I/O设备可以包括接收输入(例如，来自用户)或输出信息(例如，输出给用户)的设备。I/O设备1060可以包括，例如，呈现在显示器上的图形用户界面(例如，阴极射线管(CRT)或液晶显示器(LCD)监视器)、定点设备(例如，计算机鼠标或轨迹球)、键盘、小键盘、触摸板、扫描设备、语音识别设备、手势识别设备、打印机、音频扬声器、麦克风、相机等。I/O设备1060可以通过有线或无线连接连接到计算机系统1000上。I/O设备1060可以从远程位置连接到计算机系统1000。例如，位于远程计算机系统上的I/O设备1060可以通过网络和网络接口1040连接到计算机系统1000。

网络接口1040可以包括提供将计算机系统1000连接到网络的网络适配器。网络接口1040可以促进计算机系统1000与连接到网络的其他设备之间的数据交换。网络接口1040可以支持有线或无线通信。该网络可以包括电子通信网络，例如因特网、局域网(LAN)、广域网(WAN)、蜂窝通信网络等。

系统存储器1020可以被配置为存储程序指令1100或数据1110。程序指令1100可由处理器(例如，处理器1010a-1010n中的一个或多个)执行以执行本技术的一个或多个实施方式。指令1100可以包括用于执行本文所述的关于各种处理模块的一种或多种技术的计算机程序指令的模块。程序指令可以包括计算机程序(其在一些形式下被称为程序、软件、软件应用、脚本或代码)。计算机程序可以用编程语言编写，包括编译语言或解释语言，或声明语言或过程语言。计算机程序可以包括适于在计算环境中使用的单元，包括作为独立程序、模块、组件或子程序。计算机程序可以对应或不对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)，也可以存储在专用于该程序的单一文件中，也可以存储在多个协同文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署在位于一个站点的本地或分布在多个远程站点并通过通信网络相互连接的的一个或多个计算机处理器上执行。

系统存储器1020可以包括在其上存储由程序指令的有形程序载体。有形程序载体可以包括非暂时性计算机可读存储介质。非暂时性计算机可读存储介质可以包括机器可读存储设备、机器可读存储基板、存储器设备或其任意组合。非暂时性计算机可读存储介质可包括非易失性存储器(例如，闪存、ROM、PROM、EPROM、EEPROM存储器)、易失性存储器(例如，随机存取存储器(RAM)、静态随机存取存储器(SRAM)、同步动态随机存取存储器(SDRAM))、大容量存储存储器(例如，CD-ROM和/或DVD-ROM、硬盘驱动器)等。系统存储器1020可以包括非暂时性计算机可读存储介质，该介质可以在其上存储有可由计算机处理器(例如，处理器1010a-1010n中的一个或多个)执行程序指令，以引起本文所述的主题和功能操作。存储器(例如，系统存储器1020)可以包括单一存储器设备和/或多个存储器设备(例如，分布式存储器设备)。提供本文所述功能的指令或其它程序代码可以存储在有形的、非暂时性的计算机可读介质上。在一些情况下，整个指令集可以并行地存储在介质上，或者在一些情况下，指令的不同部分可以在不同时间存储在同一介质上。

I/O接口1050可以被配置为在处理器1010a-1010n、系统存储器1020、网络接口1040、I/O设备1060和/或其他外围设备之间协调I/O流。I/O接口1050可以执行协议、定时或其他数据转换，以将来自一个组件(例如，系统存储器1020)的数据信号转换为适合由另一个组件(例如，处理器1010a-1010n)使用的格式。I/O接口1050可以包括对通过各种类型的外围总线连接的设备的支持，例如外围组件互连(PCI)总线标准或通用串行总线(USB)标准的变体。

本文所述技术的实施方式可以使用计算机系统1000的单一实例或配置为承载实施方式的不同部分或实例的多个计算机系统1000来执行。多个计算机系统1000可以提供本文所述技术的一个或多个部分的并行或顺序处理/执行。

本领域技术人员将理解，计算机系统1000仅仅是说明性的，并不旨在限制本文所述技术的范围。计算机系统1000可以包括可以执行或以其他方式提供本文所述技术的性能的设备或软件的任何组合。例如，计算机系统1000可以包括或是云计算系统、数据中心、服务器机架、服务器、虚拟服务器、台式计算机、笔记本电脑、平板电脑、服务器设备、客户端设备、移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、车载计算机或全球定位系统(GPS)等的组合。计算机系统1000还可以连接到未示出的其他设备，或者可以作为独立系统操作。此外，在一些实施方式中，由所示组件提供的功能可以组合在更少的组件中或分布在附加组件中。类似地，在一些实施方式中，可以不提供所示组件的一些组件的功能，或者可以提供其他附加功能。

本领域技术人员还将理解，虽然各种项目被示出在使用时存储在存储器中或存储在存储器上，但出于存储器管理和数据完整性的目的，这些项目或其部分可以在存储器和其他存储设备之间转传输。或者，在其他实施方式中，部分或全部软件组件可以在另一设备上的存储器中执行，并通过计算机间通信与所示的计算机系统通信。系统组件或数据结构中的一些或全部还可以被存储(例如，作为指令或结构化数据)在计算机可访问的介质或便携式物品上以由适当驱动器读取，其各种示例如上所述。在一些实施方式中，存储在与计算机系统1000分离的计算机可访问介质上的指令可以通过传输介质或信号(例如通过通信介质(如网络或无线链路)传送的电信号、电磁信号或数字信号)传输到计算机系统1000。各种实施方式还可以包括在计算机可访问介质上根据上述描述执行的指令或数据的接收、发送或存储。因此，本技术可以与其他计算机系统配置一起实施。

在框图中，所示的组件被描述为离散的功能块，但是实施方式不限于其中本文所描述的功能按所示组织的系统。由每个组件提供的功能可以由与当前描述的不同组织的软件或硬件模块提供，例如，这样的软件或硬件可以是混合的、联合的、复制的、分解的、分布的(例如在数据中心内或地理上)，或以其他方式不同地组织。本文所描述的功能可以由一台或多台计算机的一个或多个处理器提供，该一个或多个处理器执行存储在有形、非暂时性、机器可读的介质上的代码。在一些情况下，尽管使用单数术语“介质”，但指令可以分布在与不同计算设备相关联的不同存储设备上，例如，每个计算设备具有不同的指令的子集，该执行方式与本文的单数术语“介质”的使用一致。在一些情况下，第三方内容交付网络可以承载通过网络传递的部分或全部信息，在这种情况下，在信息(例如，内容)被称为提供或以其他方式提供的程度上，可以通过发送从内容交付网络检索该信息的指令来提供该信息。

读者应该理解，本申请描述了几种独立有用的技术。申请人没有将这些技术分离为多个独立的专利申请，而是将这些技术分组为单一文档，因为它们的相关主题有助于在申请过程中节省成本。但是，这些技术的独特优势和方面不应混为一谈。在一些情况下，实施方式解决了本文指出的所有缺陷，但是应该理解，这些技术是独立有用的，并且一些实施方式仅解决此类问题的子集或提供对审查本发明的本领域技术人员来说显而易见的其他未提及的益处。由于成本限制，本文公开的一些技术目前不要求保护，并且可以在以后的申请中要求保护，例如继续申请或通过修改本权利要求书。同样，由于篇幅限制，本文件的“摘要”部分和“发明内同”部分都不应被视为包含所有这些技术或这些技术的所有方面的全面清单。

应当理解，说明书和附图并不旨在将本技术限制在所公开的特定形式，相反，其意图是涵盖在所附权利要求书所定义的属于本技术精神和范围内的所有修改、等同物和替代方法。鉴于本说明书，本发明的各个方面的其他修改和替代实施方式对本领域技术人员而言将是显而易见的。因此，本说明书和附图仅被解释为说明性的，并且是为了教授本领域技术人员实施本技术的一般方式。应理解，本文所示和描述的本技术的形式将被视为实施方式的示例。元件和材料可以代替本文所示和描述的元件和材料，可以反转或省略部件和过程，并且可以独立地利用本技术的一些特征，所有这些对于本领域技术人员来说在收益于本发明说明书之后是显而易见的。可在不偏离以下权利要求书中所描述的本技术的精神和范围的情况下对本文所描述的元件进行修改。此处使用的标题仅用于组织目的，并不意味着用于限制说明书的范围。

正如本申请中所使用的，词语“可以”是在允许的意义上(即，意指具有可能性)而不是在强制的意义上(即，意指必须)使用的。“包括”、“包括了”和“包括”等词的意思是包括但不限于。如在整个本申请中所使用的那样，单数形式“一个”和“该”包括复数的指示物，除非内容中清楚地另外指明。因此，例如，对“一个元件”的引用包括两个或多个元件的组合，尽管对一个或多个元素使用了其他术语和短语，例如“一个或多个”。除非另有说明，术语“或”是非排他性的，即包括“和”和“或”。描述条件关系的术语，例如，“响应于X、Y”、“在X、Y上”、“如果X、Y件”、“当X、Y时”等，包含因果关系，其中先决条件是必要的因果条件，先决条件是充分的因果条件，或先决条件是结果的辅助因果条件，例如，“状态X发生在条件Y获得时”与“X仅发生在Y上”和“X发生在Y和Z上”是通用的。这种条件关系并不限于先决条件获得后立即产生的结果，因为一些结果是延迟的，而在条件陈述中，先决条件与其结果相关联，例如，先决条件与结果发生的可能性相关。其中多个属性或函数映射到多个对象(例如，一个或多个处理器执行步骤A、B、C和D)的语句包括被映射到所有这些对象的所有这些属性或函数以及被映射到属性或函数的子集的属性或函数的子集(例如，所有处理器都执行每个步骤A-D，并且处理器1执行步骤A，处理器2执行步骤B和步骤C的一部分，以及处理器3执行步骤C和步骤D的一部分的情况)，除非另有说明。类似地，执行步骤A的“计算机系统”和执行步骤B的“计算机系统”的语句可以包括执行两个步骤的计算机系统内的相同计算设备或执行步骤A和B的计算机系统种的不同计算设备。此外，除非另有说明，否则一个值或动作“基于”另一个条件或值的语句既包括条件或值是唯一因素的实例，也包括条件或值是多个因素中的一个因素的实例。除非另有说明，否则一些集合的“每个”实例具有一些属性的语句不应被解读为排除较大集合中一些在其他方面相同或相似的成员不具有该属性的情况，即每个不一定意味着每个和每一个。除非明确指定，否则不应在权利要求中解读对所述步骤顺序的限制，例如，使用如“在执行X之后，执行Y”之类的明确语言，与可能被不恰当地认为暗示顺序限制的语句形成对比，如“在项目上执行X，在X项目上执行Y”，用于使权利要求书更具可读性而不是指定顺序。涉及“A、B和C中的至少Z”等(例如，“A、B或C中的至少Z”)语句，指的是所列的类别(A、B和C)中的至少Z，并且不要求每个类别中至少有Z个单位。除非另有明确说明，从讨论中可以明显看出，应当理解，在整个本说明书中，使用诸如“处理”、“计算”、“运算”、“确定”等术语的讨论是指特定装置的动作或过程，例如专用计算机或类似的专用电子处理/计算设备。参考几何结构描述的特征，如“平行”、“垂直/正交”、“方形”、“柱形”等，应被解释为包含基本上体现几何结构属性的项目，例如，参考“平行”表面包括基本上平行的表面。参考说明书中的范围来确定这些几何构造的所允许的偏离柏拉图式理想的范围，如果没有说明这些范围，则参考使用领域中的行业规范，如果没有定义这些范围，则参考指定特征制造领域中的行业规范，以及如果没有定义这些范围，则实质上体现几何构造的特征应被解释为包括在该几何构造的定义属性的15％内的那些特征。术语“第一”、“第二”、“第三”、“给定”等，如果在权利要求中使用，则用于区分或以其他方式识别，而不是显示顺序或数字限制。正如在该领域的普通使用中的情况一样，参考人类显著的用途所描述的数据结构和格式不需要以人类可理解的格式呈现以构成所描述的数据结构或格式，例如，文本不需要以Unicode或ASCII来呈现或甚至编码以构成文本；图像、地图和数据可视化不需要被显示或解码以分别构成图像、地图和数据可视化；语音、音乐和其他音频不需要通过扬声器发出或解码以分别构成语音、音乐或其他音频。计算机执行的指令、命令等不限于可执行代码，可以以导致功能被调用的数据形式执行，例如，以函数或API调用的参数形式执行。如果权利要求中使用了定制的名词短语(和其他创造的术语)，并且缺乏自明的结构，则这些短语的定义可以在权利要求本身中引用，在这种情况下，使用这些定制的名词短语不应被视为通过查看说明书或外在证据来施加附加限制的邀请。

在本专利中，在任何美国专利、美国专利申请或其他材料(例如文章)已通过引用的方式并入，则此类材料的文本仅在此类材料与本文陈述和附图之间不存在冲突的情况下通过引用的方式并入。在发生此类冲突的情况下，以本文件的文本为准，并且本文件中的术语不应因这些术语在通过引用并入的其他材料中使用的方式而被给予更狭隘的解读。

所公开的技术的示例性实施方式可包括但不限于：

1.一种计算机执行方法的实施方式，包括：通过计算系统，获得待由多个实体评估的多个特征；通过计算系统，选择特征以呈现给实体的第一子集；通过计算系统，接收用于该特征的多个第一分数和多个第一自然语言文本响应；通过计算系统，从用于特征的第一响应中选择特征和不同的第一响应子集，以呈现给实体的第二子集；通过计算系统接收用于特征的多个第二分数、多个第二自然语言文本响应，以及在第一子集中的相应子集中的响应的多个第一排序；通过计算系统，在非循环图内实例化与特征相对应的第一节点和与响应中的相应相应相对应的多个第二节点；通过计算系统，基于相应响应的自然语言文本之间的共享分类或确定距离，将第一节点通过非循环图内的第一边链接到多个第二节点中的每一个，并将至少一些第二节点通过非循环图内的第二边链接到其他第二节点；通过计算系统，为每个第一边确定基于与相应的第二节点相关联的一个或多个排名的边值；以及通过计算系统，更新对于基于非循环图的特征的第一个节点的特征分数，其中，特征分数是基于与第二个节点中的相应第二节点相关联的分数乘以其相应的第一边值的加权。

2.一种方法的实施方式，其中：多个特征对应于用于评估刺激的评估问题集。

3.一种方法的实施方式，例如实施方式2，其中：为其他评估问题中的每一个实例化多个第三节点，为刺激实例化第四节点，并且第四节点通过相应的边链接到第一节点和每个第三个节点。

4.一种方法的实施方式，例如实施方式3，还包括：通过计算系统，基于非循环图更新对于刺激的第四节点的分数，其中，第四节点的分数基于与第一节点和第三个节点中的相应节点相关联的特征分数的加权和。

5.一种方法的实施方式，其中：特征集是线性模型的特征，非循环图是由概率图形网络模型生成的，并且概率图形网络模型是在特征集上训练的机器学习模型。

6.一种方法的实施方式，其中：特征集包括10个以上的特征。

7.一种方法的实施方式，例如实施方式6，其中：对于至少一些特征中的每一个接收100个以上的响应。

8.一种方法的实施方式，例如实施方式7，其中：每个第一响应的子集包括从用于该特征的100个以上的响应中选择的10个或更少的响应。

9.一种方法的实施方式，例如实施方式8，还包括：基于子集内10个或更少的响应的排序来确定概率分布以评估响应集中的每个响应的性能；并基于性能的评估来确定针对特征接收的响应中的排序。

10.一种方法的实施方式，例如实施方式9，还包括：基于第二节点的排序来确定与第二节点相关联的第一边值。

11.一种方法的实施方式，其中，基于相应响应的自然语言文本之间的共享分类或确定距离，通过非循环图内的第二边将至少一些第二节点链接到其他第二节点，包括：基于第二节点的相应的自然语言文本来确定第二节点之间的成对距离。

12.一种方法的实施方式，例如实施方式11，还包括：响应于其对应的自然语言文本之间的成对距离低于指示语义相似性的阈值，将第二节点中的第一节点链接到第二节点中的另一个第二节点。

13.一种方法的实施方式，其中，基于相应响应的自然语言文本之间的共享分类或确定距离，通过非循环图内的第二边将至少一些第二节点链接到其他第二节点，包括：通过自然语言处理模型，为第二节点中的每一个确定至少一个主题分类；实例化一组第三节点，每个第三节点对应于确定的主题分类；以及基于至少一个主题分类，通过相应的第三边将第二节点中的每一个链接到至少一个第三节点。

14.一种方法的实施方式，例如实施方式13，还包括：基于主题分类分数确定用于第三边的边值。

15.一种方法的实施方式，例如实施方式13，还包括：基于第三节点的主题与第二节点对应的自然语言文本之间的距离来确定第三边的边值。

16.一种方法的实施方式，还包括：存储事件的时间序列数据集，该时间序列数据集包括每个分数、响应和排序事件，并保持事件的连续顺序的指示。

17.一种方法的实施方式，例如实施方式16，还包括：用于生成非循环图的多个状态的步骤。

18.一种方法的实施方式，例如实施方式16，还包括：在时间序列数据集中的至少1000个事件中的每一个事件之后更新非循环图的状态；对于该特征，获得与该非循环图的每个状态相对应的特征分数；以及生成用于显示的特征分数的值的趋势的指示。

19.一种方法的实施方式，还包括：在为特征集输出分数的线性模型中学习每个特征的权重的步骤。

20.一个有形、非暂时、机器可读的存储指令的介质的实施方式，当计算机系统执行这些指令时，根据上述实施方式1至19中的一个或多个执行操作。

21.一个包括一个或多个处理器和存储器的系统的实施方式，其中，系统的存储器是非暂时性机器可读介质并存储指令，当由一个或多个处理器执行时，该指令使该系统根据上述实施方式1至19中的一个或多个执行操作。

Claims

1.一种计算机执行的方法，包括：

通过计算系统，获得待由多个实体评估的多个特征；

通过计算系统，选择特征以呈现给所述实体的第一子集；

通过计算系统，接收用于所述特征的多个第一分数和多个第一自然语言文本响应；

通过计算系统，从用于所述特征的第一响应中选择所述特征和不同的第一响应的子集，以呈现给所述实体的第二子集；

通过计算系统，接收用于所述特征的多个第二分数、多个第二自然语言文本响应，以及在所述第一子集中的相应子集中的响应的多个第一排序；

通过计算系统，在非循环图内实例化与所述特征相对应的第一节点和与响应中的相应的响应相对应的多个第二节点；

通过计算系统，基于相应的响应的自然语言文本之间的共享分类或确定距离，将所述第一节点通过所述非循环图内的第一边链接到多个所述第二节点中的每一个，并将至少一些第二节点通过所述非循环图内的第二边链接到其他第二节点；

通过计算系统，对每个第一边确定基于与相应的第二节点相关联的一个或多个排名的边值；以及

通过计算系统，更新对于基于所述非循环图的所述特征的所述第一节点的特征分数，其中，所述特征分数是基于与所述第二节点中的相应第二节点相关联的分数乘以其相应的第一边值的加权。

2.根据权利要求1所述的方法，其中：

多个所述特征对应于用于评估刺激的评估问题集。

3.根据权利要求2所述的方法，其中：

对其他所述评估问题中的每一个实例化多个第三节点，

对所述刺激实例化第四节点，并且

所述第四节点通过相应的边链接到所述第一节点和每个所述第三节点。

4.根据权利要求3所述的方法，还包括：

通过计算系统，基于所述非循环图更新针对所述刺激的所述第四节点的分数，其中，所述第四节点的分数基于与所述第一节点和所述第三节点中的相应节点相关联的特征分数的加权和。

5.根据权利要求1所述的方法，其中：

特征集是线性模型的特征，

所述非循环图是由概率图形网络模型生成的，并且

所述概率图形网络模型是在所述特征集上训练的机器学习模型。

6.根据权利要求1所述的方法，其中：

特征集包括10个以上特征；

对于至少一些所述特征中的每一个接收100个以上的响应；并且

每个第一响应的子集包括从用于所述特征的100个以上的响应中选择的10个或更少的响应。

7.根据权利要求6所述的方法，还包括：

基于子集内的10个或更少的响应的排序来确定概率分布以评估响应集中的每个响应的性能；以及

基于所述性能的评估来确定针对所述特征接收的所述响应中的排序。

8.根据权利要求7所述的方法，还包括：

基于所述排序来确定与所述第二节点相关联的第一边值。

9.根据权利要求1至8中任一项所述的方法，其中，基于所述相应响应的所述自然语言文本之间的共享分类或确定距离，通过所述非循环图内的第二边将至少一些第二节点链接到其他第二节点，包括：

基于所述第二节点的相应的自然语言文本来确定所述第二节点之间的成对距离。

10.根据权利要求9所述的方法，还包括：

响应于其对应的自然语言文本之间的成对距离低于指示语义相似性的阈值，将所述第二节点中的第一第二节点链接到所述第二节点中的另一个第二节点。

11.根据权利要求1至8中任一项所述的方法，其中，基于所述相应响应的所述自然语言文本之间的共享分类或确定距离，通过所述非循环图内的第二边将至少一些第二节点链接到其他第二节点，包括：

通过自然语言处理模型，对所述第二节点中的每一个确定至少一个主题分类；

实例化一组第三节点，每个第三节点对应于确定的主题分类；以及

基于至少一个所述主题分类，通过相应的第三边将所述第二节点中的每一个链接到至少一个第三节点。

12.根据权利要求11所述的方法，还包括：

基于主题分类分数，确定用于第三边的边值。

13.根据权利要求11所述的方法，还包括：

基于第三节点的主题与第二节点对应的所述自然语言文本之间的距离来确定用于第三边的边值。

14.根据权利要求1至8中任一项所述的方法，还包括：

存储事件的时间序列数据集，所述时间序列数据集包括每个分数、响应和排序事件，并保持所述事件的序列顺序的指示；

在所述时间序列数据集中的至少1000个事件中的每一个事件之后更新所述非循环图的状态；

对于所述特征，获得与所述非循环图的每个状态相对应的特征分数；以及

生成用于显示的所述特征分数的值的趋势的指示。

15.一种存储指令的有形、非暂时、机器可读的介质，所述指令在由计算机系统执行时执行操作，所述操作包括：根据权利要求1至15中的任一项所述的方法。