CN113962275A

CN113962275A - 样本评估

Info

Publication number: CN113962275A
Application number: CN202010682346.XA
Authority: CN
Inventors: 毛绍光; 宋歌平; 夏炎; 田江森
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-01-21
Also published as: WO2022015404A1

Abstract

根据本公开的实现，提出了一种用于样本评估的方案。在该方案中，基于输入样本和参考样本集，生成一组比较结果。每个比较结果指示输入样本的目标属性优于参考样本集中的相应参考样本的目标属性的概率。然后，基于该组比较结果，从参考样本集中确定按照目标属性与输入样本相匹配的至少一个参考样本。基于至少一个参考样本关于目标属性的相应得分，确定输入样本关于目标属性的得分。以此方式，能够高效且准确地确定输入样本关于目标输入的得分，从而实现高效、准确和稳健的样本评估。

Description

样本评估

背景技术

在各种数据处理中，经常需要对样本的某一属性进行评估，并且评估的结果通常以数值或等级的方式呈现。由此，需要对样本进行评分。例如，在计算机辅助的语言学习中，可能需要评估来自用户的语音样本。可能需要对语音样本的口语流利度、发音准确度等进行评分。此外，在文本评估、年龄估计、信用评估等诸多应用场景中也存在类似的样本评估需求。

发明内容

根据本公开的实现，提出了一种用于样本评估的方案。在该方案中，基于输入样本和参考样本集，生成一组比较结果。每个比较结果指示输入样本的目标属性优于参考样本集中的相应参考样本的目标属性的概率。然后，基于该组比较结果，从参考样本集中确定按照目标属性与输入样本相匹配的至少一个参考样本。输入样本的目标属性与所确定的至少一个参考样本的目标属性接近或相似。基于至少一个参考样本关于目标属性的相应得分，确定输入样本关于目标属性的得分。该方案将得分预测问题转化为一系列较为简单的二元比较或二分类，即，输入样本与参考样本的优劣比较。一系列的二元比较有助于准确地找出目标属性与输入样本接近的参考样本。由此，可以确保基于参考样本的得分而确定的输入样本的得分的准确性。以此方式，能够实现更高效、准确和稳健的样本评估。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了根据本公开的实现的用于样本评估的系统的架构图；

图3示出了根据本公开的一些实现的训练阶段的框图；

图4示出了根据本公开的一些实现的推断阶段的框图；以及

图5示出了根据本公开的实现的用于样本评估的方法的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文所使用的，“神经网络”能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而延长网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。在本文中，术语“神经网络”、“网络”和“神经网络模型”可替换地使用。

如本文中所使用的，样本的“属性”是指样本在一个或多个特定方面所具有的性质或特征。样本的“目标属性”可以是针对样本评估的目的而选择的一个或多个属性或综合属性。因此，样本的“目标属性”可以根据样本评估的目的而不同。例如，在语言学习样本的评估中，“目标属性”可以包括但不限于口语流利度、发音准确度、语言熟练度等。在年龄估计中，“目标属性”可以是指与样本相对应的用户的年龄。在信用评估中，“目标属性”可以是指与样本相对应的用户的信用等级。

如上文所简述的，在诸多应用场景中存在样本评估需求，即，对样本的一个或多个属性进行评分。以语言学习应用场景为例，可能需要评估用户的语言学习样本。例如，可能需要针对口语流利度，对来自用户的语音样本(诸如，一段录音)进行评分。一种常见的针对口语流利度的评分方案是5点平均意见得分(MOS)，其中得分为1代表“极差”，得分为2代表“差”，得分为3代表“一般”，得分为4代表“良好”，得分为5代表“优秀”。又如，可能需要对来自用户的文本样本(诸如，一篇作文)进行评分。语言学习应用场景中对样本的这种评分通常涉及主观评估。

主观评估的结果受限于评估人，例如，专家。不同的评估人对同一样本可能做出不同、甚至差异较大的评估；同一评估人在不同时间对同一样本也可能做出不同的评估。这种主观评估通常需要多个评估人参与，因此需要花费较大的时间和人力成本。在线上语音学习场景中，这种主观评估也无法实时地向用户提供评估结果。

为了进行自动评估，需要一种定量且客观可衡量的评分方法。目前已经提出了不同的评分模型，例如多分类器、高斯模型等。在这些现有方案中，样本关于目标属性(例如，口语流利度)的不同得分是独立的，而这些不同得分间固有的有序性被忽略。另外，还提出了将得分视为数值的回归方法。然而，在这种方法中，训练不稳定的内核以进行回归具有挑战性，并且在训练中易于发生过拟合问题。

序数(ordinal)回归旨在根据经标记的样本来进行分类或预测数值，其中样本的标记展示出自然的排序。序数回归模型的训练需要经标记的样本，而样本的标记，即样本关于目标属性的得分，需要来自评估人的主观评估。因此，这种经标记的样本的数目通常较少，这不利于获得稳健且准确的序数回归模型。

有鉴于此，根据本公开的实现，提供了一种用于样本评估的方案，旨在解决上述问题以及其他潜在问题中的一个或多个。在该方案中，基于输入样本和参考样本集，生成一组比较结果。每个比较结果指示输入样本的目标属性优于参考样本集中的相应参考样本的目标属性的概率。然后，基于该组比较结果，从参考样本集中确定按照目标属性与输入样本相匹配的至少一个参考样本。输入样本的目标属性与所确定的至少一个参考样本的目标属性接近或相似。接下来，基于至少一个参考样本关于目标属性的相应得分，确定输入样本关于目标属性的得分。

对输入样本进行评分的过程原本涉及复杂的多分类或序数回归。在此提出的样本评估方案可以视为基于参考样本的序数回归，其将原本复杂的多分类或序数回归转化为一系列更简单的二元比较或二分类，即，输入样本与参考样本的比较。一系列的二元比较有助于准确地找出目标属性与输入样本接近的参考样本。由此，可以确保基于参考样本的得分而确定的输入样本的得分的准确性。以此方式，能够实现更高效、准确和稳健的样本评估。

以下进一步结合附图来详细描述该方案的各种示例实现。

示例环境

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括样本处理模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。样本处理模块122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们也可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多种实现中的样本评估。如图1所示，计算设备100可以通过输入设备150接收输入样本170。输入样本170通常与用户相关联。例如，在年龄估计应用场景中，输入样本170可以包括用户的脸部图像；在语言学习应用场景中，输入样本170可以包括由用户说出的一段语音，或由用户撰写的一段文本。

在一些实现中，输入样本170可以是原始数据，例如原始的语音数据、文本数据。在这种实现中，计算设备100可以对输入的原始数据进行预处理，以针对目标属性提取输入样本170的特征。在一些实现中，输入样本170可以是经预处理的数据。输入样本170可以包括基于原始数据针对目标属性提取的一个或多个特征。例如，如果要综合评估一篇文章或一段文章，所提取的特征可以包括但不限于平均句子长度、最短句子长度、最长句子长度、平均段落长度、最短段落长度、最长段落长度、字词数目、句子数目、段落数目、语法错误比率、拼写错误比率、一元/二元/三元语法概率等。

计算设备100处可以存储有参考样本集190。备选地或附加地，计算设备100可以从输入设备150或经由通信单元140接收参考样本集190。参考样本集190包括与输入样本170相同类型的多个参考样本。每个参考样本可以具有关于目标属性的得分，其在本文中也称为“预定得分”。参考样本的预定得分可以由评估人给出的，或基于评估人的评分而确定的。因此，参考样本可以被视为经标记的样本。与输入样本类似，参考样本可以是原始数据，也可以包括针对目标属性而提取的特征。

计算设备100可以实施本文中描述的用于样本评估的方案，来确定针对输入样本170的评估结果180。评估结果180可以以输入样本170关于目标属性的得分的形式呈现。例如，在上文提及的口语流利性示例中，评估结果180可以包括输入样本170关于口语流利性的得分，例如“1”、“2”、“3”、“4”、“5”这五个得分中的一个。备选地或附加地，评估结果也可以以输入样本170关于目标属性的等级的形式呈现。例如，评估结果180可以包括与“1”、“2”、“3”、“4”、“5”这五个得分相对应的等级“极差”、“差”、“一般”、“良好”、“优秀”中的一项。

尽管图1中仅示出了一个输入样本170，但是应当理解，计算设备100可以处理多个这样的输入样本。此外，尽管在图1的示例中，计算设备100从输入设备150接收输入样本170并且由输出设备160提供评估结果180，但这仅是示意性的而无意限制。计算设备100还可以经由通信单元140从其他设备(未示出)接收输入样本170，和/或经由通信单元140对外提供评估结果180。

系统架构

图2示出了根据本公开的实现的用于样本评估的系统200的架构图。系统200可以被实现在图1的计算设备100中。例如，在一些实现中，系统200可以被实现为图1的计算设备100的样本处理模块122的至少一部分，也即，被实现为计算机程序模块。如图2所示，系统200总体上可以包括训练子系统210和推断子系统220。应当理解，仅出于示例性的目的描述系统200的结构和功能而不是暗示对于本公开的范围的任何限制。本公开的实现也可以被实施在不同的结构和/或功能中。

总体上，根据本公开的实现的样本评估方案可以分为两个阶段：训练阶段和推断阶段。在训练阶段中，训练子系统210可以接收训练样本集230，并且基于训练样本集230来训练用于样本评估的分类器250。

训练样本集230可以包括与输入样本170相同类型的多个训练样本。每个训练样本可以具有关于目标属性的得分。训练样本的得分可以由评估人预先给出的，或基于评估人的评分而确定的。因此，训练样本也可以被视为经标记的样本。

在一些实现中，每个训练样本可以包括原始数据，例如语音数据、文本数据。在这种实现中，训练子系统210可以包括特征提取模块，以用于针对目标属性提取训练样本的一个或多个特征。在一些实现中，每个训练样本可以是经处理的数据，其包括基于原始数据针对目标属性提取的一个或多个特征。

经训练的分类器250可以预测两个样本在目标属性方面的相对水平。换言之，经训练的分类器250可以确定两个样本中的一个样本的目标属性优于另一样本的目标属性的概率。例如，经训练的分类器250可以给出一个语音样本在口语流利度方面优于另一语音样本的概率。

可以利用任何合适的模型来实现分类器250。例如，分类器250可以是基于神经网络的二分类器。该神经网络可以采用任何合适的网络结构。又如，分类器250可以是基于支持向量机的分类器。本公开的范围在此方面不受限制。

在推断阶段中，推断子系统220可以接收经训练的分类器250、参考样本集190和输入样本170。推断子系统220可以利用经训练的分类器250，基于参考样本集190来确定输入样本170关于目标属性的得分。

可以基于训练样本集230来确定参考样本集190。在这种实现中，可以充分利用经标记的样本。在一些实现中，参考样本集190可以包括训练样本集230中的所有训练样本。在这种实现中，参考样本的分布是训练样本的分布，其更接近真实得分分布。因此，在推断阶段中，输入样本170与更接近真实得分分布的各个参考样本进行比较。这有助于定位出在目标属性方面与输入样本170更接近的参考样本，从而更准确地确定输入样本的得分。在另一些实现中，参考样本集190可以包括训练样本集230中的一部分训练样本。下文将详细描述如何从训练样本集230中确定参考样本。

备选地，参考样本集190也可以独立于训练样本集230。尽管参考样本与训练样本具有相同类型，但参考样本可以是独立于训练样本而获得的。例如，参考样本和训练样本可以与不同的用户相关联。

下面将分别参考图3和图4描述训练阶段和推断阶段的示例过程。

训练阶段

以上描述了用于样本评估的系统200的总体架构。下面将描述由训练子系统210实施的训练阶段的一些实现。图3示出了根据本公开的一些实现的训练阶段的框图300。以下将以神经网络作为示例描述分类器250的训练，但这仅是示例性的而无意限制本公开的范围。

在训练阶段，训练子系统210基于训练样本集230，生成多个训练样本对311、312、……、31N，其中N为自然数。多个训练样本对311、312、……、31N可以构成训练样本对的集合，以下简称为“训练对集310”。每个训练样本对包括两个训练样本。如图3所示，训练样本对311包括训练样本311-1和311-2，训练样本对312包括训练样本312-1和312-2，训练样本对31N包括训练样本31N-1和31N-2。

训练样本311-1、312-1、……、31N-1可以统称或单独称为第一训练样本，并且训练样本311-2、312-2、……、31N-2可以统称或单独称为第二训练样本。第一训练样本关于目标属性可以具有第一得分，并且第二训练样本关于目标属性可以具有第二得分。应当理解，第一得分和第二得分可以相同或不同。

然后，训练子系统210可以利用多个训练样本对311、312、……、31N来训练分类器250。经训练的分类器250基于第一训练样本和第二训练样本生成的比较结果符合第一得分与第二得分的相对水平。换言之，经训练的分类器250对第一训练样本的目标属性是否优于第二训练样本的目标属性的判断符合第一得分与第二得分的相对水平。

通过将训练样本组合成训练样本对实际上扩充了用于训练分类器250的训练样本集。另外，训练样本的得分通常是由评估人给出的主观评估。如上文所提及的，这种主观评估受限于评估人。因此，训练样本的得分很可能存在不均衡分布问题，这给针对样本评估的建模带来了负面影响。根据本公开的这种组合的训练样本对可以减轻这种负面影响。

下面详细描述利用训练样本集230来训练分类器250的示例过程。假设，用矢量x_i∈X来表示训练样本集230中的第i个训练样本的特征，并且用y_i∈Y＝{r₁，r₂，...，r_k}来表示第i个训练样本的得分，其中r_K＞r_K-1＞···＞r₁并且符号＞表示不同得分r_k之间的相对水平。用

来表示具有N_X个训练样本的训练样本集230。

在一些实现中，训练子系统210可以将训练样本集230中的任意两个训练样本组合成训练对集310中的训练样本对。在这种实现中，训练对集310可以被表示为

其中第一训练样本(x_i，y_i)和第二训练样本(x_j，y_j)均属于训练样本集X。用于训练分类器250的标记z_j表示y_i是否大于y_j，并且可以由下式表示：

接下来，训练子系统210可以利用训练对集

中的各个训练样本对来训练分类器250，以比较训练样本对中的哪个训练样本关于目标属性更优。

在另一些实现中，训练子系统210可以首先从训练样本集230中选择多个锚定(anchored)样本，以形成锚定样本集。例如，可以按照训练样本集230中训练样本关于目标属性的得分，将训练样本集230划分成多组训练样本(例如，桶)。每组训练样本关于目标属性的得分相同。然后，可以从每组训练样本中选择一定数目的训练样本作为锚定样本。例如，在口语流利性的示例中，训练样本集230可以被划分为分别对应于得分“1”、“2”、“3”、“4”、“5”的五个组或五个桶。然后，从每个桶中选择(例如，随机选择)一定数目的训练样本作为锚定样本。

接下来，训练子系统210可以将锚定样本集中的锚定样本与训练样本集230中的训练样本组合成训练样本对。以此方式，可以生成用于训练分类器250的训练对集310。

给定训练样本集

针对每个得分r_k(k＝1，..，K)，训练子系统210可以随机地选择y＝r_k的N_A个训练样本(x_i，y_i)作为锚定样本，以形成锚定样本集A。训练子系统210可以确定具有N_D个训练样本的训练样本子集D。训练样本子集D与锚定样本集A可以不具有交集。例如，训练样本子集D可以包括训练样本集230中除锚定样本以外的剩余训练样本。备选地，训练样本子集D与锚定样本集A可以具有交集。例如，训练样本子集D可以包括训练样本集230的所有训练样本。

在这种情况下，具有N_D个训练样本的训练样本子集D可以被表示为

并且锚定样本集A可以被表示为

其中N_A是每个得分的锚定样本的数目，K是得分的总数目。由此，可以基于训练样本子集D与锚定样本集A之间的笛卡尔乘积来生成训练对集

在该训练对集P中，第一训练样本(x_j，y_j)属于训练样本子集D，并且第二训练样本

属于锚定样本集A。用于训练分类器250的标记

表示y_j是否大于r_k，并且可以由下式表示：

接下来，训练子系统210可以利用训练对集

推断阶段

以上描述了训练阶段的一些实现。经训练的分类器250可以由推断子系统220使用来确定输入样本170的得分。图4示出了根据本公开的一些实现的推断阶段的框图400。

在推断阶段中，推断子系统220基于输入样本170和参考样本集190，生成一组比较结果。在下文中，用B来表示参考样本集190。如上文参考图2所提及的，在一些实现中，参考样本集190可以包括训练样本集230中的所有训练样本。也即，在这种实现中，B＝X。

在另一些实现中，参考样本集190可以包括训练样本集230中的一部分训练样本。也即，在这种实现中，B是X的子集。作为示例，在在线评估场景中，可能需要实时且快速地提供评估结果180。如果训练样本集230中的训练样本数目较大且计算设备100的计算能力有限，则可以选择训练样本集230的一部分作为参考样本集190。例如，参考样本集190可以是上文所描述的锚定样本集A。应当理解的是，即使在训练阶段没有使用锚定样本集A，也可以通过上文所描述的生成锚定样本集A的方法来从训练样本集230生成参考样本集190。

在图4的示例中，参考样本集190可以包括多个参考样本410-1、410-2、……、410-M，其可以统称或单独称为参考样本410，其中M为自然数。推断子系统220可以将输入样本170与每个参考样本410组合成相应的输入-参考样本对。图4示出了由输入-参考样本对411、412、……、41M。

推断子系统220分别将输入-参考样本对411、412、……、41M输入到经训练的分类器250。分类器250可以生成相应的比较结果420-1、420-2、…….、420-M，其可以统称或单独称为比较结果420。

每个比较结果420指示输入样本170的目标属性优于参考样本集190中的相应参考样本410的目标属性的概率。比较结果420可以以任何合适的方式来指示输入样本170的目标属性优于相应参考样本410的目标属性的概率。例如，比较结果420可以包括输入样本170的目标属性优于相应参考样本410的目标属性的概率。又如，比较结果可以包括输入样本170的目标属性不优于(或劣于)相应参考样本410的目标属性的概率。

在一些实现中，由比较结果420所指示的概率可以是由分类器250输出的二元取值的硬决策。例如，在这种实现中，取值为1的概率可以表示输入样本170的目标属性优于相应参考样本410的目标属性；而取值为0的概率可以表示输入样本170目标属性不优于相应参考样本410的目标属性。

在一些实现中，由比较结果420所指示的概率可以是由分类器250输出的软决策，例如由分类器250估计的后验概率。在这种实现中，由比较结果420所指示的概率的大小可以表示输入样本170的目标属性优于相应参考样本410的目标属性的置信度。在使用硬决策作为比较结果420的实现中，可能出现累积量化误差，而累积量化误差又可能导致最终评估结果的准确性的下降。利用由分类器250估计的后验概率可以有效减轻这种累积量化误差，因此有助于实现准确的样本评估。

用x′来表示输入样本170的特征，用y′来表示输入样本170关于目标属性的预测得分，用a_i来表示参考样本集190中的第i个参考样本的特征，用

来表示第i个参考样本关于目标属性的得分。那么，利用经训练的分类器250，基于输入样本的特征x′和第i个参考样本的特征a_i，可以生成第i个比较结果：

其中a_i∈B。因此，在这种实现中，F(x′，a_i)可以被定义为用于实现分类器250的神经网络的最后一层中的柔性最大传输函数。

继续参考图4。推断子系统220基于该组比较结果420-1、420-2、.......、420-M，从参考样本集190中确定按照目标属性与输入样本170相匹配的至少一个参考样本。所确定的至少一个参考样本在本文中也称为“目标参考样本”，如图4中所示的目标参考样本430。目标参考样本430在目标属性空间与输入样本接近或相似。例如，目标参考样本430可以是在目标属性空间中与输入样本最接近的参考样本。例如，在语言学习应用场景中，相较于参考样本集190中的其他参考样本，目标参考样本430在口语流利度方面可以与输入样本170最为接近。接下来，推断子系统220可以基于目标参考样本430关于目标属性的得分，确定输入样本170关于目标属性的得分，从而提供评估结果180。

可以采用多种方式来基于比较结果420确定目标参考样本430。在一些实现中，可以基于比较结果420所指示的概率的值来从参考样本集190中确定目标参考样本430。例如，在比较结果420包括由分类器250输出的后验概率(例如，式(3))的实现中，可以确定后验概率等于或接近预定阈值的比较结果，并将与这种比较结果相对应的参考样本410确定为目标参考样本430。可以根据分类器250的具体实现来确定该预定阈值，例如为0.5。如果比较结果420-2所包括的后验概率等于预定阈值或者与预定阈值的差在一定范围内，则可以将参考样本410-2确定为目标参考样本430。在这种实现中，如果仅存在一个目标参考样本430，推断子系统220可以将目标参考样本430关于目标属性的得分，确定为输入样本170关于目标属性的得分。如果存在多个目标参考样本430，推断子系统220可以将多个目标参考样本430关于目标属性的得分的加权平均，确定为输入样本170关于目标属性的得分。

在一些实现中，可以通过排名的方法来从参考样本集190中确定目标参考样本430。例如，推断子系统220可以基于比较结果420，按照目标属性对输入样本170和参考样本集190中的参考样本410进行排名。然后，推断子系统220可以基于排名的结果，确定目标参考样本430。

由于参考样本集190中的参考样本410关于目标属性具有预定得分，例如由评估人给出的得分，因此，参考样本集190中的参考样本410可以具有根据预定得分的预定排名。在这种实现中，对输入样本170和参考样本410进行排名可以被实现为预测输入样本170按照目标属性相对于有序的参考样本410的排名位置。例如，可以将比较结果420-1、420-2、…….、420-M所指示的概率相加。相加的结果可以对应于输入样本170的预测排名。参考样本集190中预定排名对应于该预测排名的参考样本可以被确定为目标参考样本430。

继续上文式(3)的示例。特征表示为x′的输入样本相对于有序的参考样本410的预测排名r(x′)可以由下式表达：

在一些实现中，可以对预测排名r(x′)进行取整。参考样本集190中预定排名对应于取整后的预测排名r(x′)的参考样本(其又称为“第一参考样本”)可以被确定为目标参考样本430。相应地，该目标参考样本430关于目标属性的得分可以被确定为输入样本170关于目标属性的得分。即，特征表示为x′的输入样本关于目标属性的得分s(x′)可以由下式表达：

s(x′)＝s(a_r(x′)) (5)。

在一些实现中，可以将参考样本集190中预定排名在预测排名r(x′)之前的参考样本(其又称为“第二参考样本”)和预定排名在预测排名r(x′)之后的参考样本(其又称为“第三参考样本”)确定为目标参考样本430。然后，可以通过加权第二参考样本和第三参考样本关于目标属性的相应得分，确定输入样本170关于目标属性的得分。例如，加权的系数可以基于预测排名r(x′)的值来确定。在这种实现中，通过对多个参考样本的得分进行加权，可以获得更细粒度的输入样本170的得分。

以上描述了根据本公开的一些实现的推断过程。在这些实现中，利用输入样本与参考样本的一系列比较结果，可以确定参考样本集中目标属性与输入样本接近或相似的参考样本。然后，可以基于这样的参考样本的得分来确定输入样本的得分。可见，参考样本集中的参考样本实际上起到了锚点的作用，这样的锚点用于按照目标属性来定位输入样本。这使得所确定的输入样本关于目标属性的得分是准确且稳健的。以此方式，本公开的方案能够在较少的训练样本的情况下实现与人工标记接近的较高的相关性和较小的平均绝对误差。

在确定输入样本170关于目标属性的得分后，在不同的应用场景中，还可以基于该得分进行进一步处理。例如，在语言学习场景中，可以基于该得分向用户推荐与该得分相匹配的课程。在信用评级场景中，可以基于该得分向用户推荐与该得分相匹配的服务。

此外，还可以利用本公开的样本评估方案确定输入样本170关于不同属性(可以被视为不同维度)的多个得分。还可以确定与不同用户相关联的多个输入样本关于(多个)目标属性的多个得分。然后，可以基于该多个得分对多个输入样本进行聚类。以此方式，可以认为与同一簇中的多个输入样本相关联的用户在(多个)目标属性方面最接近。例如，在语言学习或其他教学场景中，这样的用户可以被划分为同一组或同一班级。

在一些情况下，输入样本170和由推断子系统220确定的输入样本170的得分可以被添加至训练样本集230，以更新分类器250。例如，如果由推断子系统220确定的输入样本170的得分经人工评定是准确的，则输入样本170及其得分可以用于进一步训练分类器250。备选地或附加地，输入样本170及其得分还可以被添加至参考样本集190。

示例方法和示例实现

图5示出了根据本公开一些实现的用于样本评估的方法500的流程图。方法500可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的样本处理模块122处。

如图5所示，在框510处，计算设备100基于输入样本和参考样本集，生成一组比较结果。每个比较结果指示输入样本的目标属性优于参考样本集中的相应参考样本的目标属性的概率。在框520处，计算设备100基于一组比较结果，从参考样本集中确定按照目标属性与输入样本相匹配的至少一个参考样本。输入样本的目标属性与至少一个参考样本的目标属性接近。在框530处，计算设备100基于至少一个参考样本关于目标属性的相应得分，确定输入样本关于目标属性的得分。

在一些实现中，从参考样本集中确定至少一个参考样本包括：基于一组比较结果，按照目标属性对输入样本和参考样本集中的参考样本进行排名；以及基于排名的结果，确定至少一个参考样本。

在一些实现中，基于排名的结果确定至少一个参考样本包括：将参考样本集中与输入样本排名相同的第一参考样本确定为至少一个参考样本。确定输入样本关于目标属性的得分包括：基于第一参考样本关于目标属性的得分，确定输入样本关于目标属性的得分。

在一些实现中，基于排名的结果确定至少一个参考样本包括：将参考样本集中排名在输入样本之前的第二参考样本和排名在输入样本之后的第三参考样本确定为至少一个参考样本。确定输入样本关于目标属性的得分包括：通过加权第二参考样本和第三参考样本关于目标属性的相应得分，确定输入样本关于目标属性的得分。

在一些实现中，生成一组比较结果包括：利用经训练的分类器，基于输入样本与参考样本集中的第四参考样本，生成针对第四参考样本的比较结果，比较结果指示输入样本的目标属性优于第四参考样本的目标属性的概率。

在一些实现中，方法500还包括：基于训练样本集，生成多个训练样本对，多个训练样本对之一包括关于目标属性具有第一得分的第一训练样本和关于目标属性具有第二得分的第二训练样本；以及利用多个训练样本对，训练分类器，使得经训练的分类器基于第一训练样本和第二训练样本生成的比较结果符合第一得分与第二得分的相对水平。

在一些实现中，方法500还包括:基于训练样本集来确定参考样本集。

在一些实现中，基于训练样本集来确定参考样本集包括：按照训练样本集中的训练样本关于目标属性的得分，将训练样本集划分成多组训练样本；以及从多组训练样本中的每组训练样本中，选择参考样本集中的参考样本。

基于以上描述能够看出，根据本公开的实现的样本评估方案将得分预测问题转化为一系列较为简单的二元比较或二分类，即，输入样本与参考样本的优劣比较。一系列的二元比较有助于准确地找出按照目标属性与输入样本接近的参考样本。由此，可以确保基于参考样本的得分而确定的输入样本的得分的准确性。以此方式，能够实现更高效、准确和稳健的样本评估。

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种计算机实现的方法。所述方法包括：基于输入样本和参考样本集，生成一组比较结果，所述一组比较结果中的每个比较结果指示所述输入样本的目标属性优于所述参考样本集中的相应参考样本的所述目标属性的概率；基于所述一组比较结果，从所述参考样本集中确定按照所述目标属性与所述输入样本相匹配的至少一个参考样本；以及基于所述至少一个参考样本关于所述目标属性的相应得分，确定所述输入样本关于所述目标属性的得分。

在一些实现中，从所述参考样本集中确定所述至少一个参考样本包括：基于所述一组比较结果，按照所述目标属性对所述输入样本和所述参考样本集中的参考样本进行排名；以及基于所述排名的结果，确定所述至少一个参考样本。

在一些实现中，基于所述排名的结果确定所述至少一个参考样本包括：将所述参考样本集中与所述输入样本排名相同的第一参考样本确定为所述至少一个参考样本。确定所述输入样本关于所述目标属性的得分包括：基于所述第一参考样本关于所述目标属性的得分，确定所述输入样本关于所述目标属性的得分。

在一些实现中，基于所述排名的结果确定所述至少一个参考样本包括：将所述参考样本集中排名在所述输入样本之前的第二参考样本和排名在所述输入样本之后的第三参考样本确定为所述至少一个参考样本。确定所述输入样本关于所述目标属性的得分包括：通过加权所述第二参考样本和所述第三参考样本关于所述目标属性的相应得分，确定所述输入样本关于所述目标属性的得分。

在一些实现中，生成所述一组比较结果包括：利用经训练的分类器，基于所述输入样本与所述参考样本集中的第四参考样本，生成针对所述第四参考样本的比较结果，所述比较结果指示所述输入样本的所述目标属性优于所述第四参考样本的所述目标属性的概率。

在一些实现中，该方法还包括：基于训练样本集，生成多个训练样本对，所述多个训练样本对之一包括关于所述目标属性具有第一得分的第一训练样本和关于所述目标属性具有第二得分的第二训练样本；以及利用所述多个训练样本对，训练所述分类器，使得经训练的所述分类器基于所述第一训练样本和所述第二训练样本生成的比较结果符合所述第一得分与所述第二得分的相对水平。

在一些实现中，该方法还包括:基于所述训练样本集来确定所述参考样本集。

在一些实现中，基于所述训练样本集来确定所述参考样本集包括：按照所述训练样本集中的训练样本关于所述目标属性的得分，将所述训练样本集划分成多组训练样本；以及从所述多组训练样本中的每组训练样本中，选择所述参考样本集中的参考样本。

在另一方面，本公开提供了一种电子设备。所述电子设备包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：基于输入样本和参考样本集，生成一组比较结果，所述一组比较结果中的每个比较结果指示所述输入样本的目标属性优于所述参考样本集中的相应参考样本的所述目标属性的概率；基于所述一组比较结果，从所述参考样本集中确定按照所述目标属性与所述输入样本相匹配的至少一个参考样本；以及基于所述至少一个参考样本关于所述目标属性的相应得分，确定所述输入样本关于所述目标属性的得分。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备执行上述方面的方法。

在又一方面，本公开提供了一种计算机可读介质，其上存储有机器可执行指令，机器可执行指令在由设备执行时使设备执行上述方面的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实现的方法，包括：

基于输入样本和参考样本集，生成一组比较结果，所述一组比较结果中的每个比较结果指示所述输入样本的目标属性优于所述参考样本集中的相应参考样本的所述目标属性的概率；

基于所述一组比较结果，从所述参考样本集中确定按照所述目标属性与所述输入样本相匹配的至少一个参考样本；以及

基于所述至少一个参考样本关于所述目标属性的相应得分，确定所述输入样本关于所述目标属性的得分。

2.根据权利要求1所述的方法，其中从所述参考样本集中确定所述至少一个参考样本包括：

基于所述一组比较结果，按照所述目标属性对所述输入样本和所述参考样本集中的参考样本进行排名；以及

基于所述排名的结果，确定所述至少一个参考样本。

3.根据权利要求2所述的方法，其中基于所述排名的结果确定所述至少一个参考样本包括：

将所述参考样本集中与所述输入样本排名相同的第一参考样本确定为所述至少一个参考样本，并且

其中确定所述输入样本关于所述目标属性的得分包括：

基于所述第一参考样本关于所述目标属性的得分，确定所述输入样本关于所述目标属性的得分。

4.根据权利要求2所述的方法，其中基于所述排名的结果确定所述至少一个参考样本包括：

将所述参考样本集中排名在所述输入样本之前的第二参考样本和排名在所述输入样本之后的第三参考样本确定为所述至少一个参考样本，并且

其中确定所述输入样本关于所述目标属性的得分包括：

通过加权所述第二参考样本和所述第三参考样本关于所述目标属性的相应得分，确定所述输入样本关于所述目标属性的得分。

5.根据权利要求1所述的方法，其中生成所述一组比较结果包括：

利用经训练的分类器，基于所述输入样本与所述参考样本集中的第四参考样本，生成针对所述第四参考样本的比较结果，所述比较结果指示所述输入样本的所述目标属性优于所述第四参考样本的所述目标属性的概率。

6.根据权利要求5所述的方法，还包括：

基于训练样本集，生成多个训练样本对，所述多个训练样本对之一包括关于所述目标属性具有第一得分的第一训练样本和关于所述目标属性具有第二得分的第二训练样本；以及

利用所述多个训练样本对，训练所述分类器，使得经训练的所述分类器基于所述第一训练样本和所述第二训练样本生成的比较结果符合所述第一得分与所述第二得分的相对水平。

7.根据权利要求6所述的方法，还包括:

基于所述训练样本集来确定所述参考样本集。

8.根据权利要求7所述的方法，其中基于所述训练样本集来确定所述参考样本集包括：

按照所述训练样本集中的训练样本关于所述目标属性的得分，将所述训练样本集划分成多组训练样本；以及

从所述多组训练样本中的每组训练样本中，选择所述参考样本集中的参考样本。

9.一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：

10.根据权利要求9所述的设备，其中从所述参考样本集中确定所述至少一个参考样本包括：

基于所述排名的结果，确定所述至少一个参考样本。

11.根据权利要求10所述的设备，其中基于所述排名的结果确定所述至少一个参考样本包括：

其中确定所述输入样本关于所述目标属性的得分包括：

12.根据权利要求10所述的设备，其中基于所述排名的结果确定所述至少一个参考样本包括：

其中确定所述输入样本关于所述目标属性的得分包括：

13.根据权利要求9所述的设备，其中生成所述一组比较结果包括：

14.根据权利要求13所述的设备，还包括：

15.根据权利要求14所述的设备，还包括:

基于所述训练样本集来确定所述参考样本集。

16.根据权利要求15所述的设备，其中基于所述训练样本集来确定所述参考样本集包括：

17.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行动作，所述动作包括：

18.根据权利要求17所述的计算机程序产品，其中从所述参考样本集中确定所述至少一个参考样本包括：

基于所述排名的结果，确定所述至少一个参考样本。

19.根据权利要求18所述的计算机程序产品，其中基于所述排名的结果确定所述至少一个参考样本包括：

其中确定所述输入样本关于所述目标属性的得分包括：

20.根据权利要求18所述的计算机程序产品，其中基于所述排名的结果确定所述至少一个参考样本包括：

其中确定所述输入样本关于所述目标属性的得分包括：