CN113298337A

CN113298337A - 一种质量评价方法和装置

Info

Publication number: CN113298337A
Application number: CN202011117731.6A
Authority: CN
Inventors: 李静
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-08-24

Abstract

公开了一种质量评价方法和装置。基于针对多个激励的配对比较综合结果，获得多个激励各自的质量分布数据。质量分布数据包括质量分数分布的方差和方差的估计误差。基于质量分布数据，分别计算多个激励对的期望信息增益，其中每个激励对包括多个激励中两个不同的激励。基于期望信息增益，从多个激励对中选择用于进行本轮次配对比较的激励对。由此，能够获得更为准确的期望信息增益，便于选择能够提供更多信息的激励对来进行接下来的配对比较实验。

Description

一种质量评价方法和装置

技术领域

本公开涉及一种质量评价方法和装置，特别涉及一种数据对象的质量评价方法和装置。

背景技术

目前，在诸如多媒体视觉感知等方面的各种质量评价实验中，最常用的方法为绝对分类评分(ACR，Absolute Categorical Rating)方案，让实验人员(或称为“观测者”)使用李克特量表(Likert scale)，选择1-5分来对评价对象进行打分评价。1代表非常差，2代表差，3代表中，4代表好，5 代表非常好。

然而，在某些情况下(例如VR视频的视觉疲劳，AR视频的自然度， HDR视频的质量)，视觉感知的评价很难用李克特量表(Likert-scale)，即， 1-5分来打分评价。这是因为观测者对于打分概念可能会非常模糊。这样， ACR方案对于观测者而言较为困难，相应地，评价结果也较不精确。

在这种情况下，可以使用配对比较法(pair comparison)来实现这种困难的实验。每次实验中，观测者对评价对象进行两两比较，从一对评价对象中选出符合要求的评价对象。例如，在视频质量评价实验中，要求观测者每次观看两个视频，从中选出质量好的那一个。

对于观测者而言，与在没有比较对象的情况下对单独某个评价对象进行ACR评分相比，在两个类似评价对象之间选择更好的一个要更加容易一些，甚至可以说是容易得多。这样，使用配对比较法可以显著降低实验难度，获得更准确的结果。

然而，在实际应用中，配对比较法最大的问题在于其时间复杂度为 N²，即，需要对所有评价对象能够两两组成的每一个评价对象对都进行对比评价。如果需要评价的视频数量巨大，例如1000个，则每个实验人员需要对1000×999/2＝499500个视频对进行比较。

因此，期望能够降低配对比较过程的时间复杂度而保持较高的实验精度。

发明内容

本公开要解决的一个技术问题是提供一种质量评价方案，其能够降低配对比较过程的时间复杂度而保持较高的实验精度。

根据本公开的第一个方面，提供了一种质量评价方法，包括：基于针对多个激励的配对比较综合结果，获得多个激励各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差；基于质量分布数据，分别确定至少一个激励对的期望信息增益，其中激励对包括多个激励中两个不同的激励；以及基于期望信息增益，从至少一个激励对中选择用于进行本轮次配对比较的激励对。

可选地，质量分布数据还包括质量分数分布的均值和均值的估计误差，分别确定多个激励对的期望信息增益的步骤包括：基于均值和均值的估计误差，计算激励对的第一期望信息增益；基于方差和方差的估计误差，确定激励对的第二期望信息增益；以及基于第一期望信息增益和第二期望信息增益，确定激励对的期望信息增益。

可选地，以多个激励各自的质量分布的均值或方差为统计值，基于多个激励各自的统计值确定激励对的第一或第二期望信息增益的步骤包括：基于统计值和统计值的方差，确定激励对中两个激励的统计值之差的先验分布数据，即统计值之差的差均值和差均值的协方差矩阵；以及基于差均值和差均值的协方差矩阵，确定激励对的第一或第二期望信息增益。

可选地，基于差均值和差均值的估计误差确定激励对的第一或第二期望信息增益的步骤包括：确定激励对中两个激励的统计值之差的先验分布数据和后验分布数据之间的库尔贝克·莱布勒散度(KLD)，作为激励对的第一或第二期望信息增益。

可选地，该方法还可以包括：获取本轮次针对所选激励对进行配对比较而得到的本轮次配对比较结果；对配对比较综合结果和本轮次配对比较结果进行融合，得到更新后的配对比较综合结果，以用于下一轮次的配对比较过程中期望信息增益的确定。

可选地，该方法还可以包括：重复获得多个激励各自的质量分布数据的步骤、分别确定多个激励对的期望信息增益的步骤、选择用于进行本轮次配对比较的激励对的步骤、获取本轮次配对比较结果的步骤、融合配对比较综合结果和本轮次配对比较结果的步骤，直到满足配对比较结束条件。

可选地，该方法还可以包括：在满足配对比较结束条件，结束配对比较之后，使用配对比较模型对融合获得的最终配对比较结果进行数据分析，转换得到多个激励各自的质量分数。

可选地，获得多个激励各自的质量分布数据的步骤包括：将配对比较综合结果输入到瑟斯顿模型III中，获得多个激励各自的质量分布数据。

可选地，该方法还可以包括：基于多个激励中至少两个激励的已有评价数据，进行数据转换得到针对多个激励的初始的配对比较综合结果；以及/或者融合先前由多个观测者和/或多种评价模型和/或通过多种方式分别获得的针对多个激励的配对比较结果，得到配对比较综合结果。

可选地，该方法还可以包括：输出至少一个激励对的期望信息增益，接收第一指令并响应于第一指令对期望信息增益进行确认和/或调整；以及 /或者输出所选择的激励对的信息，接收第二指令并响应于第二指令对所选择的激励对进行确认和/或调整。

根据本公开的第二个方面，提供了一种数据对象质量评价方法，包括：基于针对多个激励的配对比较综合结果，获得多个激励各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差；基于质量分布数据，确定激励对的期望信息增益，其中激励对包括多个激励中两个不同的激励；以及基于期望信息增益，从多个激励对中选择用于进行本轮次配对比较的激励对。

根据本公开的第三个方面，提供了一种人员评价方法，包括：基于针对多个人员的配对比较综合结果，获得多个人员各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差；基于质量分布数据，分别确定至少一个人员对的期望信息增益，其中人员对包括多个人员中两个不同的人员；以及基于期望信息增益，从至少一个人员对中选择用于进行本轮次配对比较的人员对。

根据本公开的第四个方面，提供了一种评分方法，用于对人员作出的多个评分对象进行评分，包括：基于针对多个评分对象的配对比较综合结果，获得多个评分对象各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差；基于质量分布数据，分别确定至少一个评分对象对的期望信息增益，其中评分对象对包括多个评分对象中两个不同的评分对象；以及基于期望信息增益，从至少一个评分对象对中选择用于进行本轮次配对比较的评分对象对。

根据本公开的第五个方面，提供了一种商品评价方法，包括：基于针对多个商品的配对比较综合结果，获得多个商品各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差；基于质量分布数据，分别确定至少一个商品对的期望信息增益，其中商品对包括多个商品中两个不同的商品；以及基于期望信息增益，从至少一个商品对中选择用于进行本轮次配对比较的商品对。

根据本公开的第六个方面，提供了一种质量评价装置，包括：质量分布数据确定装置，基于针对多个激励的配对比较综合结果，获得多个激励各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差；期望信息增益确定装置，基于质量分布数据，分别确定至少一个激励对的期望信息增益，其中激励对包括多个激励中两个不同的激励；以及激励对选择装置，基于期望信息增益，从至少一个激励对中选择用于进行下一次配对比较的激励对。

可选地，质量分布数据还包括质量分数分布的均值和均值的估计误差，其中，期望信息增益确定装置包括：第一确定装置，基于均值和均值的估计误差，确定激励对的第一期望信息增益；第二确定装置，基于方差和方差的估计误差，确定激励对的第二期望信息增益；以及综合确定装置，基于第一期望信息增益和第二期望信息增益，确定激励对的期望信息增益。

可选地，该装置还可以包括：本轮结果获取装置，用于获取本轮次针对所选激励对进行配对比较而得到的本轮次配对比较结果；更新装置，用于对配对比较综合结果和本轮次配对比较结果进行融合，得到更新后的配对比较综合结果。

根据本公开的第七个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一至五方面所述的方法。

根据本公开的第八个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一至五方面所述的方法。

由此，对确定每一个激励对所产生的期望信息增益(EIG，Expected InformationGain)时，考虑了激励的质量分值的方差信息。在每次配对比较实验中，选取能够提供最大信息增益的激励来进行比较，而放弃掉那些信息增益小的激励对，使得比较实验利用率最大化，从而通过尽可能少的对比次数，实现尽可能高的准确度。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是根据本公开的质量评价方法的示意性流程图。

图2是根据本公开的质量评价方法各步骤所涉及数据信息演化的示意图。

图3是根据本公开的质量评价装置的示意性框图。

图4示出了本公开的实施例中可以使用的初始结果准备装置210的示意性框图。

图5示出了根据本公开一实施例的期望信息增益确定装置230的示意性框图。

图6是示出了配对比较实验中各轮次的信息增益的实验结果。

图7示出了根据本发明一实施例可用于实现上述质量评价方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

为便于理解本公开的技术方案，首先对本公开中涉及的一些概念做一些简单解释。

【术语解释】

激励：在质量评价技术领域中，可以将评价对象称为“激励”，即质量评价实验中所使用的刺激物，其使观测者(或实验人员)产生心理/生理等反应。例如，在视频质量评价实验中，激励即为观测者要看的视频片段。

主观质量评价实验：需要人来参与，对激励进行质量打分的实验。

绝对分类评分(ACR，Absolute Categorical Rating)方案，让实验人员(或称为“观测者”)使用李克特量表(Likert scale)，选择1-5分来对评价对象进行打分评价。1代表非常差，2代表差，3代表中，4代表好，5 代表非常好。

配对比较法(Pair Comparison)：每次实验，用户对激励进行两两比较，从一个激励对中选出符合要求的激励。例如，在视频质量评价实验中，要求用户每次观看两个视频，选出质量好的那一个。

期望信息增益(EIG，Expected Information Gain)：在贝叶斯框架下，计算出的信息增益的期望值。信息代表不确定性，越不确定的事件其信息量越大。

配对比较模型(Pair comparison model)：用于将配对比较法实验的数据(可以为概率数据，或者比例数据)转换为连续尺度上的实验结果。例如，对于视频A和视频B，40％的用户选择A的质量好，60％的用户选择 B的质量好，则，利用配对比较模型，可以获得视频A和视频B的质量分数，例如，视频A的质量为1，视频B的质量为1.4。

下面，参考附图详细描述根据本公开的评价方案。

在本公开的质量评价方法中，根据已有的先验配对比较结果(也可以称为“配对比较综合结果”)确定多个激励中各个激励对的期望信息增益 (EIG)，然后基于期望信息增益选择一个或多个激励对进行本轮次配对比较。

下文中“配对比较结果”可以表示一个激励对的比较结果，也可以表示多个激励对的综合比较结果。当表示多个激励对的综合比较结果时，可以使用“配对比较综合结果”。“先验配对比较结果”可以用来表示本轮配对比较之前得到的配对比较综合结果，在第一轮配对比较过程之前，先验配对比较结果可以是基于之前通过其它途径获得的信息预先得到的“先验”结果。而在第一轮配对比较之后，经过更新之后得到的更新的配对比较综合结果可以作为下一轮的“先验配对比较结果”。

将本轮次配对比较结果与已有的配对比较综合结果融合，得到更新的配对比较综合结果，以在下一轮配对比较过程中确定期望信息增益。这样可以仅对能够提供更多信息的激励对进行配对比较，显著减少配对比较的次数，降低评价分析的时间复杂度。

重复多轮次的配对比较过程，即确定期望信息增益、选择激励对、配对比较结果再融合更新，直到满足配对比较结束条件。

然后，可以例如使用配对比较模型对最终配对比较综合结果进行数据分析，转换得到多个激励各自的质量分数。

如下文中将详细描述，在一些实施例中，在确定激励对的期望信息增益时，考虑了各个激励各自的方差信息，即方差和方差的估计误差，也即相当于考虑了例如主观实验打分中对激励进行打分的难度。这样，可以获得更准确的期望信息增益，使得实验被有效利用，收敛速度更快。

在另一些实施例中，在融合先前已有的配对比较综合结果和本轮次及后续各轮次配对比较结果时，对初始的配对比较综合结果和各轮次配对比较结果分别设置了不同的权重，为各轮次配对比较实验中能够产生更大信息量的激励对赋予更大的权值。

图1是根据本公开的质量评价方法的示意性流程图。

图3是根据本公开的质量评价装置的示意性框图。图3所示质量评价装置可用于实施图1所示质量评价方法。

如图3所示，根据本公开的质量评价装置200可以包括初始结果准备装置210、质量分布数据确定装置220、期望信息确定装置230、激励对选择装置240、本轮结果获取装置250、更新装置260。

下面参考图1和图2详细描述根据本公开的质量评价方法的各个步骤。

【先验配对比较结果】

首先，在步骤S110，例如可以通过初始结果准备装置210来准备针对多个激励的最初的先验配对比较结果，也可以称为“初始的配对比较综合结果”。这里，将所考虑的多个激励的数量记为N，N为自然数。N个激励中每两个不同的激励构成一个激励对。

配对比较结果表示在配对比较实验过程中，观测者或评价模型等对N 个激励进行两两比较进行选择(例如选择经比较后分数更高、质量更好、更吸引人的激励)的结果。例如，在针对两个激励(一个激励对)的一次比较中，可以对一对激励中被选中的一项计“1”，而对未被选中的一项计“0”。当一对激励被多个观测者或不同评价模型或不同方式比较多次时，可以对多次比较的结果进行累加融合，得到总的配对比较结果。

例如，配对比较结果可以表示为N×N矩阵M，其中矩阵元素M(i,j) 表示在激励对(i,j)(即激励i和激励j)之间进行比较时，选中激励i 的情形。在本公开中，符号“M_”加英文字符或字符组合表示的矩阵均为用于表示各种配对比较结果的N×N矩阵，具有相似的结构，且矩阵元素代表上述相似的含义。

例如，在一次配对比较中，在激励对(i,j)中，如果选择激励i，则可以计M(i,j)＝1，而M(j,i)＝0；否则M(i,j)＝0，而M(j,i)＝1。这里，i,j 为自然数，表示激励的序号，1≤i≤N，1≤j≤N。当然，这里的数值也可以不是0和1，而选用其它数值。

在例如由一个观测者s对N个激励中每个激励对进行配对比较，得到的配对比较结果矩阵M_s可以是一个各元素分别为0或1的N×N矩阵。这里，s为自然数，表示观测者(或评价模型等)的序号。

多个观测者分别进行配对比较，分别得到各自对应的配对比较结果矩阵。可以将这些矩阵M_s相加融合，得到总的配对比较结果矩阵M_all，可以称为“配对比较综合结果”。矩阵元素M_all(i,j)的值可以用来表示在激励对(i,j)中有多少观测者选择了激励i。

先验配对比较结果(可以表示为N×N的矩阵M_prior)是指在本轮次的配对比较实验之前，根据已有信息得到的N个激励中各激励对的配对比较综合结果。

在本公开的一些实施例中，先验配对比较结果(M_prior)可以是目前已完成的配对比较实验中已得到的配对比较实验结果(可以表示为N× N的矩阵M_pre)。其中，矩阵元素M_pre(i,j)表示在已经完成的配对比较实验中，有多少观测者在比较激励i和激励j的时候选择了激励i。

在本公开的另一些实施例中，先验配对比较结果(M_prior)可以是基于N个激励中至少两个激励的每个激励的已有评价数据进行数据转换得到的配对比较结果。

这里的评价数据(例如可以是评分)可以是由多个不同的客观质量评价模型分别对各个激励输出的客观评价分数，也可以是多个不同的观测者在先前的ACR实验中分别对各个激励进行打分评价给出的分数，或者也可以既包括客观质量评价模型输出的客观评价分数，也包括观测者给出的分数。或者，还可以包括以其它任何方式对各个激励分别给出的质量评价分数。

这里的客观质量评价模型可以是基于各种信息通过各种方式对激励进行客观质量评价打分的评价模型。与此相对地，由观测者打分的ACR 实验则属于主观质量评价实验。

各观测者和/或评价模型s对每个激励i的评价分数可以用m×N矩阵 Mscore表示，m为观测者和/或评价模型的数量。矩阵元素Mscore(s,i)表示观测者和/或评价模型s对激励i给出的分数。

这样，可以先针对各观测者和/或评价模型s的评价分数进行数据转换，得到对应于该观测者和/或评价模型s的配对比较结果M_s。

先将矩阵M_s初始化，即所有矩阵元素都置为0。

然后，可以比较该观测者和/或评价模型s对激励对(i,j)中两个激励的已有评价数据Mscore(s,i)和Mscore(s,j)的大小。

这样，可以基于大小比较结果设定对应于激励对(i,j)的配对比较结果(矩阵元素M_s(i,j)和/或M_s(j,i))，以表示在各激励对中选择具有较大评价数据的激励。例如，如果Mscore(s,i)>Mscore(s,j)，则可以计M_s(i, j)＝1，而M_s(j,i)＝0；否则M_s(i,j)＝0，而M_s(j,i)＝1。

由此，可以得到分别对应于各观测者和/或评价模型s的配对比较结果M_s。

融合(例如相加)先前由多个观测者和/或评价模型分别获得的针对N 个激励的配对比较结果，即上面得到的分别对应于各观测者和/或评价模型 s的配对比较结果M_s，可以得到总的配对比较综合结果M_all，作为先验配对比较结果M_prior。

这里，通过对观测者或评价模型给出的分数进行数据转换，得到模拟的配对比较结果，并对模拟配对比较结果进行融合得到先验配对比较结果 M_prior。

另外，也可以将上述目前已完成的实际配对比较实验中已得到的实际配对比较综合结果M_pre与该模拟配对比较结果融合在一起，通过其它方式得到的配对比较实验结果也都可以融合进来，得到加强的先验配对比较结果M_prior。在进行融合时，可以对不同方式得到的配对比较结果相应设置权重，以进行加权融合。

另外，应当理解，在每一轮配对比较中，先前融合更新后得到的配对比较综合结果也可以作为本轮的“先验配对比较结果”。

如图4所示，初始结果准备装置210可以包括数据转换装置211和初步融合装置212。

数据转换装置211可以基于N个激励中至少两个激励的每个激励的已有评价数据，进行数据转换得到针对N个激励的初始的配对比较综合结果 (先验配对比较结果)。

初步融合装置212可以融合先前由多个观测者和/或多种评价模型和/ 或通过多种方式分别获得的针对N个激励的配对比较结果，得到先验配对比较结果。

在ACR实验中，可以为多个观测者设定相同的打分范围，例如1，2， 3，4，5。

而不同评价模型输出的分数的范围则有可能不一致，甚至有可能不为整数。

在本公开的实施例的方案中，可以分别对各评价模型给出的分数进行比较，得到对应于相应评价模型的配对比较结果M_s。这样，不同评价模型之间不统一的分数范围等不会影响各评价模型各自给出的分数之间的比较。而通过统一的配对比较结果输出方式，可以将不同评价模型给出的范围不统一的分数转换到同一个维度和尺度上。由此，即便是对于输出分数范围等具有很大差别的不同评价模型，甚至评价模型和观测者，也可以将相应得到的各配对比较结果M_s相加得到总的先验配对比较结果 M_prior。

【期望信息增益的确定】

接下来，例如以上通过期望信息增益获取装置，基于针对N个激励的配对比较综合结果，分别确定多个激励对的期望信息增益EIG。

可以采用很多种方式来基于配对比较综合结果获取期望信息增益。

在本公开中，期望信息增益获取装置可以包括图3所示的质量分布数据确定装置220和期望信息增益确定装置230。下面分别描述质量分布数据的确定和在此基础上对期望信息增益的确定。

【质量分布数据】

在步骤S120，例如可以通过质量分布数据确定装置220，基于针对N 个激励的配对比较综合结果，获得N个激励各自的质量分布数据。

质量分布数据可以包括：

1)每个激励的质量分数分布的均值信息，包括均值和均值的估计误差，也即均值的方差；和

2)每个激励的质量分数分布的方差信息，包括方差和方差的估计误差，也即方差的方差。

均值信息可以表示每个质量的质量分数高低信息，而方差信息则可以表示对于各个激励的打分难度。

基于均值信息可以确定均值引起的期望信息增益，基于方差信息可以是确定方差(打分难度)引起的期望信息增益。

需要说明的是，质量分数分布的均值的估计误差与质量分数分布的方差是不同的概念。分布的均值和方差都是固定，而均值的估计误差。方差的估计误差则会因所使用的技术不同而不同。在例如最大似然估计法中采用的是克拉美·罗下界(Cramer-Rao LowerBound)。这里，对于所采用的估计方法不做限制。

在根据本公开的质量评价方法中，可以是仅采用均值信息，或仅采用方差信息；或者，也可以既采用均值信息，也采用方差信息，计算确定两方面期望信息增益的综合值，作为激励对的选择依据。

可以通过各种模型来获取激励的质量分布数据。

例如，可以使用Bradley-Terry模型。但是使用Bradley-Terry模型能够得到均值信息，不能够得到方差信息。

如果需要方差信息，可以使用瑟斯顿模型III(Thurstone Model case III)。将已有的配对比较综合结果输入到瑟斯顿模型III中，就可以获得N个激励各自的质量分布数据，其中可以包括方差信息。

目前，业界对于瑟斯顿模型的使用与Bradley-Terry模型一样，仅关注均值，而不关注方差，因此瑟斯顿模型III很少被使用。而在本公开考虑方差信息的实施例中，使用瑟斯顿III模型，可以方便地获得方差信息，以便于确定方差引起的期望信息增益。

基于每个激励的上述均值信息和方差信息，通过统计学方法，可以计算得到每个激励对的质量分数差的统计信息：

3)每个激励对(i，j)的质量分数差的均值μ，以及利用最大似然估计方法后计算得到的对于μ的估计的协方差矩阵μ_σ。

4)每个激励对(i，j)的质量分数差的方差σ，以及利用最大似然估计方法后计算得到的对于σ的估计的协方差矩阵σ_σ。

在实际确定该激励对(i，j)的期望信息增益时，可以使用激励对(i， j)的质量分数差的统计信息。

【期望信息增益】

在步骤S130，例如可以通过期望信息增益确定装置230，基于质量分布数据，分别确定至少一个激励对的期望信息增益。

应当明白，这里可以确定所有激励对的期望信息增益，也可以仅确定部分激励对的期望信息增益。

简而言之，“期望信息增益”可以大致理解为通过本轮次采用该激励对进行配对比较实验，期望实现的信息增益。

如图5所示，期望信息增益确定装置230可以包括第一确定装置231、第二确定装置232、综合确定装置233。

第一确定装置231可以基于各激励(激励i、激励j)的质量分数的均值信息，即均值和均值的估计误差，来确定激励对(i，j)的第一期望信息增益，也即均值引起的信息增益。

第二确定装置232可以基于各激励(激励i、激励j)的质量分数的方差信息，即方差和方差的估计误差，来确定激励对(i，j)的第二期望信息增益，也即方差引起的信息增益。

综合确定装置233可以基于第一期望信息增益和第二期望信息增益，确定激励对(i，j)的总的期望信息增益。

基于均值信息确定第一期望信息增益的方法与基于方差信息确定第二期望信息增益的方法可以相同。

下面描述基于N个激励i和j各自的均值信息或方差信息来确定激励对(i，j)的第一或第二期望信息增益的一种方法。本公开确定第一或第二期望信息增益的方法不限于此。

为便于统一描述，将N个激励各自的质量分布的均值或方差统称为“统计值s”。统计值s可以认为符合高斯分布：

其中，统计值s的估计值表示为

统计值s的估计误差表示为协方差矩阵

如上所述，可以通过最大似然估计(MLE)法来获得

和

这样，基于激励i和j各自的统计值s的估计值

和统计值的估计误差

可以计算得到激励对(i，j)中两个激励i和j的统计值之差s_ij＝s_i-s_j的先验分布数据，即统计值之差s_ij的差均值估计值

和差均值的协方差矩阵

统计值之差s_ij也符合高斯分布：

基于差均值s_ij和差均值s_ij的协方差矩阵

可以用期望KL (Kullback–Leibler，库尔贝克·莱布勒)散度值(KLD，Kullback–Leibler divergence)来计算确定激励对的第一或第二期望信息增益EIG。即，对于激励对(i，j)，其第一或第二期望信息增益EIG可以为s_ij的先验概率分布与后验概率分布的期望KL散度值U_ij：

其中，如果在激励i和激励j之间选择激励i，则y_ij＝1，否则y_ij＝0。 p(s_ij)是先验概率密度，p(s_ij|y_ij)是给定结果y_ij的情况下后验概率密度。

根据贝叶斯定理可知：

p(s_ij|y_ij)/p(s_ij)＝p(y_ij|s_ij)/p(y_ij)

因此，上述公式(1)可重写为：

其中，p(y_ij|s_ij)是条件s_ij下结果为y_ij的条件概率密度。定义：

p(y_ij＝1|s_ij)＝p_ij

p(y_ij＝0|s_ij)＝q_ij。

并且，

这样，上述公式(2)可以改写为下面容易处理的计算形式：

U_ij＝E(p_ijlog(p_ij))+E(q_ijlog(q_ij))-E(p_ij)logE(p_ij)-E(q_ij)logE(q_ij) (3)

这里，E(·)是先验分布

下的期望值。例如，上述公式(3)中的第一项可以改写为：

通过上面描述的KL散度计算方式，可以分别计算两个增益：

1)均值引起的第一期望信息增益，EIG_μ＝期望KLD(μ，μ_σ)；

2)方差引起的第二期望信息增益，EIG_σ＝期望KLD(σ，σ_σ)。

而总的期望信息增益则可以为EIG＝EIG_μ+EIG_σ。

这样计算得到的信息增益的物理意义可以解释为：

实验应该让μ_σ，即对均值的估计误差越小越好。

实验应该让σ_σ，即对方差的估计误差越小越好。

由此，最终可以获得对于μ,σ的更好的估计值，同时最大化利用了实验成本，让每次实验都聚焦在信息增益最大的激励对上。

在一些实施例中，还可以向工作人员输出激励对的所确定的期望信息增益，以便工作人员发出第一指令来确认和/或调整期望信息增益。

于是，可以接收第二指令，并响应于第二指令对所选择的激励对进行确认和/或调整。

【本轮次激励对】

在步骤S140，例如可以通过激励对选择装置240，可以基于所计算得到的期望信息增益EIG，从多个激励对中选择用于进行本轮次配对比较的激励对。

换言之，可以挑选期望信息增益EIG最大的一个或多个激励对作为接下来将要进行的本轮次实验的激励对，供观测者进行打分。

在一些实施例中，还可以向工作人员输出所选择的本轮次激励对的信息，例如激励对ID等，以便工作人员发出第二指令来确认和/或调整本轮次激励对。

于是，可以接收第二指令并响应于第二指令对所选择的激励对进行确认和/或调整。

【配对比较】

将所选择的本轮次激励对提供给观测者，并从观测者接收比较结果，即有关该观测者在该激励对中选择了哪一个激励的信息。

在步骤S150，例如可以通过本轮结果获取装置250，获取本轮次观测者针对所选激励对进行配对比较而得到的本轮次配对比较结果M_pc。

其中，M_pc(i,j)表示在所选激励对(i，j)中选择激励i的情况，而 M_pc(j,i)表示在所选激励对(i，j)中选择激励j的情况。

在本轮次仅由一个观测者对激励对(i，j)进行比较的情况下，M_pc(i, j)和M_pc(j,i)分别为0或1。

在本轮次由多个观测者对激励对(i，j)进行比较的情况下，M_pc(i,j) 和M_pc(j,i)可以分别为选择i和j的观测者数。

【结果融合】

在步骤S160，例如可以通过更新装置(也可以称为融合装置)260，对配对比较综合结果和本轮次配对比较结果M_pc进行融合，得到中间配对比较结果，作为更新后的配对比较综合结果，以用于下一轮次的配对比较过程中期望信息增益EIG的确定。另一方面，计划执行的各轮次配对比较过程执行完成后，最终融合得到的配对比较综合结果M_all可以作为后续数据分析的依据。

在一些实施例中，在对配对比较综合结果和本轮次配对比较结果 M_pc进行融合时，可以分别设置不同的权重。

这里，可以为初始的配对比较综合结果(初始的先验配对比较结果)，特别是基于对客观评价模型的输出分数或先前的ACR实验中的分值进行转换处理得到的先验配对比较结果，可以设置相对较低的权重，而对基于期望信息增益选择激励对进行的配对比较的实验结果赋予相对较高的权重。

另外，在进行多轮次配对比较实验的情况下，可以为对应于更高期望信息增益的轮次的配对比较结果设置更高的权重。

例如，可以基于配对比较轮次总数和/或各轮次的期望信息增益，为各轮次的配对比较结果设置权重。

经过实验验证，发现在以客观质量模型打分结果或ACR结果为初始化信息进行的配对比较实验中，每次配对比较实验所产生的期望信息增益是递减的，如图6所示。

图6是示出了配对比较实验中各轮次的信息增益的实验结果。

如图6所示，随着配对比较实验的轮次数增加，各轮次所产生的信息增益逐渐降低。

因此，也可以设置随轮次数增加而递减的权重。

在一些实施例中，可以为先验配对比较结果M_prior(初始的配对比较综合结果)设置权重为1。

在一些实施例中，可以采用线性加权方案，例如可以为各轮次的配对比较结果M_pc设置的权重为包括本轮次在内的剩余计划轮次总数。例如，在计划进行K轮次配对比较实验时，第k轮次的权重W(k)可以为：

W(k)＝K-k+1，k＝1，2，……，K。

即，权重逐次减一。

在一些实施例中，也可以采用非线性加权方案，例如可以按下述公式设置各轮次的配对比较结果对应的权重W：

W＝P×f(x)，

其中，P可以是预设正参数，例如可以是预计要进行的配对比较实验的总轮次数K。

x为本轮次确定的期望信息增益EIG。

f(x)则是一个递增函数，随着各轮次期望信息增益的增加而减小。

例如，f(x)可以满足下述条件：

f(0)＝0，f(+∞)＝1。

例如，f(x)＝1–e^-x。

即，为各轮次设置的权重W(k)可以为计划轮次总数和与本轮次对应的期望信息增益正相关的函数的乘积。

或者，为各轮次设置的权重W(k)可以为包括本轮次在内的剩余计划轮次总数和与本轮次对应的期望信息增益正相关的函数的乘积，即：

W＝(K-k+1)×f(x)。

【多轮次重复】

在步骤S170，例如可以通过判断装置270，判断是否已经满足配对比较结束条件，例如达到预设的总计划轮次，或期望信息增益降到低于预设阈值，或期望信息增益连续多次低于预设阈值。

如果判定尚未满足结束条件，则返回上述步骤S120，重复上述步骤 S120至S160，直到满足配对比较结束条件。

这样，最终融合得到的配对比较综合结果M_all可以是最初在步骤 S110准备的先验配对比较结果M_prior与各轮次配得比较结果M_pc(k)的加权叠加，即：

M_all＝M_prior+W(1)×M_pc(1)+W(2)×M_pc(2)+…+W(K)×M_pc(K)。

【数据分析】

在步骤S170判定已满足配对比较结束条件，结束配对比较之后，进入步骤S180，例如可以使用数据分析装置280，使用配对比较模型对融合获得的最终配对比较综合结果进行数据分析，转换得到N个激励各自的质量分数。

上面参考图1至图6详细描述了根据本公开的质量评价方法的实施例。

在一些实施例中，在确定期望信息增益时，考虑了方差信息，确定了方差引起的信息增益，代表了打分的难度。

在现有的主观感知评价方案中，仅考虑激励的均值信息(或者可以理解为质量平均分)，而认为所有激励的方差是一样的。事实上，在主观感知评价中，激励的质量判断是一个难度不同的任务，对于某些激励来讲，人们更容易判断它的质量，而对于某些激励，人们会感到非常困难。对于简单的激励，其主观分数的分布方差小，表明观测者对于它的质量意见较为统一。而对于困难的激励，呈现出来的主观分数的分布方差会很大。因此，方差是一个非常重要的信息。通过考虑方差信息来确定期望信息增益，能够获得更为准确的期望信息增益，便于选择能够提供更多信息的激励对来进行接下来的配对比较实验。

在另一些实施例中，将先前通过ACR主观质量评分实验得到的打分数据和/或通过主观质量评价模型输出的分数数据进行数据转换得到初始的配对比较综合结果，然后在此基础上选择能够提供更高信息增益的激励对进行配对比较，实现了主观评分实验与配对比较实验的融合，加速了配对比较实验的进程。

在另一些实施例中，在融合最初的配对比较综合结果和各轮次的配对比较结果时，为各配对比较结果分别设置了权重，实现基于信息增益的线性或非线性加权融合，从而使得实验结果数据的融合更加有效。

通过这些实施例，在已有信息的基础上，选取能够提供最大信息增益的pair来进行比较，放弃掉那些信息增益小的pair，降低了质量评价方法时间复杂度，比较实验利用率最大化，从而能够使用最少的对比次数，达到最高的准确度。

在一些实施例中，作为评价对象的激励可以为数据对象，例如视频节目、小说、音乐等。由此，根据本公开的质量评价方案，可以实现一种数据对象质量评价方法，其中以数据对象作为上述方案中的激励。

这样，可以基于针对多个激励的已有的配对比较综合结果，获得多个激励各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差。

进而，可以基于质量分布数据，确定激励对的期望信息增益，其中激励对包括多个激励中两个不同的激励。

基于期望信息增益，从多个激励对中选择用于进行本轮次配对比较的激励对。

从而针对数据对象的质量评价，实现降低配对比较过程的时间复杂度而保持较高的实验精度的效果。

在一些实施例中，作为评价对象的激励可以为人员，例如演员、歌手、参与评选的学生、竞选人员等。通过本公开的评价方法，例如可以方便地给出相应人员的排行榜。

由此，可以提供一种人员评价方法。基于针对多个人员的配对比较综合结果，获得多个人员各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差。基于质量分布数据，分别确定至少一个人员对的期望信息增益，其中人员对包括多个人员中两个不同的人员。基于期望信息增益，从至少一个人员对中选择用于进行本轮次配对比较的人员对。

在一些实施例中，作为评价对象的激励可以是一个或多个人员作出的多个评分对象。评分对象例如可以是歌手或演员的演出，参会人员的演讲，学生的作业、答卷、作文、(母语或外语)口语表达等。这样，可以给相应评分对象打分。

由此，可以提供一种评分方法，用于对人员作出的多个评分对象进行评分。基于针对多个评分对象的配对比较综合结果，获得多个评分对象各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差。基于质量分布数据，分别确定至少一个评分对象对的期望信息增益，其中评分对象对包括多个评分对象中两个不同的评分对象。基于期望信息增益，从至少一个评分对象对中选择用于进行本轮次配对比较的评分对象对。

在一些实施例中，作为评价对象的激励可以是商品，例如消费品、汽车等，例如可以针对这些商品的整体或某项属性(例如外观或性能等)进行评价。这里，商品可以是产品，也可以是服务。

由此，可以提供一种商品评价方法。基于针对多个商品的配对比较综合结果，获得多个商品各自的质量分布数据，质量分布数据包括质量分数分布的方差和方差的估计误差。基于质量分布数据，分别确定至少一个商品对的期望信息增益，其中商品对包括多个商品中两个不同的商品。基于期望信息增益，从至少一个商品对中选择用于进行本轮次配对比较的商品对。

以上给出了作为评价对象的激励的一些例子。应当理解，本公开的方法可以适用于对各种可以比较的评价对象的评价或评分。

参见图7，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器 610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620处理时，可以使处理器620执行上文述及的质量评价方法。

上文中已经参考附图详细描述了根据本发明的质量评价方法和装置。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种质量评价方法，包括：

基于针对多个激励的配对比较综合结果，获得所述多个激励各自的质量分布数据，所述质量分布数据包括质量分数分布的方差和所述方差的估计误差；

基于所述质量分布数据，分别确定至少一个激励对的期望信息增益，其中所述激励对包括所述多个激励中两个不同的激励；以及

基于期望信息增益，从所述至少一个激励对中选择用于进行本轮次配对比较的激励对。

2.根据权利要求1所述的方法，其中，所述质量分布数据还包括质量分数分布的均值和所述均值的估计误差，

所述分别确定多个激励对的期望信息增益的步骤包括：

基于所述均值和所述均值的估计误差，确定激励对的第一期望信息增益；

基于所述方差和所述方差的估计误差，确定激励对的第二期望信息增益；以及

基于所述第一期望信息增益和所述第二期望信息增益，确定激励对的所述期望信息增益。

3.根据权利要求2所述的方法，其中，以所述多个激励各自的质量分布的均值或方差为统计值，基于所述多个激励各自的统计值确定激励对的第一或第二期望信息增益的步骤包括：

基于所述统计值和所述统计值的方差，确定激励对中两个激励的所述统计值之差的先验分布数据，即所述统计值之差的差均值和差均值的协方差矩阵；以及

基于所述差均值和所述差均值的协方差矩阵，确定激励对的第一或第二期望信息增益。

4.根据权利要求3所述的方法，其中，基于所述差均值和所述差均值的估计误差确定激励对的第一或第二期望信息增益的步骤包括：

确定激励对中两个激励的所述统计值之差的先验分布数据和后验分布数据之间的库尔贝克·莱布勒散度(KLD)，作为所述激励对的第一或第二期望信息增益。

5.根据权利要求1所述的方法，还包括：

获取本轮次针对所选激励对进行配对比较而得到的本轮次配对比较结果；

对所述配对比较综合结果和本轮次配对比较结果进行融合，得到更新后的配对比较综合结果，以用于下一轮次的配对比较过程中期望信息增益的确定。

6.根据权利要求5所述的方法，还包括：

重复所述获得多个激励各自的质量分布数据的步骤、分别确定多个激励对的期望信息增益的步骤、选择用于进行本轮次配对比较的激励对的步骤、获取本轮次配对比较结果的步骤、融合所述配对比较综合结果和本轮次配对比较结果的步骤，直到满足配对比较结束条件。

7.根据权利要求6所述的方法，还包括：

在满足配对比较结束条件，结束配对比较之后，使用配对比较模型对融合获得的最终配对比较结果进行数据分析，转换得到所述多个激励各自的质量分数。

8.根据权利要求1至7中任何一项所述的方法，其中，所述获得所述多个激励各自的质量分布数据的步骤包括：

将所述配对比较综合结果输入到瑟斯顿模型III中，获得所述多个激励各自的质量分布数据。

9.根据权利要求1至7中任何一项所述的方法，还包括：

基于所述多个激励中至少两个激励的已有评价数据，进行数据转换得到针对所述多个激励的初始的配对比较综合结果；以及/或者

融合先前由多个观测者和/或多种评价模型和/或通过多种方式分别获得的针对所述多个激励的配对比较结果，得到所述配对比较综合结果。

10.根据权利要求1至7中任何一项所述的方法，还包括：

输出所述至少一个激励对的期望信息增益，接收第一指令并响应于所述第一指令对所述期望信息增益进行确认和/或调整；以及/或者

输出所选择的激励对的信息，接收第二指令并响应于第二指令对所选择的激励对进行确认和/或调整。

11.一种数据对象质量评价方法，包括：

基于所述质量分布数据，确定激励对的期望信息增益，其中激励对包括所述多个激励中两个不同的激励；以及

基于期望信息增益，从所述多个激励对中选择用于进行本轮次配对比较的激励对。

12.一种人员评价方法，包括：

基于针对多个人员的配对比较综合结果，获得所述多个人员各自的质量分布数据，所述质量分布数据包括质量分数分布的方差和所述方差的估计误差；

基于所述质量分布数据，分别确定至少一个人员对的期望信息增益，其中所述人员对包括所述多个人员中两个不同的人员；以及

基于期望信息增益，从所述至少一个人员对中选择用于进行本轮次配对比较的人员对。

13.一种评分方法，用于对人员作出的多个评分对象进行评分，包括：

基于针对多个评分对象的配对比较综合结果，获得所述多个评分对象各自的质量分布数据，所述质量分布数据包括质量分数分布的方差和所述方差的估计误差；

基于所述质量分布数据，分别确定至少一个评分对象对的期望信息增益，其中所述评分对象对包括所述多个评分对象中两个不同的评分对象；以及

基于期望信息增益，从所述至少一个评分对象对中选择用于进行本轮次配对比较的评分对象对。

14.一种商品评价方法，包括：

基于针对多个商品的配对比较综合结果，获得所述多个商品各自的质量分布数据，所述质量分布数据包括质量分数分布的方差和所述方差的估计误差；

基于所述质量分布数据，分别确定至少一个商品对的期望信息增益，其中所述商品对包括所述多个商品中两个不同的商品；以及

基于期望信息增益，从所述至少一个商品对中选择用于进行本轮次配对比较的商品对。

15.一种评价装置，包括：

质量分布数据确定装置，基于针对多个激励的配对比较综合结果，获得所述多个激励各自的质量分布数据，所述质量分布数据包括质量分数分布的方差和所述方差的估计误差；

期望信息增益确定装置，基于所述质量分布数据，分别确定至少一个激励对的期望信息增益，其中激励对包括所述多个激励中两个不同的激励；以及

激励对选择装置，基于期望信息增益，从所述至少一个激励对中选择用于进行下一次配对比较的激励对。

16.根据权利要求15所述的装置，其中，所述质量分布数据还包括质量分数分布的均值和所述均值的估计误差，

其中，所述期望信息增益确定装置包括：

第一确定装置，基于所述均值和所述均值的估计误差，确定激励对的第一期望信息增益；

第二确定装置，基于所述方差和所述方差的估计误差，确定激励对的第二期望信息增益；以及

综合确定装置，基于所述第一期望信息增益和所述第二期望信息增益，确定激励对的所述期望信息增益。

17.根据权利要求15或16所述的装置，还包括：

本轮结果获取装置，用于获取本轮次针对所选激励对进行配对比较而得到的本轮次配对比较结果；

更新装置，用于对所述配对比较综合结果和本轮次配对比较结果进行融合，得到更新后的配对比较综合结果。

18.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至14中任何一项所述的方法。

19.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至14中任何一项所述的方法。