CN114443849A

CN114443849A - 一种标注样本选取方法、装置、电子设备和存储介质

Info

Publication number: CN114443849A
Application number: CN202210122790.5A
Authority: CN
Inventors: 彭敏龙; 孙明明; 李平
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-06
Anticipated expiration: 2042-02-09
Also published as: US20230146519A1; US11907668B2; CN114443849B

Abstract

本公开提供了一种标注样本选取方法、装置、电子设备和存储介质，涉及计算机技术领域，具体为人工智能、深度学习技术领域。具体实现方案为：确定样本特征的第一属性和第二属性；第一属性和第二属性分别是样本特征在源领域样本集的特征属性和样本特征在目标领域样本集的特征属性；根据第一属性和第二属性，在源领域样本集的多个候选标注样本中确定目标标注样本；目标标注样本用于训练分类模型，分类模型包括用于对输入的待分类样本进行分析以确定情感极性的模型。

Description

一种标注样本选取方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，具体为人工智能、深度学习技术领域。

背景技术

情感分析，是对带有情感色彩的文本进行分析、处理、归纳和应用的过程。利用深度学习技术进行情感分析，成为情感分析技术领域的一大推动力。深度学习需要大量标注数据进行建模训练，然而，由于情感分析应用的广泛性，情感分析系统需要适应很多不同的领域，依赖人工为每个领域标注足够多的数据，大大增加了数据标注的人工成本和时间成本。

为此，如何基于源领域的已标注数据为目标领域构建情感分析系统，降低数据标注的成本和时间成为需要解决的问题。

发明内容

本公开提供了一种标注样本选取方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种标注样本选取方法，该方法可以包括以下步骤：

确定样本特征的第一属性和第二属性；第一属性和第二属性分别是样本特征在源领域样本集的特征属性和样本特征在目标领域样本集的特征属性；

根据第一属性和第二属性，在源领域样本集的多个候选标注样本中确定目标标注样本；目标标注样本用于训练分类模型，分类模型包括用于对输入的待分类样本进行分析以确定情感极性的模型。

根据本公开的另一方面，提供了一种标注样本选取装置，该装置可以包括：

属性确定模块，用于确定确定样本特征的第一属性和第二属性；第一属性和第二属性分别是样本特征在源领域样本集的特征属性和样本特征在目标领域样本集的特征属性；

标注样本确定模块，用于根据第一属性和第二属性，在源领域样本集的多个候选标注样本中确定目标标注样本；目标标注样本用于训练分类模型，分类模型包括用于对输入的待分类样本进行分析以确定情感极性的模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术方案大大降低了目标领域样本人工标注的成本，提升了对标注数据进行跨领域迁移的能力。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开目标标注样本选取方法的流程图一；

图2是根据本公开第一属性确定方法的流程图；

图3是根据本公开样本特征重要性确定方法的流程图；

图4是根据本公开情感极性确定方法的流程图；

图5是根据本公开第二属性确定方法的流程图一；

图6是根据本公开第二属性确定方法的流程图二；

图7是根据本公开参考重要性确定方法的流程图；

图8是根据本公开目标标注样本确定方法的流程图二；

图9是根据本公开目标样本特征确定方法的流程图；

图10是根据本公开目标标注样本选取装置的结构图；

图11是实现本公开实施例的标注样本选取方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开涉及一种标注样本选取的方法，该方法可以包括以下步骤：

S101：确定样本特征的第一属性和第二属性；第一属性和第二属性分别是样本特征在源领域样本集和目标领域样本集中的特征属性；

S102：根据第一属性和第二属性，在源领域样本集的多个候选标注样本中确定目标标注样本；目标标注样本用于训练分类模型，分类模型用于情感极性分析。

本实施例可以应用于服务器，具体可以是多种服务器中的一种，例如，台式计算机、笔记本电脑、云端计算器或者多个服务器构成的服务器集，本公开对服务器的产品类型不做限定。

样本可以是具备特定语义的文字信息，例如，中文文本、英文文本等，此处不做限定。文本的长度可以根据需要进行设定，例如，可以是满足特定字数要求的语句或者段落。基于样本的语义信息，可以确定样本对应的情感极性，例如，正向、负向、中性等。相应地，基于样本的情感极性，可以将样本集划分为正向样本、负向样本、中性样本等。

源领域样本集和目标领域样本集可以是不同领域的样本所构成的集合，其中，不同的领域可以包括新闻领域，体育领域、文学领域、技术领域、行业领域等，此处不做穷举。源领域样本集中的样本均为已标注样本，目标领域样本集中的样本为未标注样本。

样本特征可以是样本中的特征词，例如可以是一个单词、词组、短语等，用于表示样本集内的共有信息。其中，同一个样本中可以包含有一个或者多个样本特征。同一个样本特征在不同领域的样本集中所表示的语义信息可能不同。例如，在电脑领域的样本集中，选取样本特征“fast”，其表示的语义信息可能是电脑运行速度快，由此“fast”的情感极性为正向；而在电池领域中，同样选取样本特征“fast”，所表示的语义信息可能是电池耗电速度快，由此“fast”的情感极性为负向。

同一个样本特征在源领域和目标领域中具备不同的属性，其中第一属性和第二属性分别是样本特征在源领域样本集和目标领域样本集中的特征属性。特征属性可以用于表示样本特征在该领域的重要性，情感极性等。

分别确定样本特征在源领域的第一属性以及在目标领域的第二属性，基于第一属性和第二属性，在源领域样本集的多个候选标注样本中确定目标标注样本。其中，目标标注样本可以用于训练应用于目标领域的分类模型。

通过以上过程，可以基于第一属性和第二属性在源领域中选取目标标注样本，然后利用选取的目标标注样本可以实现对应用于目标领域的分类模型进行训练。如此，实现了跨领域的情感分析，大大降低了人工标注成本。

如图2所示，在一种实施方式中，第一属性的确定方式包括：

S201：确定样本特征在源领域样本集中的第一频次值；

S202：利用第一频次值确定样本特征在源领域样本集中的重要性和情感极性；

S203：将样本特征在源领域样本集中的重要性和情感极性作为第一属性。

其中，第一频次值可以是样本特征在源领域样本集中出现的次数。具体地，第一频次值可以包括第一总体频次值、第一正向频次值和第一负向频次值中的至少一种。其中，第一总体频次值可以是样本特征在源领域样本集中出现的总次数，第一正向频次值可以是样本特征在源领域正向样本集中出现的次数，第一负向频次值可以是样本特征在源领域负向样本集中出现的次数。

利用第一频次值确定样本特征在源领域样本集中的重要性和情感极性的实现方式可以是：根据第一总体频次值来确定样本特征在源领域样本集中的重要性；根据第一正向频次值和第一负向频次值来确定样本特征在源领域样本集中的情感极性。举例来说，重要性的确定方式可以是：在第一总体频次值符合预设条件的情况下，认为样本特征在源领域是重要的。其中，预设频次条件可以是5次，10次，15次等，此处不做穷举。情感极性的确定方式可以是：在第一正向频次值大于第一负向频次值的情况下，确定样本特征在源领域中的情感极性为正向的，反之为负向的。

将确定好的样本特征在源领域样本集中的重要性和情感极性，作为样本特征在源领域的第一属性。

通过以上过程，可以基于第一频次值确定样本特征在源领域中的重要性和极性，进而可以根据重要性和极性提高标注样本的筛选准确率。

如图3所示，在一种实施方式中，步骤S202包括以下子步骤：

S301：利用第一频次值和源领域样本集的样本数量，确定样本特征的第一卡方值；第一卡方值为样本特征在源领域样本集中的卡方值；

S302：基于第一卡方值确定样本特征在源领域样本集中的重要性。

其中，样本数量可以包括样本总数量、正向样本数量以及负向样本数量。

基于样本数量可以根据公式(1)确定样本特征的第一卡方值。

其中，F_i表示第i个样本特征，D表示源领域样本集，χ²(F_i|D)表示第i个样本特征在源领域样本集中的卡方值，m表示第一总体频次值、m⁺表示第一正向频次值，m^-表示第一负向频次值，n表示样本总数量、n⁺表示正向样本数量，n^-表示负向样本数量。

基于第一卡方值确定样本特征在源领域样本集中的重要性，可以是基于第一卡方值与预设阈值的关系来确定样本特征的重要性。例如，在第一卡方值大于预设阈值的情况下，样本特征在源领域样本集中的重要性为重要，反之则为不重要。预设阈值可以根据需要进行设定，优选地，预设阈值在3.50至4.00之间进行选取，例如，3.84，3.91等，此处不做穷举。

此外，还可以根据卡方值所在区间将样本特征分为不同的重要等级，例如，卡方值为3.51-3.99时重要性可以为一级，表示非常重要；卡方值为3.01-3.50时重要性可以为二级，表示一般重要；卡方值为2.51-2.99时重要性可以为三级，表示不重要。不同重要性等级所对应的卡方值区间可以根据需要进行设定，此处不做赘述。

通过以上过程，可以基于计算得到的卡方值确定样本特征的重要性，从而可以选取包含有重要特征的标注样本进行模型训练，提升模型训练的准确性。

如图4所示，在一种实施方式中，步骤S202包括以下子步骤：

S401：利用第一频次值和源领域样本集的样本数量，确定样本特征的情感极性值；

S402：利用情感极性值确定样本特征在源领域样本集中的情感极性。

其中，第一频次值和源领域样本集的样本数量的确定方式不再赘述。将第一频次值和源领域样本集的样本数量代入以下公式(2)可以确定样本特征的情感极性值。

δ(F_i|D)＝nm⁺-mn⁺——公式(2)

其中，F_i表示第i个样本特征，D₁表示源领域样本集，δ(F_i|D)表示第i个样本特征在源领域样本集中的情感极性值，n表示样本总数量、m⁺表示第一正向频次值，m表示第一总体频次值、n⁺表示正向样本数量。

利用情感极性值确定样本特征在源领域样本集中的情感极性，可以是基于情感极性值的正负来确定样本特征的情感极性。例如，在计算得到的δ(F_i|D)为正的情况下，样本特征的情感极性为正，反之情感极性为负。

通过以上过程，可以基于计算得到的情感极性值确定样本特征的情感极性，从而可以选取在源领域及目标领域中情感极性相同的样本特征进行模型训练，提升模型训练的准确性。

如图5所示，在一种实施方式中，第二属性的确定方式包括：

S501：根据预设条件对目标领域样本集添加参考标签；参考标签包括正向标签或负向标签；

S502：利用参考标签确定样本特征的第二属性。

参考标签包括正向标签或负向标签。目标领域样本集中的样本是未标注样本，对目标领域样本集添加参考标签的实现方式可以为将目标领域样本集中的样本输入预设模型，然后将预设模型的输出结果(正向标签或负向标签)作为其参考标签。其中，预设模型可以是利用源领域样本集训练得到的情感极性分析模型，该模型的输入数据可以是目标领域的测试样本，输出数据可以是测试样本的情感极性，例如正向或者负向。

确定参考标签后，利用参考标签确定样本特征的第二属性。具体地，可以是利用样本特征在目标领域带参考标签的样本集中出现的次数，确定其第二属性。

通过以上过程，可以为目标领域样本集添加初步的参考标签，进一步地，基于参考标签可以确定样本特征的第二属性。如此，可以选取在源领域及目标领域中属性相同的样本特征进行模型训练，提升模型训练的准确性。

如图6所示，在一种实施方式中，步骤S502包括以下子步骤：

S601：利用参考标签确定样本特征在目标领域样本集中的第二频次值；

S602：利用目标领域样本集的样本数量和第二频次值，确定样本特征在目标领域样本集中的参考重要性和参考情感极性；

S603：将参考重要性和参考情感极性作为第二属性。

基于参考标签将目标领域样本集划分为正向样本和负向样本，进而可以确定目标领域样本集中正向样本的数量、负向样本的数量以及样本特征在正向样本和负向样本中出现的次数。如此可以参考步骤S201-S203来确定样本特征在目标领域样本集中的第二频次值以及参考重要性和参考极性，并将参考重要性和参考极性作为第二属性，此处不做赘述。

通过以上过程，可以基于第二频次值确定样本特征在目标领域中的参考重要性和参考极性，进而可以根据参考重要性和参考极性提高标注样本的筛选准确率。

如图7所示，在一种实施方式中，参考重要性的确定方式，包括：

S701：利用第二频次值和目标领域样本集的样本数量，确定样本特征的第二卡方值和偏差估计值；第二卡方值为样本特征在目标领域样本集中的卡方值；

S702：利用第二卡方值和偏差估计值，确定样本特征在目标领域样本集中的参考重要性。

其中，基于参考标签可以确定目标领域样本集中的样本总数量、正向样本数量以及负向样本数量，进而根据公式(3)可以确定样本特征的第二卡方值。

其中，F_i表示第i个样本特征，

表示添加参考标签后的目标领域样本集，

表示第二卡方值，

表示第二总体频次值、

表示第二正向频次值，

表示第二负向频次值，

表示样本总数量、

表示正向样本数量，

表示负向样本数量。

偏差估计值可以是估算样本特征在目标领域的实际卡方值与第二卡方值之间的偏差得到的值。具体地，偏差估计值可以根据第一参数值和第二参数值计算得到。其中，第一参数值可以根据以下公式(4)进行计算得到。

其中，p表示第一参数值，D_T表示未添加参考标签的目标领域样本集，|D_T|表示目标领域样本集的样本数量，p(y＝i|x；f_s)表示利用fs模型对第i个样本进行标签预测的概率值。

其中，第二参数值可以根据以下公式(5)进行计算得到。

其中，

表示第二参数值，

表示样本总数量，

表示正向样本数量。

在确定第一参数值p和第二参数值

后，可以将其代入公式(6)计算得到偏差估计值。

其中，λ表示偏差估计值，p表示第一参数值，

表示第二参数值。

样本特征在目标领域样本集中的参考重要性的确定方式可以为，利用第二卡方值和偏差估计值，确定样本特征在目标领域的实际卡方值，再利用实际卡方值确定样本特征在目标领域样本集中的参考重要性。其中，可以根据以下公式(7)计算样本特征在目标领域样本集中的实际卡方值。

其中，χ²(F_i|D_T)表示第i个样本特征在目标领域样本集中的实际卡方值，λ表示偏差估计值，

表示第二卡方值。

通过以上过程，可以基于统计的方法提升样本特征重要性进行判断的准确性，由此有助于提升标注样本选取的精确度。

如图8所示，在一种实施方式中，步骤S102包括以下子步骤：

S801：根据第一属性和第二属性，确定目标样本特征；

S802：利用目标样本特征，在源领域样本集中进行数据筛选，以确定目标标注样本。

利用样本特征在源领域及目标领域的第一属性和第二属性，判断该样本特征是否为目标样本特征。目标样本特征可以有1个或者多个。利用目标样本特征确定目标标注样本的方式可以是：在源领域样本集中筛选出包含有预设数量个目标样本特征的标注样本作为目标标注样本。其中，预设数量可以是1个，2个，3个等，此处不做限定。

确定目标标注样本的方式还可以是：基于所包含有目标样本特征的数量对标注样本进行打分，将满足得分阈值的标注样本作为目标标注样本。其中，标注样本包含的目标样本特征的数量越多，对应标注样本的分值越高。得分阈值可以根据需要进行设定，此处不做限定。

通过以上过程，可以筛选出包含有尽可能多的目标样本特征的标注样本，从而提升所选取的目标标注样本的精确度。

如图9所示，在一种实施方式中，步骤S801包括以下子步骤：

S901：在源领域样本集中，选取第一属性中的重要性和第二属性中的参考重要性均满足预定条件的样本特征，作为候选样本特征；

S902：在候选样本特征中，选取第一属性中的情感极性和第二属性中的参考情感极性相同的样本特征，作为目标样本特征。

其中，首先基于重要性维度在源领域样本集中选取候选样本特征，具体地，预定条件可以是第一属性中的重要性和第二属性中的参考重要性均为“重要”，或者重要等级均高于预设级别。其中，预设级别可以设定为一级(非常重要)或者二级(一般重要)，具体可以根据需要进行设定。由此确定的候选样本特征为在源领域及目标领域均重要的样本特征。

在此基础上，进一步选取在第一属性中的情感极性和第二属性中的参考情感极性相同的样本特征，作为目标样本特征。例如，候选样本特征“fast”和“high”在源领域中的情感极性均为正向，同时，“fast”和“high”在目标领域的参考情感极性分别为正向和负向。那么可以将“fast”作为目标样本特征，“high”则不作为目标样本特征。

通过以上过程，可以在源领域及目标领域中筛选出均重要且情感极性一致的目标样本特征，进而利用目标样本特征筛选得到的目标样本对情感分析模型进行训练，大大降低了数据标注成本。

如图10所示，本公开涉及一种标注样本选取装置，该装置可以包括：

属性确定模块1001，用于确定样本特征的第一属性和第二属性；第一属性和第二属性分别是样本特征在源领域样本集和目标领域样本集中的特征属性；

标注样本确定模块1002，用于根据第一属性和第二属性，在源领域样本集的多个候选标注样本中确定目标标注样本；目标标注样本用于训练分类模型，分类模型用于情感极性分析。

在一种实施方式中，属性确定模块1001，包括：

第一频次值确定子模块，用于确定样本特征在源领域样本集中的第一频次值；

第一属性确定子模块，用于利用第一频次值确定样本特征在源领域样本集中的重要性和情感极性；

第一属性执行子模块，用于将样本特征在源领域样本集中的重要性和情感极性作为第一属性。

在一种实施方式中，第一属性确定子模块，包括：

第一卡方值确定子模块，用于利用第一频次值和源领域样本集的样本数量，确定样本特征的第一卡方值；第一卡方值为样本特征在源领域样本集中的卡方值；

重要性确定子模块，用于基于第一卡方值确定样本特征在源领域样本集中的重要性。

在一种实施方式中，第一属性确定子模块，包括：

情感极性值确定子模块，用于利用第一频次值和源领域样本集的样本数量，确定样本特征的情感极性值；

情感极性确定子模块，用于利用情感极性值确定样本特征在源领域样本集中的情感极性。

在一种实施方式中，属性确定模块，包括：

参考标签确定子模块，用于根据预设条件对目标领域样本集添加参考标签；参考标签包括正向标签或负向标签；

第二属性确定子模块，用于利用参考标签确定样本特征的第二属性。

在一种实施方式中，第二属性确定子模块，包括：

第二频次值确定子模块，用于利用参考标签确定样本特征在目标领域样本集中的第二频次值；

第二属性确定子模块，用于利用目标领域样本集的样本数量和第二频次值，确定样本特征在目标领域样本集中的参考重要性和参考情感极性；

第二属性执行子模块，用于将参考重要性和参考情感极性作为第二属性。

在一种实施方式中，第二属性确定子模块，包括：

第二卡方值确定子模块，用于利用第二频次值和目标领域样本集的样本数量，确定样本特征的第二卡方值和偏差估计值；第二卡方值为样本特征在目标领域样本集中的卡方值；

参考重要性确定子模块，用于利用第二卡方值和偏差估计值，确定样本特征在目标领域样本集中的参考重要性。

在一种实施方式中，标注样本确定模块，包括：

目标样本特征确定子模块，用于根据第一属性和第二属性，确定目标样本特征；

目标标注样本确定子模块，用于利用目标样本特征，在源领域样本集中进行数据筛选，以确定目标标注样本。

在一种实施方式中，目标样本特征确定子模块，包括：

候选样本特征确定子模块，用于在源领域样本集中，选取第一属性中的重要性和第二属性中的参考重要性均满足预定条件的样本特征，作为候选样本特征；

目标样本特征执行子模块，用于在候选样本特征中，选取第一属性中的情感极性和第二属性中的参考情感极性相同的样本特征，作为目标样本特征。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如标注样本选取的方法。例如，在一些实施例中，标注样本选取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的标注样本选取的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行标注样本选取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种标注样本选取方法，包括：

确定样本特征的第一属性和第二属性；所述第一属性和所述第二属性分别是所述样本特征在源领域样本集的特征属性和所述样本特征在目标领域样本集的特征属性；

根据所述第一属性和所述第二属性，在所述源领域样本集的多个候选标注样本中确定目标标注样本；所述目标标注样本用于训练分类模型，所述分类模型包括用于对输入的待分类样本进行分析以确定情感极性的模型。

2.根据权利要求1所述的方法，其中，所述第一属性的确定方式包括：

确定所述样本特征在所述源领域样本集中的第一频次值；

利用所述第一频次值确定所述样本特征在所述源领域样本集中的重要性和情感极性；

将所述样本特征在所述源领域样本集中的重要性和情感极性作为所述第一属性。

3.根据权利要求2所述的方法，其中，所述利用所述第一频次值确定所述样本特征在源领域样本集中的重要性，包括：

利用所述第一频次值和所述源领域样本集的样本数量，确定所述样本特征的第一卡方值；所述第一卡方值为所述样本特征在所述源领域样本集中的卡方值；

基于所述第一卡方值确定所述样本特征在所述源领域样本集中的重要性。

4.根据权利要求3所述的方法，其中，所述利用所述第一频次值确定所述样本特征在源领域样本集中的情感极性，包括：

利用所述第一频次值和所述源领域样本集的样本数量，确定所述样本特征的情感极性值；

利用所述情感极性值确定所述样本特征在源领域样本集中的情感极性。

5.根据权利要求1所述的方法，其中，所述第二属性的确定方式包括：

根据预设条件，对所述目标领域样本集添加参考标签；所述参考标签包括正向标签或负向标签；

利用所述参考标签确定所述样本特征的第二属性。

6.根据权利要求5所述的方法，其中，所述利用所述参考标签确定所述样本特征的第二属性，包括：

利用所述参考标签确定所述样本特征在所述目标领域样本集中的第二频次值；

利用所述目标领域样本集的样本数量和所述第二频次值，确定所述样本特征在所述目标领域样本集中的参考重要性和参考情感极性；

将所述参考重要性和所述参考情感极性作为所述第二属性。

7.根据权利要求6所述的方法，其中，所述参考重要性的确定方式，包括：

利用所述第二频次值和所述目标领域样本集的样本数量，确定所述样本特征的第二卡方值和偏差估计值；所述第二卡方值为所述样本特征在所述目标领域样本集中的卡方值；

利用所述第二卡方值和所述偏差估计值，确定所述样本特征在所述目标领域样本集中的参考重要性。

8.根据权利要求1所述的方法，其中，所述根据所述第一属性和所述第二属性，在所述源领域样本集中确定目标标注样本，包括：

根据所述第一属性和所述第二属性，确定目标样本特征；

利用所述目标样本特征，在所述源领域样本集中进行数据筛选，以确定所述目标标注样本。

9.根据权利要求8所述的方法，其中，所述根据所述第一属性和所述第二属性，确定目标样本特征，包括：

在所述源领域样本集中，选取所述第一属性中的重要性和所述第二属性中的参考重要性均满足预定条件的样本特征，作为候选样本特征；

在所述候选样本特征中，选取所述第一属性中的情感极性和所述第二属性中的参考情感极性相同的样本特征，作为所述目标样本特征。

10.一种标注样本选取装置，包括：

属性确定模块，用于确定确定样本特征的第一属性和第二属性；所述第一属性和所述第二属性分别是所述样本特征在源领域样本集的特征属性和所述样本特征在目标领域样本集的特征属性；

标注样本确定模块，用于根据所述第一属性和所述第二属性，在所述源领域样本集的多个候选标注样本中确定目标标注样本；所述目标标注样本用于训练分类模型，所述分类模型包括用于对输入的待分类样本进行分析以确定情感极性的模型。

11.根据权利要求10所述的装置，其中，所述属性确定模块，包括：

第一频次值确定子模块，用于确定所述样本特征在所述源领域样本集中的第一频次值；

第一属性确定子模块，用于利用所述第一频次值确定所述样本特征在所述源领域样本集中的重要性和情感极性；

第一属性执行子模块，用于将所述样本特征在所述源领域样本集中的重要性和情感极性作为所述第一属性。

12.根据权利要求11所述的装置，其中，所述第一属性确定子模块，包括：

第一卡方值确定子模块，用于利用所述第一频次值和所述源领域样本集的样本数量，确定所述样本特征的第一卡方值；所述第一卡方值为所述样本特征在所述源领域样本集中的卡方值；

重要性确定子模块，用于基于所述第一卡方值确定所述样本特征在所述源领域样本集中的重要性。

13.根据权利要求12所述的装置，其中，所述第一属性确定子模块，包括：

情感极性值确定子模块，用于利用所述第一频次值和所述源领域样本集的样本数量，确定所述样本特征的情感极性值；

情感极性确定子模块，用于利用所述情感极性值确定所述样本特征在源领域样本集中的情感极性。

14.根据权利要求10所述的装置，其中，所述属性确定模块，包括：

参考标签确定子模块，用于根据预设条件对所述目标领域样本集添加参考标签；所述参考标签包括正向标签或负向标签；

第二属性确定子模块，用于利用所述参考标签确定所述样本特征的第二属性。

15.根据权利要求14所述的装置，其中，所述第二属性确定子模块，包括：

第二频次值确定子模块，用于利用所述参考标签确定所述样本特征在所述目标领域样本集中的第二频次值；

第二属性确定子模块，用于利用所述目标领域样本集的样本数量和所述第二频次值，确定所述样本特征在所述目标领域样本集中的参考重要性和参考情感极性；

第二属性执行子模块，用于将所述参考重要性和所述参考情感极性作为所述第二属性。

16.根据权利要求15所述的装置，其中，所述第二属性确定子模块，包括：

第二卡方值确定子模块，用于利用所述第二频次值和所述目标领域样本集的样本数量，确定所述样本特征的第二卡方值和偏差估计值；所述第二卡方值为所述样本特征在所述目标领域样本集中的卡方值；

参考重要性确定子模块，用于利用所述第二卡方值和所述偏差估计值，确定所述样本特征在所述目标领域样本集中的参考重要性。

17.根据权利要求10所述的装置，其中，所述标注样本确定模块，包括：

目标样本特征确定子模块，用于根据所述第一属性和所述第二属性，确定目标样本特征；

目标标注样本确定子模块，用于利用所述目标样本特征，在所述源领域样本集中进行数据筛选，以确定所述目标标注样本。

18.根据权利要求17所述的装置，其中，所述目标样本特征确定子模块，包括：

候选样本特征确定子模块，用于在所述源领域样本集中，选取所述第一属性中的重要性和所述第二属性中的参考重要性均满足预定条件的样本特征，作为候选样本特征；

目标样本特征执行子模块，用于在所述候选样本特征中，选取第一属性中的情感极性和所述第二属性中的参考情感极性相同的样本特征，作为所述目标样本特征。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。