CN114330574A

CN114330574A - 一种面向模式识别的模糊标注方法

Info

Publication number: CN114330574A
Application number: CN202111667134.5A
Authority: CN
Inventors: 张良均; 徐圣兵; 施兴; 赵云龙; 王宏刚; 王振友; 张敏; 刘名军; 张尚佳; 周东平; 杨惠
Original assignee: Guangdong Teddy Intelligent Technology Co ltd
Current assignee: Guangdong Teddy Intelligent Technology Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本发明涉及数据处理技术领域，且公开了一种面向模式识别的模糊标注方法，包括以下步骤：S1：定义概念，定义标注模式、弱标准模式、专家偏好系数、强约束模式、无约束模式的概念；S2：给定标准模式、待标注样本，标注专家，在无约束模式下专家标注阶段中，在处理实际模式评判问题时，给定的标准模式里强标准模式、弱标准模式均可能存在；S3：标注部分样本的隶属度标签，构建隶属度矩阵。本发明能够充分考虑了弱标准模式下，约束条件对算法结果的影响，有效利用类别标注中隐藏的专家偏好信息，并利用专家偏好信息进行未标注样本标注预估，提高专家标注隶属度标签的利用率。

Description

一种面向模式识别的模糊标注方法

技术领域

本发明涉及数据处理技术领域，具体为一种面向模式识别的模糊标注方法。

背景技术

在相似度评估问题中，需要根据已有的具有代表性的若干样本作为参考标准，这些参考标准可通过提取标准数据库信息等方法得到，对样本与参考标准的相似性进行相似度评估标注。标注过程的方式、标注结果的类型不同，信息标注的过程以及标注结果的后续处理也有较大差异。对于通过专家人工标注的形式得到的隶属度类型的标签，往往具有较高的有效性。但由于专家标注的成本过高，通常只能对少部分样本标注模糊标签。因此如何充分利用少量专家标注样本模糊标签的信息，对其中潜在的专家偏好信息进行分析利用，对未标注样本的模糊标签进行预估，提高专家模糊标注的利用率，降低标注成本是一项重要的改进方向。

现有公布的模糊标注过程设计、处理的技术方案如：发明专利号：201310117627.0的专利，公开一种基于差异图模糊隶属度融合的遥感图像变化检测方法，利用类别标记图对差异图去噪，与相似度差异图进行模糊隶属度融合并分类，得到变化检测结果，使得结果具有较强的抗噪性，能有效去除伪变化信息，同时保留较好的边缘信息，检测结果准确率高，此类专利未考虑利用类别标注中包含的专家偏好信息，未利用专家偏好信息进行未标注样本的类别标注预估，不能满足人们的要求，因此提出一种面向模式识别的模糊标注方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种面向模式识别的模糊标注方法，解决了一般的方法未考虑利用类别标注中包含的专家偏好信息，未利用专家偏好信息进行未标注样本的类别标注预估，不能满足人们的要求的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：

一种面向模式识别的模糊标注方法，包括以下步骤：

S1：定义概念，定义标注模式、弱标准模式、专家偏好系数、强约束模式、无约束模式的概念；

S2：给定标准模式、待标注样本，标注专家，在无约束模式下专家标注阶段中，在处理实际模式评判问题时，给定的标准模式里强标准模式、弱标准模式均可能存在，采用无约束模式进行样本隶属度

标注，即专家标注结果无需满足求和不大于1的约束条件；

模式评判存在给定的标准模式

集合为

此标准模式可以用提取已建立数据库等方法得到，从样本集X中选定少量个样本 X^L＝{x₁,x₂,...,x_n}作为标注样本集，其余样本X^U＝X-X^L为未标注样本集，

与 x_j具有相同类型的特征。标注专家包含专家偏好系数ρ；

S3：标注部分样本的隶属度标签，构建隶属度矩阵，在无约束模式下专家标注阶段中，专家凭借自身的经验知识或实验观测结果，得到样本x_j与模式集V⁰隶属度标签

其中μ_·j(V⁰)表示样本x_j与模式V⁰的理论隶属度，而

表示将理论隶属度μ_·j(V⁰)与专家偏好系数ρ结合得到的专家标注隶属度，

表示专家标注的隶属度属于先验信息，根据专家标注的隶属度

建立隶属度矩阵

其中NA为空缺项，代表未标注样本X^U的隶属度；

S4：分组隶属度标签，预估专家偏好系数，在家偏好系数预估与未标注隶属度缺失值填补阶段，对于专家标注的隶属度标签

然后对隶属度区间进行分组，统计各组所包含的隶属度标签频数，选择频数最大的组作为预估专家偏好系数的主要研究对象，设选择的组为S，对应的隶属度标签为

将按公式计算

的作为专家偏好系数的预估值

S5：填补隶属度矩阵，在家偏好系数预估与未标注隶属度缺失值填补阶段，以专家偏好系数预估值

作为未标注样本的隶属度预估值，并

进行隶属度矩阵

的缺失值填补，得到填补后的隶属度矩阵

作为本发明再进一步的方案，所述S1中在模式评判场景中，给定了多个具有类簇代表性的样本，作为专家对样本标注隶属度时的参考标准，这些给定的具有类簇代表性的样本为标准模式，这些标准模式可由已建立的标准数据库中提取得到，标准模式能在一定程度上反应其所代表类簇的特征，若标准模式具有很强的类簇代表性，模式之间相对独立且存在较大差异，则定义其为强标准模式，若标准模式具有较弱的类别代表性，模式之间可存在重合或特征的部分特征，则定义其为弱标准模式。

进一步的，所述S1中专家在为样本标注隶属度标签时，标注隶属度的结果不仅受样本与标准模式的相似度影响，还受专家自身标注偏好习惯的影响，把专家标注时的偏好习惯定义为专家偏好系数。

在前述方案的基础上，所述S1中专家对样本标注隶属度的过程，是建立在标准模式为强标准模式的假设条件上进行的，需要满足同一样本对所有的标注模式的隶属度之和不大于1的约束条件，所以定义满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件的情况为强约束模式，定义不满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件为无约束模式。

进一步的，S4中计算公式为

其中

为组S中，共有

个标注样本x_j的隶属度，

为第j个样本x_j在组S中的隶属度所包含的标准模式数。

(三)有益效果

与现有技术相比，本发明提供了一种面向模式识别的模糊标注方法，具备以下有益效果：

1、本发明定义概念进行分类，强标准模式获取困难，而弱标准模式普遍存在，在弱标准模式下，标准模式之间存在重合或相似的部分特征，因此很难满足强约束模式，若强行要求弱标准模式满足强约束模式，可能会导致样本隶属度丢失关于弱标准模式之间的重合信息，提高标注方法的精准性。

2、本发明中，可以有效解决因强约束模式导致的隶属度标签丢失弱标准模式的相似信息的问题，提高标签的准确性，对标签中隐藏的专家偏好信息进行考虑，并利用专家偏好信息进行未标注样本标注预估，提高了标注的信息量。

3、本发明中，充分考虑了弱标准模式下，约束条件对算法结果的影响，有效利用类别标注中隐藏的专家偏好信息，并利用专家偏好信息进行未标注样本标注预估，提高专家标注隶属度标签的利用率。

4、本发明中，对已有的专家标注隶属度进行区间分组，通过统计方法得到专家偏好系数的预估值，再根据专家偏好系数的预估值，对未标注样本的隶属度进行预估，提高专家标注隶属度信息的利用率。

附图说明

图1为本发明提出的一种面向模式识别的模糊标注方法的流程结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一种面向模式识别的模糊标注方法，包括以下步骤：

S1：定义概念，定义标注模式、弱标准模式、专家偏好系数、强约束模式、无约束模式的概念，强标准模式获取困难，而弱标准模式普遍存在，在弱标准模式下，标准模式之间存在重合或相似的部分特征，因此很难满足强约束模式，若强行要求弱标准模式满足强约束模式，可能会导致样本隶属度丢失关于弱标准模式之间的重合信息，提高标注方法的精准性；

标注，即专家标注结果无需满足求和不大于1的约束条件；

模式评判存在给定的标准模式

集合为

此标准模式可以用提取已建立数据库等方法得到，从样本集X中选定少量个样本X^L＝{x₁,x₂,...,x_n}作为标注样本集，其余样本X^U＝X-X^L为未标注样本集，

与 x_j具有相同类型的特征。标注专家包含专家偏好系数ρ；

其中μ_·j(V⁰)表示样本x_j与模式V⁰的理论隶属度，而

建立隶属度矩阵

其中NA为空缺项，代表未标注样本X^U的隶属度，可以有效解决因强约束模式导致的隶属度标签丢失弱标准模式的相似信息的问题，提高标签的准确性，对标签中隐藏的专家偏好信息进行考虑，并利用专家偏好信息进行未标注样本标注预估，提高了标注的信息量；

将按公式计算

的作为专家偏好系数的预估值

充分考虑了弱标准模式下，约束条件对算法结果的影响，有效利用类别标注中隐藏的专家偏好信息，并利用专家偏好信息进行未标注样本标注预估，提高专家标注隶属度标签的利用率；

作为未标注样本的隶属度预估值，并

进行隶属度矩阵

的缺失值填补，得到填补后的隶属度矩阵

对已有的专家标注隶属度进行区间分组，通过统计方法得到专家偏好系数的预估值，再根据专家偏好系数的预估值，对未标注样本的隶属度进行预估，提高专家标注隶属度信息的利用率。

本发明的S1中在模式评判场景中，给定了多个具有类簇代表性的样本，作为专家对样本标注隶属度时的参考标准，这些给定的具有类簇代表性的样本为标准模式，这些标准模式可由已建立的标准数据库中提取得到，标准模式能在一定程度上反应其所代表类簇的特征，若标准模式具有很强的类簇代表性，模式之间相对独立且存在较大差异，则定义其为强标准模式，若标准模式具有较弱的类别代表性，模式之间可存在重合或特征的部分特征，则定义其为弱标准模式，S1中专家在为样本标注隶属度标签时，标注隶属度的结果不仅受样本与标准模式的相似度影响，还受专家自身标注偏好习惯的影响，把专家标注时的偏好习惯定义为专家偏好系数。

尤其的，S1中专家对样本标注隶属度的过程，是建立在标准模式为强标准模式的假设条件上进行的，需要满足同一样本对所有的标注模式的隶属度之和不大于1的约束条件，所以定义满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件的情况为强约束模式，定义不满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件为无约束模式，S4中计算公式为

其中

为组S中，共有

个标注样本x_j的隶属度，

为第j个样本x_j在组S中的隶属度所包含的标准模式数。

在该文中的描述中，需要说明的是，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种面向模式识别的模糊标注方法，其特征在于，包括以下步骤：

标注，即专家标注结果无需满足求和不大于1的约束条件；

模式评判存在给定的标准模式

集合为

与x_j具有相同类型的特征。标注专家包含专家偏好系数ρ；

其中μ_·j(V⁰)表示样本x_j与模式V⁰的理论隶属度，而

建立隶属度矩阵

其中NA为空缺项，代表未标注样本X^U的隶属度；

将按公式计算

的作为专家偏好系数的预估值

作为未标注样本的隶属度预估值，并

进行隶属度矩阵

的缺失值填补，得到填补后的隶属度矩阵

2.根据权利要求1所述的一种面向模式识别的模糊标注方法，其特征在于，所述S1中在模式评判场景中，给定了多个具有类簇代表性的样本，作为专家对样本标注隶属度时的参考标准，这些给定的具有类簇代表性的样本为标准模式，这些标准模式可由已建立的标准数据库中提取得到，标准模式能在一定程度上反应其所代表类簇的特征，若标准模式具有很强的类簇代表性，模式之间相对独立且存在较大差异，则定义其为强标准模式，若标准模式具有较弱的类别代表性，模式之间可存在重合或特征的部分特征，则定义其为弱标准模式。

3.根据权利要求2所述的一种面向模式识别的模糊标注方法，其特征在于，所述S1中专家在为样本标注隶属度标签时，标注隶属度的结果不仅受样本与标准模式的相似度影响，还受专家自身标注偏好习惯的影响，把专家标注时的偏好习惯定义为专家偏好系数。

4.根据权利要求3所述的一种面向模式识别的模糊标注方法，其特征在于，所述S1中专家对样本标注隶属度的过程，是建立在标准模式为强标准模式的假设条件上进行的，需要满足同一样本对所有的标注模式的隶属度之和不大于1的约束条件，所以定义满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件的情况为强约束模式，定义不满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件为无约束模式。

5.根据权利要求1所述的一种面向模式识别的模糊标注方法，其特征在于，所述S4中计算公式为

其中

为组S中，共有

个标注样本x_j的隶属度，

为第j个样本x_j在组S中的隶属度所包含的标准模式数。