CN114330574A - 一种面向模式识别的模糊标注方法 - Google Patents
一种面向模式识别的模糊标注方法 Download PDFInfo
- Publication number
- CN114330574A CN114330574A CN202111667134.5A CN202111667134A CN114330574A CN 114330574 A CN114330574 A CN 114330574A CN 202111667134 A CN202111667134 A CN 202111667134A CN 114330574 A CN114330574 A CN 114330574A
- Authority
- CN
- China
- Prior art keywords
- expert
- membership
- mode
- labeling
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 57
- 238000003909 pattern recognition Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及数据处理技术领域,且公开了一种面向模式识别的模糊标注方法,包括以下步骤:S1:定义概念,定义标注模式、弱标准模式、专家偏好系数、强约束模式、无约束模式的概念;S2:给定标准模式、待标注样本,标注专家,在无约束模式下专家标注阶段中,在处理实际模式评判问题时,给定的标准模式里强标准模式、弱标准模式均可能存在;S3:标注部分样本的隶属度标签,构建隶属度矩阵。本发明能够充分考虑了弱标准模式下,约束条件对算法结果的影响,有效利用类别标注中隐藏的专家偏好信息,并利用专家偏好信息进行未标注样本标注预估,提高专家标注隶属度标签的利用率。
Description
技术领域
本发明涉及数据处理技术领域,具体为一种面向模式识别的模糊标注方法。
背景技术
在相似度评估问题中,需要根据已有的具有代表性的若干样本作为参考标准,这些参考标准可通过提取标准数据库信息等方法得到,对样本与参考标准的相似性进行相似度评估标注。标注过程的方式、标注结果的类型不同,信息标注的过程以及标注结果的后续处理也有较大差异。对于通过专家人工标注的形式得到的隶属度类型的标签,往往具有较高的有效性。但由于专家标注的成本过高,通常只能对少部分样本标注模糊标签。因此如何充分利用少量专家标注样本模糊标签的信息,对其中潜在的专家偏好信息进行分析利用,对未标注样本的模糊标签进行预估,提高专家模糊标注的利用率,降低标注成本是一项重要的改进方向。
现有公布的模糊标注过程设计、处理的技术方案如:发明专利号:201310117627.0的专利,公开一种基于差异图模糊隶属度融合的遥感图像变化检测方法,利用类别标记图对差异图去噪,与相似度差异图进行模糊隶属度融合并分类,得到变化检测结果,使得结果具有较强的抗噪性,能有效去除伪变化信息,同时保留较好的边缘信息,检测结果准确率高,此类专利未考虑利用类别标注中包含的专家偏好信息,未利用专家偏好信息进行未标注样本的类别标注预估,不能满足人们的要求,因此提出一种面向模式识别的模糊标注方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种面向模式识别的模糊标注方法,解决了一般的方法未考虑利用类别标注中包含的专家偏好信息,未利用专家偏好信息进行未标注样本的类别标注预估,不能满足人们的要求的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种面向模式识别的模糊标注方法,包括以下步骤:
S1:定义概念,定义标注模式、弱标准模式、专家偏好系数、强约束模式、无约束模式的概念;
S2:给定标准模式、待标注样本,标注专家,在无约束模式下专家标注阶段中,在处理实际模式评判问题时,给定的标准模式里强标准模式、弱标准模式均可能存在,采用无约束模式进行样本隶属度标注,即专家标注结果无需满足求和不大于1的约束条件;
模式评判存在给定的标准模式集合为此标准模式可以用提取已建立数据库等方法得到,从样本集X中选定少量个样本 XL={x1,x2,...,xn}作为标注样本集,其余样本XU=X-XL为未标注样本集,与 xj具有相同类型的特征。标注专家包含专家偏好系数ρ;
S3:标注部分样本的隶属度标签,构建隶属度矩阵,在无约束模式下专家标注阶段中,专家凭借自身的经验知识或实验观测结果,得到样本xj与模式集V0隶属度标签其中μ·j(V0)表示样本xj与模式V0的理论隶属度,而表示将理论隶属度μ·j(V0)与专家偏好系数ρ结合得到的专家标注隶属度,表示专家标注的隶属度属于先验信息,根据专家标注的隶属度建立隶属度矩阵
其中NA为空缺项,代表未标注样本XU的隶属度;
S4:分组隶属度标签,预估专家偏好系数,在家偏好系数预估与未标注隶属度缺失值填补阶段,对于专家标注的隶属度标签然后对隶属度区间进行分组,统计各组所包含的隶属度标签频数,选择频数最大的组作为预估专家偏好系数的主要研究对象,设选择的组为S,对应的隶属度标签为将按公式计算的作为专家偏好系数的预估值
作为本发明再进一步的方案,所述S1中在模式评判场景中,给定了多个具有类簇代表性的样本,作为专家对样本标注隶属度时的参考标准,这些给定的具有类簇代表性的样本为标准模式,这些标准模式可由已建立的标准数据库中提取得到,标准模式能在一定程度上反应其所代表类簇的特征,若标准模式具有很强的类簇代表性,模式之间相对独立且存在较大差异,则定义其为强标准模式,若标准模式具有较弱的类别代表性,模式之间可存在重合或特征的部分特征,则定义其为弱标准模式。
进一步的,所述S1中专家在为样本标注隶属度标签时,标注隶属度的结果不仅受样本与标准模式的相似度影响,还受专家自身标注偏好习惯的影响,把专家标注时的偏好习惯定义为专家偏好系数。
在前述方案的基础上,所述S1中专家对样本标注隶属度的过程,是建立在标准模式为强标准模式的假设条件上进行的,需要满足同一样本对所有的标注模式的隶属度之和不大于1的约束条件,所以定义满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件的情况为强约束模式,定义不满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件为无约束模式。
(三)有益效果
与现有技术相比,本发明提供了一种面向模式识别的模糊标注方法,具备以下有益效果:
1、本发明定义概念进行分类,强标准模式获取困难,而弱标准模式普遍存在,在弱标准模式下,标准模式之间存在重合或相似的部分特征,因此很难满足强约束模式,若强行要求弱标准模式满足强约束模式,可能会导致样本隶属度丢失关于弱标准模式之间的重合信息,提高标注方法的精准性。
2、本发明中,可以有效解决因强约束模式导致的隶属度标签丢失弱标准模式的相似信息的问题,提高标签的准确性,对标签中隐藏的专家偏好信息进行考虑,并利用专家偏好信息进行未标注样本标注预估,提高了标注的信息量。
3、本发明中,充分考虑了弱标准模式下,约束条件对算法结果的影响,有效利用类别标注中隐藏的专家偏好信息,并利用专家偏好信息进行未标注样本标注预估,提高专家标注隶属度标签的利用率。
4、本发明中,对已有的专家标注隶属度进行区间分组,通过统计方法得到专家偏好系数的预估值,再根据专家偏好系数的预估值,对未标注样本的隶属度进行预估,提高专家标注隶属度信息的利用率。
附图说明
图1为本发明提出的一种面向模式识别的模糊标注方法的流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,一种面向模式识别的模糊标注方法,包括以下步骤:
S1:定义概念,定义标注模式、弱标准模式、专家偏好系数、强约束模式、无约束模式的概念,强标准模式获取困难,而弱标准模式普遍存在,在弱标准模式下,标准模式之间存在重合或相似的部分特征,因此很难满足强约束模式,若强行要求弱标准模式满足强约束模式,可能会导致样本隶属度丢失关于弱标准模式之间的重合信息,提高标注方法的精准性;
S2:给定标准模式、待标注样本,标注专家,在无约束模式下专家标注阶段中,在处理实际模式评判问题时,给定的标准模式里强标准模式、弱标准模式均可能存在,采用无约束模式进行样本隶属度标注,即专家标注结果无需满足求和不大于1的约束条件;
模式评判存在给定的标准模式集合为此标准模式可以用提取已建立数据库等方法得到,从样本集X中选定少量个样本XL={x1,x2,...,xn}作为标注样本集,其余样本XU=X-XL为未标注样本集,与 xj具有相同类型的特征。标注专家包含专家偏好系数ρ;
S3:标注部分样本的隶属度标签,构建隶属度矩阵,在无约束模式下专家标注阶段中,专家凭借自身的经验知识或实验观测结果,得到样本xj与模式集V0隶属度标签其中μ·j(V0)表示样本xj与模式V0的理论隶属度,而表示将理论隶属度μ·j(V0)与专家偏好系数ρ结合得到的专家标注隶属度,表示专家标注的隶属度属于先验信息,根据专家标注的隶属度建立隶属度矩阵
其中NA为空缺项,代表未标注样本XU的隶属度,可以有效解决因强约束模式导致的隶属度标签丢失弱标准模式的相似信息的问题,提高标签的准确性,对标签中隐藏的专家偏好信息进行考虑,并利用专家偏好信息进行未标注样本标注预估,提高了标注的信息量;
S4:分组隶属度标签,预估专家偏好系数,在家偏好系数预估与未标注隶属度缺失值填补阶段,对于专家标注的隶属度标签然后对隶属度区间进行分组,统计各组所包含的隶属度标签频数,选择频数最大的组作为预估专家偏好系数的主要研究对象,设选择的组为S,对应的隶属度标签为将按公式计算的作为专家偏好系数的预估值充分考虑了弱标准模式下,约束条件对算法结果的影响,有效利用类别标注中隐藏的专家偏好信息,并利用专家偏好信息进行未标注样本标注预估,提高专家标注隶属度标签的利用率;
S5:填补隶属度矩阵,在家偏好系数预估与未标注隶属度缺失值填补阶段,以专家偏好系数预估值作为未标注样本的隶属度预估值,并进行隶属度矩阵的缺失值填补,得到填补后的隶属度矩阵 对已有的专家标注隶属度进行区间分组,通过统计方法得到专家偏好系数的预估值,再根据专家偏好系数的预估值,对未标注样本的隶属度进行预估,提高专家标注隶属度信息的利用率。
本发明的S1中在模式评判场景中,给定了多个具有类簇代表性的样本,作为专家对样本标注隶属度时的参考标准,这些给定的具有类簇代表性的样本为标准模式,这些标准模式可由已建立的标准数据库中提取得到,标准模式能在一定程度上反应其所代表类簇的特征,若标准模式具有很强的类簇代表性,模式之间相对独立且存在较大差异,则定义其为强标准模式,若标准模式具有较弱的类别代表性,模式之间可存在重合或特征的部分特征,则定义其为弱标准模式,S1中专家在为样本标注隶属度标签时,标注隶属度的结果不仅受样本与标准模式的相似度影响,还受专家自身标注偏好习惯的影响,把专家标注时的偏好习惯定义为专家偏好系数。
尤其的,S1中专家对样本标注隶属度的过程,是建立在标准模式为强标准模式的假设条件上进行的,需要满足同一样本对所有的标注模式的隶属度之和不大于1的约束条件,所以定义满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件的情况为强约束模式,定义不满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件为无约束模式,S4中计算公式为其中为组S中,共有个标注样本xj的隶属度,为第j个样本xj在组S中的隶属度所包含的标准模式数。
在该文中的描述中,需要说明的是,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种面向模式识别的模糊标注方法,其特征在于,包括以下步骤:
S1:定义概念,定义标注模式、弱标准模式、专家偏好系数、强约束模式、无约束模式的概念;
S2:给定标准模式、待标注样本,标注专家,在无约束模式下专家标注阶段中,在处理实际模式评判问题时,给定的标准模式里强标准模式、弱标准模式均可能存在,采用无约束模式进行样本隶属度标注,即专家标注结果无需满足求和不大于1的约束条件;
模式评判存在给定的标准模式集合为此标准模式可以用提取已建立数据库等方法得到,从样本集X中选定少量个样本XL={x1,x2,...,xn}作为标注样本集,其余样本XU=X-XL为未标注样本集,与xj具有相同类型的特征。标注专家包含专家偏好系数ρ;
S3:标注部分样本的隶属度标签,构建隶属度矩阵,在无约束模式下专家标注阶段中,专家凭借自身的经验知识或实验观测结果,得到样本xj与模式集V0隶属度标签其中μ·j(V0)表示样本xj与模式V0的理论隶属度,而表示将理论隶属度μ·j(V0)与专家偏好系数ρ结合得到的专家标注隶属度,表示专家标注的隶属度属于先验信息,根据专家标注的隶属度建立隶属度矩阵
其中NA为空缺项,代表未标注样本XU的隶属度;
S4:分组隶属度标签,预估专家偏好系数,在家偏好系数预估与未标注隶属度缺失值填补阶段,对于专家标注的隶属度标签然后对隶属度区间进行分组,统计各组所包含的隶属度标签频数,选择频数最大的组作为预估专家偏好系数的主要研究对象,设选择的组为S,对应的隶属度标签为将按公式计算的作为专家偏好系数的预估值
2.根据权利要求1所述的一种面向模式识别的模糊标注方法,其特征在于,所述S1中在模式评判场景中,给定了多个具有类簇代表性的样本,作为专家对样本标注隶属度时的参考标准,这些给定的具有类簇代表性的样本为标准模式,这些标准模式可由已建立的标准数据库中提取得到,标准模式能在一定程度上反应其所代表类簇的特征,若标准模式具有很强的类簇代表性,模式之间相对独立且存在较大差异,则定义其为强标准模式,若标准模式具有较弱的类别代表性,模式之间可存在重合或特征的部分特征,则定义其为弱标准模式。
3.根据权利要求2所述的一种面向模式识别的模糊标注方法,其特征在于,所述S1中专家在为样本标注隶属度标签时,标注隶属度的结果不仅受样本与标准模式的相似度影响,还受专家自身标注偏好习惯的影响,把专家标注时的偏好习惯定义为专家偏好系数。
4.根据权利要求3所述的一种面向模式识别的模糊标注方法,其特征在于,所述S1中专家对样本标注隶属度的过程,是建立在标准模式为强标准模式的假设条件上进行的,需要满足同一样本对所有的标注模式的隶属度之和不大于1的约束条件,所以定义满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件的情况为强约束模式,定义不满足同一样本对所有的专家模式的隶属度之和不大于1的约束条件为无约束模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111667134.5A CN114330574A (zh) | 2021-12-31 | 2021-12-31 | 一种面向模式识别的模糊标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111667134.5A CN114330574A (zh) | 2021-12-31 | 2021-12-31 | 一种面向模式识别的模糊标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330574A true CN114330574A (zh) | 2022-04-12 |
Family
ID=81020922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111667134.5A Pending CN114330574A (zh) | 2021-12-31 | 2021-12-31 | 一种面向模式识别的模糊标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330574A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859059A (zh) * | 2022-08-25 | 2023-03-28 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100057773A1 (en) * | 2008-08-29 | 2010-03-04 | Prodip Hore | Fuzzy tagging method and apparatus |
CN104965821A (zh) * | 2015-07-17 | 2015-10-07 | 苏州大学张家港工业技术研究院 | 一种数据标注方法及装置 |
CN105518658A (zh) * | 2013-03-15 | 2016-04-20 | 美国结构数据有限公司 | 用于将数据记录分组的设备、系统以及方法 |
CN105975984A (zh) * | 2016-04-29 | 2016-09-28 | 吉林大学 | 基于证据理论的网络质量评价方法 |
CN106446806A (zh) * | 2016-09-08 | 2017-02-22 | 山东师范大学 | 基于模糊隶属度稀疏重构的半监督人脸识别方法及系统 |
CN108268517A (zh) * | 2016-12-30 | 2018-07-10 | 希姆通信息技术(上海)有限公司 | 数据库中标签的管理方法及系统 |
CN112581382A (zh) * | 2019-09-27 | 2021-03-30 | 佳能株式会社 | 图像处理方法、装置及系统、存储介质和学习模型制造方法 |
-
2021
- 2021-12-31 CN CN202111667134.5A patent/CN114330574A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100057773A1 (en) * | 2008-08-29 | 2010-03-04 | Prodip Hore | Fuzzy tagging method and apparatus |
CN105518658A (zh) * | 2013-03-15 | 2016-04-20 | 美国结构数据有限公司 | 用于将数据记录分组的设备、系统以及方法 |
CN104965821A (zh) * | 2015-07-17 | 2015-10-07 | 苏州大学张家港工业技术研究院 | 一种数据标注方法及装置 |
CN105975984A (zh) * | 2016-04-29 | 2016-09-28 | 吉林大学 | 基于证据理论的网络质量评价方法 |
CN106446806A (zh) * | 2016-09-08 | 2017-02-22 | 山东师范大学 | 基于模糊隶属度稀疏重构的半监督人脸识别方法及系统 |
CN108268517A (zh) * | 2016-12-30 | 2018-07-10 | 希姆通信息技术(上海)有限公司 | 数据库中标签的管理方法及系统 |
CN112581382A (zh) * | 2019-09-27 | 2021-03-30 | 佳能株式会社 | 图像处理方法、装置及系统、存储介质和学习模型制造方法 |
Non-Patent Citations (3)
Title |
---|
WAI-HO AU AND KEITH C.C. CHAN: "Classification with Degree of Membership: A Fuzzy Approach", 《PROCEEDINGS 2001 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
胡静等: "模糊神经网络分类器的主动学习方法", 《中国科学技术大学学报》 * |
谭鸥等: "基于脑图谱和模糊聚类的磁共振图像分割标注", 《软件学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859059A (zh) * | 2022-08-25 | 2023-03-28 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
CN115859059B (zh) * | 2022-08-25 | 2024-03-22 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389180A (zh) | 一款基于深度学习的电力设备图像识别方法及巡查机器人 | |
CN101763502B (zh) | 一种高效的敏感图像检测方法及其系统 | |
CN105426826A (zh) | 一种基于标签噪声纠正的众包标注数据质量提升方法 | |
CN111401460A (zh) | 一种基于限值学习的异常电量数据辨识方法 | |
CN110942099A (zh) | 一种基于核心点保留的dbscan的异常数据识别检测方法 | |
CN115311507B (zh) | 基于数据处理的建筑板材分类方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN108509950A (zh) | 基于概率特征加权融合的铁路接触网支柱号牌检测识别法 | |
CN115271003A (zh) | 用于自动化环境监测设备的异常数据分析方法及系统 | |
CN114330574A (zh) | 一种面向模式识别的模糊标注方法 | |
CN115393664A (zh) | 一种用于目标检测的主动学习样本挑选方法 | |
CN115294377A (zh) | 一种道路裂缝的识别系统及方法 | |
CN110210561B (zh) | 神经网络的训练方法、目标检测方法及装置、存储介质 | |
CN109739840A (zh) | 数据空值处理方法、装置及终端设备 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN115294556A (zh) | 基于改进YOLOv5的密闭振动筛上异常流态流体检测方法 | |
CN114677333A (zh) | 一种基于直方图的图像对比度增强检测方法 | |
CN113919415A (zh) | 一种基于无监督算法的异常群组检测方法 | |
CN110278189B (zh) | 一种基于网络流量特征权重图谱的入侵检测方法 | |
CN103984960B (zh) | 一种遥感图像样本智能采集方法 | |
CN106874944A (zh) | 一种基于Bagging和离群点的分类结果置信度的度量方法 | |
CN113159363A (zh) | 一种基于历史新闻报道的事件趋势预测方法 | |
CN106326882A (zh) | 一种基于图像质量评估技术的指纹识别系统及方法 | |
CN110415217A (zh) | 基于子集导引与变异系数的图像集增强优选方法 | |
CN112241954B (zh) | 基于肿块差异化分类的全视野自适应分割网络配置方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220412 |