CN115392376A - 一种异源模糊隶属度矩阵标注方法、系统及装置 - Google Patents
一种异源模糊隶属度矩阵标注方法、系统及装置 Download PDFInfo
- Publication number
- CN115392376A CN115392376A CN202211027938.3A CN202211027938A CN115392376A CN 115392376 A CN115392376 A CN 115392376A CN 202211027938 A CN202211027938 A CN 202211027938A CN 115392376 A CN115392376 A CN 115392376A
- Authority
- CN
- China
- Prior art keywords
- fuzzy membership
- labeling
- matrix
- labeled
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 103
- 239000011159 matrix material Substances 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000010354 integration Effects 0.000 claims abstract description 4
- 230000007812 deficiency Effects 0.000 claims 3
- 238000012545 processing Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种异源模糊隶属度矩阵标注方法、系统及装置,该方法包括:获取标注任务并确定标注模式、待标注样本和标注主体;基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度矩阵;对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。该系统包括:数据获取模块、标注模块、整合模块和填补模块。该装置包括存储器以及用于执行上述异源模糊隶属度矩阵标注方法的处理器。通过使用本发明,能够提高模糊信息的标注质量和缺失数据的处理质量。本发明作为一种异源模糊隶属度矩阵标注方法、系统及装置,可广泛应用于数据处理领域。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种异源模糊隶属度矩阵标注方法、系统及装置。
背景技术
现有的模糊信息标注通常以人工标注为主,需要投入高昂的人力和物力。而众包标注因成本低廉、适用于图像、视频、语音、文本等各种模态的大规模数据的标注服务而受到模糊信息标注研究和工作人员的青睐。模糊信息众包标注工作一般涉及以下几个问题:1)标注服务需求方会提供一定的标注约束条件或标注参照标准(模式),这会让标注工作人员受到一定的局限性,从而影响到标注数据的质量;2)同批待标注样本的涉及的标注人员众多,且存在个人标注偏好差异和标注知识差异问题,所以样本间的标注标准很难做到一致;3)单个样本的模糊信息标注一般需要多个标注数据,从而提高了标注工作的繁杂性,因标注工作原因容易产生缺失问题。基于以上原因,产生了大量的带不同偏好信息和缺失信息的异源无约束模糊信息标注数据,迫切需要一种模糊数据处理方法以解决模糊信息标注和数据缺失问题。
发明内容
为了解决上述技术问题,本发明的目的是提供一种异源模糊隶属度矩阵标注方法、系统及装置,能够提高模糊信息标注质量和提高缺失数据的处理质量。
本发明所采用的第一技术方案是:一种异源模糊隶属度矩阵标注方法,包括以下步骤:
获取标注任务并确定标注模式、待标注样本和标注主体;
基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度矩阵;
对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
进一步,所述基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度这一步骤,其具体包括:
所述模式集根据标注模式确定。
进一步,所述缺失值包括完全缺失值和部分缺失值。
进一步,所述对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵这一步骤,其具体包括:
根据初始模糊隶属度矩阵获取模糊隶属度最大值和最小值;
根据模糊隶属度最大值和最小值预估标注主体的偏好系数,得到偏好预估值;
根据偏好预估值对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
进一步,所述偏好预估值的计算公式如下:
上式中,c为标注模式数量,rh为第r个标注主体所标注的第h个样本的索引,表示第r个标注主体的偏好预估值,H(r)表示第r个标注主体标注样本的数量,表示第r个标注主体在所标注的H(r)个样本中的第h个样本的模糊隶属度最大值,表示第r个标注主体在所标注的H(r)个样本中的第h个样本的模糊隶属度最小值。
进一步,所述根据偏好预估值对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵这一步骤,其具体包括:
获取所有标注主体的偏好预估值并计算平均值,得到偏好预估平均值;
将偏好预估平均值作为完全缺失值的填补值;
将对应标注主体在标注样本的偏好预估值作为部分缺失值的填补值;
完成缺失值填补,得到最终模糊隶属度矩阵。
本发明所采用的第二技术方案是:一种异源模糊隶属度矩阵标注系统,包括:
数据获取模块,用于获取标注任务并确定标注模式、待标注样本和标注主体;
标注模块,基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
整合模块,用于将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度矩阵;
填补模块,用于对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
本发明所采用的第三技术方案是:一种异源模糊隶属度矩阵标注装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述异源模糊隶属度矩阵标注方法。
本发明方法、系统及装置的有益效果是:本发明通过设计一种模糊信息异源无约束标注方法并建立模糊隶属度标注矩阵,根据模糊信息标注数据估算不同标注人员的偏好信息以填补缺失值,从而达到提高模糊信息标注质量和缺失数据处理质量的目标,适用于大规模模糊信息标注数据且能更有效处理缺失问题。
附图说明
图1是本发明一种异源模糊隶属度矩阵标注方法的步骤流程图;
图2是本发明一种异源模糊隶属度矩阵标注系统的结构框图;
图3是本发明具体实施例应用场景中标注过程示意图。
图4是本发明具体实施例应用场景中填补过程示意图
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1、图3和图4,本发明提供了一种异源模糊隶属度矩阵标注方法,该方法包括以下步骤:
S1、获取标注任务并确定标注模式、待标注样本和标注主体;
具体地,本具体实施例的标注主体为标注专家,我们用偏好系数ρ表示专家偏好,ρr(r=1,2,3...R)表示第r个专家偏好,专家偏好系数越高,表明当样本与标注模式关系大时,专家标注的模糊隶属度越偏高,表明当样本与标注模式关系小时,专家标注的模糊隶属度越偏低。
X={x1,x2,...,xn}为待标注样本的集合,xj表示X中的第j个样本,表示样本xj(j=1,2,...,n)关于标注模式的模糊隶属度。如果如果则称样本xj关于标注模式的模糊隶属度满足强约束(对应的标注约束条件称为强约束标注条件),否则称满足弱约束(对应的标注约束条件称为弱约束标注条件)。如果模糊隶属度无需满足强约束或弱约束,则称其满足无约束(对应的标注约束条件为无约束标注条件)。
样本xj(j=1,2,...,n)关于标注模式的模糊隶属度构成下式中的初始模糊隶属度矩阵其中表示第r个专家标注的样本xj关于标注模式的模糊隶属度 中包含了第r个专家偏好系数ρr和标注模式的信息。表示由第r个专家标注的样本xj关于标注模式的模糊隶属度所组成的向量:
S2、基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
采用无约束标注条件,标注主体根据先验知识判断待标注样本与模式集的关系,得到模糊隶属度 表示第r个标注主体标注的样本xj关于标注模式的模糊隶属度ρr表示第r个标注主体的偏好系数;所述模式集根据标注模式确定。
S3、将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度矩阵;
具体地,经过模糊隶属度矩阵标注过程得到的初始模糊隶属度矩阵存在两种类型的缺失值:第一种为未由专家标注的样本形成;第二种为由人为因素或硬件损耗产生,只有专家标注少数分量模糊隶属度的样本。我们称第一种缺失值为完全缺失值,第二种缺失值为部分缺失值。下式展示了当样本x3的模糊隶属度为完全缺失值,样本xj在关于标注模式和的模糊隶属度为部分缺失值时,的形式,NA为缺失值。
S4、对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
S4.1、根据初始模糊隶属度矩阵获取模糊隶属度最大值和最小值;
具体地,从初始模糊隶属度矩阵中统计样本xj(j=1,2...,n)的模糊隶属度最大值和最小值对于完全缺失值所在样本,不统计该样本的模糊隶属度最大值和最小值,对部分缺失值所在的样本,部分缺失的模糊隶属度不参与该样本的模糊隶属度最大、最小比较。
S4.2、根据模糊隶属度最大值和最小值预估标注主体的偏好系数,得到偏好预估值;
所述偏好预估值的计算公式如下:
上式中,c为标注模式数量,rh为第r个标注主体所标注的第h个样本的索引,表示第r个标注主体的偏好预估值,H(r)表示第r个标注主体标注样本的数量,表示第r个标注主体在所标注的H(r)个样本中的第h个样本的模糊隶属度最大值,表示第r个标注主体在所标注的H(r)个样本中的第h个样本的模糊隶属度最小值。
S4.3、根据偏好预估值对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
S4.3.1、获取所有标注主体的偏好预估值并计算平均值,得到偏好预估平均值;
S4.3.2、将偏好预估平均值作为完全缺失值的填补值;
S4.3.3、将对应标注主体在标注样本的偏好预估值作为部分缺失值的填补值;
S4.3.4、完成缺失值填补,得到最终模糊隶属度矩阵。
具体地,根据前面步骤阶段得到的R个专家的偏好预估值集合将所有专家的偏好预估值的均值作为模糊隶属度矩阵中的完全缺失值的填补值,将作为第r个专家所标注样本的模糊隶属度的部分缺失值的填补值,得到最终模糊隶属度矩阵。计算公式如下所示:
如图2所示,一种异源模糊隶属度矩阵标注系统,包括:
数据获取模块,用于获取标注任务并确定标注模式、待标注样本和标注主体;
标注模块,基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
整合模块,用于将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度矩阵;
填补模块,用于对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种异源模糊隶属度矩阵标注装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种异源模糊隶属度矩阵标注方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种异源模糊隶属度矩阵标注方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.一种异源模糊隶属度矩阵标注方法,其特征在于,包括以下步骤:
获取标注任务并确定标注模式、待标注样本和标注主体;
基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度矩阵;
对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
3.根据权利要求1所述一种异源模糊隶属度矩阵标注方法,其特征在于,所述缺失值包括完全缺失值和部分缺失值。
4.根据权利要求3所述一种异源模糊隶属度矩阵标注方法,其特征在于,所述对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵这一步骤,其具体包括:
根据初始模糊隶属度矩阵获取模糊隶属度最大值和最小值;
根据模糊隶属度最大值和最小值预估标注主体的偏好系数,得到偏好预估值;
根据偏好预估值对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
6.根据权利要求5所述一种异源模糊隶属度矩阵标注方法,其特征在于,所述根据偏好预估值对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵这一步骤,其具体包括:
获取所有标注主体的偏好预估值并计算平均值,得到偏好预估平均值;
将偏好预估平均值作为完全缺失值的填补值;
将对应标注主体在标注样本的偏好预估值作为部分缺失值的填补值;
完成缺失值填补,得到最终模糊隶属度矩阵。
7.一种异源模糊隶属度矩阵标注系统,其特征在于,包括:
数据获取模块,用于获取标注任务并确定标注模式、待标注样本和标注主体;
标注模块,基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
整合模块,用于将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度矩阵;
填补模块,用于对初始模糊隶属度矩阵进行缺失值填补,得到最终模糊隶属度矩阵。
8.一种异源模糊隶属度矩阵标注装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述一种异源模糊隶属度矩阵标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027938.3A CN115392376B (zh) | 2022-08-25 | 2022-08-25 | 一种异源模糊隶属度矩阵标注方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027938.3A CN115392376B (zh) | 2022-08-25 | 2022-08-25 | 一种异源模糊隶属度矩阵标注方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115392376A true CN115392376A (zh) | 2022-11-25 |
CN115392376B CN115392376B (zh) | 2024-02-02 |
Family
ID=84122362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211027938.3A Active CN115392376B (zh) | 2022-08-25 | 2022-08-25 | 一种异源模糊隶属度矩阵标注方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392376B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859059A (zh) * | 2022-08-25 | 2023-03-28 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104851090A (zh) * | 2015-04-28 | 2015-08-19 | 四川九洲电器集团有限责任公司 | 图像变化检测方法及装置 |
US20200193220A1 (en) * | 2018-12-18 | 2020-06-18 | National Sun Yat-Sen University | Method for data imputation and classification and system for data imputation and classification |
CN111353379A (zh) * | 2020-01-06 | 2020-06-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于权重聚类的信号测量特征匹配标注方法 |
CN114266321A (zh) * | 2021-12-31 | 2022-04-01 | 广东泰迪智能科技股份有限公司 | 一种基于无约束先验信息模式的弱监督模糊聚类算法 |
-
2022
- 2022-08-25 CN CN202211027938.3A patent/CN115392376B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104851090A (zh) * | 2015-04-28 | 2015-08-19 | 四川九洲电器集团有限责任公司 | 图像变化检测方法及装置 |
US20200193220A1 (en) * | 2018-12-18 | 2020-06-18 | National Sun Yat-Sen University | Method for data imputation and classification and system for data imputation and classification |
CN111353379A (zh) * | 2020-01-06 | 2020-06-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于权重聚类的信号测量特征匹配标注方法 |
CN114266321A (zh) * | 2021-12-31 | 2022-04-01 | 广东泰迪智能科技股份有限公司 | 一种基于无约束先验信息模式的弱监督模糊聚类算法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859059A (zh) * | 2022-08-25 | 2023-03-28 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115392376B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163634B (zh) | 实例分割模型样本筛选方法、装置、计算机设备及介质 | |
CN110599131B (zh) | 一种电气图纸识别与审查方法、装置及可读存储介质 | |
CN111160469B (zh) | 一种目标检测系统的主动学习方法 | |
CN110210731A (zh) | 提醒任务分配方法、装置、计算机设备和存储介质 | |
CN111931931A (zh) | 一种针对病理全场图像的深度神经网络训练方法、装置 | |
Gore et al. | Full reference image quality metrics for JPEG compressed images | |
CN115392376A (zh) | 一种异源模糊隶属度矩阵标注方法、系统及装置 | |
CN112446441B (zh) | 模型训练数据筛选方法、装置、设备及存储介质 | |
CN111414916A (zh) | 图像中文本内容提取生成方法、装置及可读存储介质 | |
CN112308802A (zh) | 一种基于大数据的图像分析方法及系统 | |
CN112287884A (zh) | 一种考试异常行为检测方法、装置及计算机可读存储介质 | |
CN111860927B (zh) | 模型的训练方法、服务请求处理方法、装置、设备及介质 | |
CN109086816A (zh) | 一种基于贝叶斯分类算法的用户行为分析系统 | |
CN113822144A (zh) | 一种目标检测方法、装置、计算机设备和存储介质 | |
CN112614570A (zh) | 样本集标注、病理图像分类、分类模型构建方法及装置 | |
CN116934256A (zh) | 基于框选标记技术赋分点的评标方法、监管方法及系统 | |
CN115171241B (zh) | 一种视频帧定位方法、装置、电子设备及存储介质 | |
CN116823700A (zh) | 一种图像质量的确定方法和装置 | |
CN115859059B (zh) | 一种模糊信息的可重复标注方法、系统及装置 | |
CN112559641B (zh) | 拉链表的处理方法及装置、可读存储介质、电子设备 | |
CN111078984B (zh) | 网络模型发布方法、装置、计算机设备和存储介质 | |
CN115170908A (zh) | 数据标注模型训练方法、装置及电子设备 | |
CN115131686A (zh) | 一种基于主动学习和半监督学习的智能电力巡检方法 | |
CN111461265B (zh) | 基于粗-细粒度多图多标签学习的场景图像标注方法 | |
CN113822228B (zh) | 一种基于持续学习的用户表情识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |