CN112579657A - 基于机器学习的数据标签识别与标记方法及系统 - Google Patents
基于机器学习的数据标签识别与标记方法及系统 Download PDFInfo
- Publication number
- CN112579657A CN112579657A CN202011547901.4A CN202011547901A CN112579657A CN 112579657 A CN112579657 A CN 112579657A CN 202011547901 A CN202011547901 A CN 202011547901A CN 112579657 A CN112579657 A CN 112579657A
- Authority
- CN
- China
- Prior art keywords
- content
- label
- tag
- production
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000010801 machine learning Methods 0.000 title claims abstract description 44
- 238000004519 manufacturing process Methods 0.000 claims abstract description 395
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000012544 monitoring process Methods 0.000 claims description 259
- 230000000007 visual effect Effects 0.000 claims description 209
- 238000012800 visualization Methods 0.000 claims description 126
- 230000008569 process Effects 0.000 claims description 19
- 238000007619 statistical method Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 6
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 10
- 238000003860 storage Methods 0.000 abstract description 6
- 230000010354 integration Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明是关于基于机器学习的数据标签识别与标记方法及系统,该方案通过机器学习模型进行相应的标签识别处理,并基于可视化标签信息识别结果和实例关联标签信息识别结果进行统计分析,以消除标签生产过程中出现的误差以及数据对象实例的智能关联过程中出现的误差。在根据当前标签信息识别结果对原始数据标签信息进行识别和标记时,能够充分考虑标签生产过程中的生成、存储、分类标记、去重、查询、同步和集成等协调性处理流程,并且在进行数据对象实例的智能关联时不会对数据对象实例产生影响,这样,可以保证最终的标签识别结果和标签标记结果尽可能地与用户实际情况相匹配,进而为后续的数据分析提供准确可靠的数据基础。
Description
技术领域
本申请涉及机器学习和数据标签处理技术领域,具体而言,涉及一种基于机器学习的数据标签识别与标记方法及系统。
背景技术
用户标签也可以称为用户画像,是基于用户行为分析获得的对用户的一种认知表达,也是后续数据分析加工的起点。因此,对用户标签进行准确的识别和标记对于后续的数据分析的精准性而言是非常重要的。然而,现有技术在进行用户标签的识别和标记时,常常出现不同程度的偏差,从而会影响到基于用户标签进行数据分析的精准性。
发明内容
第一方面用以提供一种基于机器学习的数据标签识别与标记方法,应用于服务器,所述方法至少包括以下步骤:
获取待进行处理的原始数据标签信息;对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表;
基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果;
基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果;
基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果;所述目标生产指标包括内容可视化生产指标和内容关联生产指标中的至少一种,所述当前标签信息识别结果用于对所述原始数据标签信息进行识别和标记。
优选地,所述对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表,包括:
对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控,得到各个数据标签信息的标签内容中的内容可视化生产的监控结果、以及各内容可视化生产的监控结果所对应的原始标签内容的生产需求信息;
基于各数据标签信息的标签内容中的内容可视化生产的监控结果和相应的原始标签内容的生产需求信息,确定内容可视化生产监控报表;
对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容关联生产监控,得到内容关联生产监控报表;
其中,所述对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容关联生产监控,得到内容关联生产监控报表,包括:
对所述原始数据标签信息的标签内容中的多个数据标签信息的标签内容分别进行数据对象实例监控,得到各数据标签信息的标签内容分别对应的数据对象实例内容;
对所述原始数据标签信息的标签内容中的多个数据标签信息的标签内容分别进行对象实例的更新状态监控,得到各数据标签信息的标签内容分别对应的对象实例的更新状态监控报表;
将对应于相同数据对象实例的数据对象实例内容和对象实例的更新状态监控报表进行关联;
基于所述原始数据标签信息的标签内容中与目标数据对象实例内容相关联的对象实例的更新状态监控报表进行内容关联生产监控处理,得到内容关联生产监控报表。
优选地,所述基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果,包括:
对所述内容可视化生产监控报表中的每个数据标签信息的标签内容分别进行生产需求信息配对,得到每个数据标签信息的标签内容各自对应的唯一生产需求信息;
基于每个数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的生产监控时效信息,分别进行监控结果更新处理,得到更新后的内容可视化生产监控报表;
对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多个包括有内容可视化生产记录的候选的可视化标签信息识别结果;
根据各所述候选的可视化标签信息识别结果分别对应的内容可视化类型,对属于相同内容可视化类型的候选的可视化标签信息识别结果进行标签信息同步,得到包括有内容可视化生产记录的可视化标签信息识别结果;
其中,所述对所述内容可视化生产监控报表中的每个数据标签信息的标签内容分别进行生产需求信息配对,得到每个数据标签信息的标签内容各自对应的唯一生产需求信息,包括:
针对所述内容可视化生产监控报表中的每个数据标签信息的标签内容,当数据标签信息的标签内容的原始标签内容的生产需求信息的数量为至少两个时,获取每个原始标签内容的生产需求信息的用户需求热度;
当生产需求信息的用户需求热度最高的原始标签内容的生产需求信息为一个时,将所述生产需求信息的用户需求热度最高的原始标签内容的生产需求信息作为相应数据标签信息的标签内容的唯一生产需求信息;
当所述生产需求信息的用户需求热度最高的原始标签内容的生产需求信息为至少两个时,针对每个生产需求信息的用户需求热度最高的原始标签内容的生产需求信息,获取对应的内容可视化生产的监控结果的监控结果更新热度;
根据最高的监控结果更新热度所对应的原始标签内容的生产需求信息,确定相应数据标签信息的标签内容所对应的唯一生产需求信息;
其中,所述基于每个数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的生产监控时效信息,分别进行监控结果更新处理,得到更新后的内容可视化生产监控报表,包括:
对于每个数据标签信息的标签内容,获取各数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的标签分类次数;当所述标签分类次数在预设标签分类次数区间内时,保留相对应的内容可视化生产监控报表,保留的所述内容可视化生产监控报表包括内容可视化生产的监控结果、以及所述内容可视化生产的监控结果对应的唯一生产需求信息;
当所述标签分类次数不在所述预设标签分类次数区间内时,将相应的数据标签信息的标签内容的内容可视化生产监控报表进行清除;基于各数据标签信息的标签内容各自对应的内容可视化生产监控报表,得到更新后的内容可视化生产监控报表。
优选地,所述对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多个包括有内容可视化生产记录的候选的可视化标签信息识别结果,包括:
对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多组的已变化的标签内容和未变化的标签内容;确定每组已变化的标签内容和未变化的标签内容之间的标签信息识别结果的差异信息;当所述标签信息识别结果的差异信息对应的差异评价值大于或等于预设评价值时,将相应组的已变化的标签内容和未变化的标签内容所构成的标签信息识别结果作为候选的可视化标签信息识别结果;
对于每个候选的可视化标签信息识别结果,根据所述候选的可视化标签信息识别结果中各数据标签信息的标签内容分别对应的更新后的唯一生产需求信息,确定统计次数最多的目标内容可视化类型;
将所述目标内容可视化类型,作为相对应候选的可视化标签信息识别结果所包括的内容可视化生产对应的内容可视化类型。
优选地,所述内容可视化生产监控报表中的内容可视化生产监控报表包括已进行用户标签覆盖的报表和已进行标签定义的报表,所述对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多组的已变化的标签内容和未变化的标签内容,包括:
将所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的数据标签信息的标签内容作为当前组的已变化的标签内容;
遍历所述当前组的已变化的标签内容之后的数据标签信息的标签内容;
当遍历至的当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内数据标签信息的标签内容所对应的内容可视化生产监控报表均为已进行用户标签覆盖的报表时,将所述当前标签内容作为所述当前组的未变化的标签内容;
将所述当前组的未变化的标签内容之后的首个已进行标签定义的报表所对应的数据标签信息的标签内容,作为下一次循环的当前组的已变化的标签内容,并返回所述遍历所述当前组的已变化的标签内容之后的数据标签信息的标签内容的步骤继续执行,直至得到多组的已变化的标签内容和未变化的标签内容。
优选地,所述当遍历至的当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内数据标签信息的标签内容所对应的内容可视化生产监控报表均为已进行用户标签覆盖的报表时,将所述当前标签内容作为所述当前组的未变化的标签内容之前,所述方法还包括:
当由遍历至的当前标签内容与所述当前组的已变化的标签内容所确定的标签信息识别结果的标签组合方式的数量小于预设数量时,确定所述当前标签内容对应的内容可视化生产监控报表是否为已进行用户标签覆盖的报表;
在所述当前标签内容对应已进行标签定义的报表时,将所述当前标签内容作为所述当前组所对应的标签信息识别结果中的其中一标签内容;
在所述当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内的内容可视化生产监控报表中包括已进行标签定义的报表时,将从所述当前标签内容开始的所述预设生产监控时段内的首个已进行标签定义的报表所对应的数据标签信息的标签内容,作为遍历的下一个当前标签内容,并返回所述当由遍历至的当前标签内容与所述当前组的已变化的标签内容所确定的标签信息识别结果的标签组合方式的数量小于预设数量时,确定所述当前标签内容对应的内容可视化生产监控报表是否为已进行用户标签覆盖的报表的步骤继续执行。
优选地,所述将所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的数据标签信息的标签内容作为当前组的已变化的标签内容,包括:
确定所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的原始数据标签信息的标签内容;
当所述原始数据标签信息的标签内容的后一标签内容所对应的内容可视化生产监控报表为已进行用户标签覆盖的报表时,将所述原始数据标签信息的标签内容对应的内容可视化生产监控报表进行清除;
当所述原始数据标签信息的标签内容的后一标签内容所对应的内容可视化生产监控报表为已进行标签定义的报表时,将所述原始数据标签信息的标签内容作为当前组的已变化的标签内容。
优选地,所述根据各所述候选的可视化标签信息识别结果分别对应的内容可视化类型,对属于相同内容可视化类型的候选的可视化标签信息识别结果进行标签信息同步,得到包括有内容可视化生产记录的可视化标签信息识别结果,包括:
确定各所述候选的可视化标签信息识别结果分别对应的内容可视化类型;
当在时序上相邻的多于一个的候选的可视化标签信息识别结果均属于相同的内容可视化类型时,将所述多于一个的候选的可视化标签信息识别结果进行整合,得到与所述相同的内容可视化类型对应的可视化标签信息识别结果。
优选地,所述基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果,包括:
对所述内容关联生产监控报表进行阶段性更新处理,得到多个包括有内容关联生产记录的候选的实例关联识别结果;
根据各所述候选的实例关联识别结果所对应的内容关联类型,对属于相同内容关联类型的候选的实例关联识别结果进行标签信息同步,得到包括有内容关联生产记录的实例关联标签信息识别结果;
其中,所述基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果,包括:
当所述实例关联标签信息识别结果与所述可视化标签信息识别结果存在识别结果关联时,或者,所述可视化标签信息识别结果与所述实例关联标签信息识别结果存在识别结果关联时,更新所述实例关联标签信息识别结果并保留所述可视化标签信息识别结果,得到与内容可视化生产相匹配的当前标签信息识别结果;
当所述可视化标签信息识别结果中的后一组数据标签信息的标签内容,与所述实例关联标签信息识别结果中的前一组数据标签信息的标签内容存在重合时,保留所述可视化标签信息识别结果作为与内容可视化生产相匹配的当前标签信息识别结果,并将所述可视化标签信息识别结果中的未变化的标签内容作为所述实例关联标签信息识别结果的已变化的标签内容,得到更新后的实例关联标签信息识别结果,将所述更新后的实例关联标签信息识别结果作为与内容关联生产相匹配的当前标签信息识别结果;
当所述实例关联标签信息识别结果中的后一组数据标签信息的标签内容,与所述可视化标签信息识别结果中的前一组数据标签信息的标签内容存在重合时,保留所述可视化标签信息识别结果作为与内容可视化生产相匹配的当前标签信息识别结果,并将所述可视化标签信息识别结果中的已变化的标签内容作为所述实例关联标签信息识别结果的未变化的标签内容,得到更新后的实例关联标签信息识别结果,将更新后的实例关联标签信息识别结果作为与内容关联生产相匹配的当前标签信息识别结果。
第二方面用以提供一种基于机器学习的数据标签识别与标记系统,包括互相之间通信的服务器和用户终端;其中,所述服务器用于:
从所述用户终端中获取待进行处理的原始数据标签信息;对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表;
基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果;
基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果;
基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果;所述目标生产指标包括内容可视化生产指标和内容关联生产指标中的至少一种,所述当前标签信息识别结果用于对所述原始数据标签信息进行识别和标记。
本发明实施例提供的基于机器学习的数据标签识别与标记方法及系统具有以下技术效果:通过用于进行可视化监控的机器学习模型以及用于进行对象实例标签关联的机器学习模型进行相应的标签识别处理,并基于可视化标签信息识别结果和实例关联标签信息识别结果进行统计分析,以消除标签生产过程中出现的误差以及数据对象实例的智能关联过程中出现的误差,如此一来,在根据当前标签信息识别结果对原始数据标签信息进行识别和标记时,能够充分考虑标签生产过程中的生成、存储、分类标记、去重、查询、同步和集成等协调性处理流程,并且在进行数据对象实例的智能关联时不会对数据对象实例产生影响,这样,可以保证最终的标签识别结果和标签标记结果尽可能地与用户实际情况相匹配,进而为后续的数据分析提供准确可靠的数据基础。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例,其中参考数字在附图的各个视图中代表相似的机构。
图1是根据本发明的一些实施例所示的一种示例性基于机器学习的数据标签识别与标记系统的框图。
图2是根据本发明的一些实施例所示的一种示例性服务器中硬件和软件组成的示意图。
图3是根据本发明的一些实施例所示的一种示例性基于机器学习的数据标签识别与标记方法和/或过程的流程图。
具体实施方式
发明人经调查和研究发现,现有技术在进行用户标签的识别和标记时,通常会忽略标签生产过程的可视化监控,以及忽视数据对象实例与数据标签的智能关联,这样一来,若标签生产过程中出现误差或者数据对象实例的智能关联出现错误,可能导致最终的标签识别结果和标签标记结果的不准确,进而影响到基于用户标签进行数据分析的精准性。
为改善上述目的,发明人创新性地提出了一种基于机器学习的数据标签识别与标记方法及系统,在对待进行处理的原始数据标签信息机芯标记和识别之前,能够通过用于进行可视化监控的机器学习模型以及用于进行对象实例标签关联的机器学习模型进行相应的标签识别处理,并基于可视化标签信息识别结果和实例关联标签信息识别结果进行统计分析,以消除标签生产过程中出现的误差以及数据对象实例的智能关联过程中出现的误差,如此一来,在根据当前标签信息识别结果对原始数据标签信息进行识别和标记时,能够充分考虑标签生产过程中的生成、存储、分类标记、去重、查询、同步和集成等协调性处理流程,并且在进行数据对象实例的智能关联时不会对数据对象实例产生影响,这样,可以保证最终的标签识别结果和标签标记结果尽可能地与用户实际情况相匹配,进而为后续的数据分析提供准确可靠的数据基础。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
在下面的详细描述中,通过实例阐述了许多具体细节,以便提供对相关指导的全面了解。然而,对于本领域的技术人员来说,显然可以在没有这些细节的情况下实施本发明。在其他情况下,公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述,没有细节,以避免不必要的模糊本发明的方面。
这些和其他特性、当前申请披露的功能、执行的方法、结构中相关元素的功能和部件的组合和生产经济性,在参照附图进行以下描述的考虑中可能会变得更加明显,所有这些形成本申请的一部分。然而,需要理解清楚的是,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当了解的是,这些图纸不是按比例绘制的。然而,应当明确理解的是,附图仅用于说明和描述的目的,并不意图限制本发明的范围。应当知晓的是,这些附图并不依照比例。
本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是,流程图的执行过程可以不按顺序执行。相反,这些执行过程可以以相反的顺序或同时执行。另外,可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。
图1是根据本发明的一些实施例所示的一种示例性基于机器学习的数据标签识别与标记系统300的框图,基于机器学习的数据标签识别与标记系统300可以包括服务器100和用户终端200。其中,用户终端200可以是智能电子设备例如手机、平板电脑、台式电脑、笔记本电脑或者可穿戴设备等。
在一些实施例中,如图2所示,服务器100可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。
处理引擎110可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。
网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。
存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。
可以理解,图2所示的结构仅为示意,服务器100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
图3是根据本发明的一些实施例所示的一种示例性基于机器学习的数据标签识别与标记方法和/或过程的流程图,基于机器学习的数据标签识别与标记方法应用于图1中的服务器100,具体可以包括以下步骤S31-步骤S34。
步骤S31,获取待进行处理的原始数据标签信息;对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表。
在本实施例中,原始数据标签信息可以从用户终端中采集,也可以从其他服务器平台中采集,应当理解,原始数据标签信息不涉及用户的隐私信息,通常可以涉及用户在开放的平台上的用户行为数据对应的相关信息。
在本实施例中,标签内容可以涵盖用户的方方面面例如衣、食、住、行、工作、娱乐等内容。内容可视化生产监控能够实现对标签生产全过程的可视化展示,从而实现对标签生产全过程的实时准确调整。内容关联生产监控能够实现对数据对象实例与标签智能关联管理,例如,一个数据对象实例可与多个标签关联。每个数据对象实例分配一个标签资产ID。标签资产ID对应一组标签组合。当数据对象所关联标签发生变化时,变更标签组合即可,不影响数据对象实例本身。内容可视化生产监控报表和内容关联生产监控报表可以按照设定的列表形式进行记录,在此不作限定。
可以理解,通过报表可以让数据分析师对标签定义分布及用户标签覆盖情况等价值指标一目了然。
步骤S32,基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果。
步骤S33,基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果。
在本实施例中,用于进行可视化监控的机器学习模型以及用于进行对象实例标签关联的机器学习模型均可以是神经网络模型,它们的训练过程可以类似,且为现有技术,因此在此不作更多说明。可以理解,通过调整机器学习模型的模型参数,可以实现不同的功能,例如上述的可视化监控功能和对象实例标签关联功能。内容可视化生产记录可以以图表的形式进行记录。内容关联生产记录可以通过列表或者连线的形式进行记录,在此不作限定。
步骤S34,基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果;所述目标生产指标包括内容可视化生产指标和内容关联生产指标中的至少一种,所述当前标签信息识别结果用于对所述原始数据标签信息进行识别和标记。
在本实施例中,目标生产指标可以根据预先配置的标签业务需求进行调整,例如,标签业务需求可以是商家平台向服务器上传的。当前标签信息识别结果用于表征针对原始数据标签信息的用户画像(用户标签)识别结果,可以理解,通过当前标签信息识别结果对原始数据标签信息进行识别和标记,能够保证最终的标签识别结果和标签标记结果尽可能地与用户实际情况相匹配,进而为后续的数据分析提供准确可靠的数据基础。
综上所述,在应用上述步骤S31-步骤S34所描述的内容时,通过用于进行可视化监控的机器学习模型以及用于进行对象实例标签关联的机器学习模型进行相应的标签识别处理,并基于可视化标签信息识别结果和实例关联标签信息识别结果进行统计分析,以消除标签生产过程中出现的误差以及数据对象实例的智能关联过程中出现的误差,如此一来,在根据当前标签信息识别结果对原始数据标签信息进行识别和标记时,能够充分考虑标签生产过程中的生成、存储、分类标记、去重、查询、同步和集成等协调性处理流程,并且在进行数据对象实例的智能关联时不会对数据对象实例产生影响,这样,可以保证最终的标签识别结果和标签标记结果尽可能地与用户实际情况相匹配,进而为后续的数据分析提供准确可靠的数据基础。
接下来将对一些可选实施例进行说明,这些实施例应当理解为示例,不应理解为实现本方案所必不可少的技术特征。
在一些实施例中,步骤S31所描述的对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表,可以包括以下步骤S311-步骤S313所描述的内容。
步骤S311,对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控,得到各个数据标签信息的标签内容中的内容可视化生产的监控结果、以及各内容可视化生产的监控结果所对应的原始标签内容的生产需求信息。
步骤S312,基于各数据标签信息的标签内容中的内容可视化生产的监控结果和相应的原始标签内容的生产需求信息,确定内容可视化生产监控报表。
步骤S313,对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容关联生产监控,得到内容关联生产监控报表。
如此,能够将生产需求信息考虑在内,从而确保内容可视化生产监控报表与实际的业务需求相匹配,进而减少标签生产过程中出现的业务匹配性错误。
更进一步地,步骤S313所描述的对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容关联生产监控,得到内容关联生产监控报表,可以包括以下步骤S3131-步骤S3134所描述的内容。
步骤S3131,对所述原始数据标签信息的标签内容中的多个数据标签信息的标签内容分别进行数据对象实例监控,得到各数据标签信息的标签内容分别对应的数据对象实例内容。
步骤S3132,对所述原始数据标签信息的标签内容中的多个数据标签信息的标签内容分别进行对象实例的更新状态监控,得到各数据标签信息的标签内容分别对应的对象实例的更新状态监控报表。
步骤S3133,将对应于相同数据对象实例的数据对象实例内容和对象实例的更新状态监控报表进行关联。
步骤S3134,基于所述原始数据标签信息的标签内容中与目标数据对象实例内容相关联的对象实例的更新状态监控报表进行内容关联生产监控处理,得到内容关联生产监控报表。
在一些实施例中,步骤S32所描述的所述基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果,可以包括以下步骤S321-步骤S324所描述的内容。
步骤S321,对所述内容可视化生产监控报表中的每个数据标签信息的标签内容分别进行生产需求信息配对,得到每个数据标签信息的标签内容各自对应的唯一生产需求信息。
步骤S322,基于每个数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的生产监控时效信息,分别进行监控结果更新处理,得到更新后的内容可视化生产监控报表。
步骤S323,对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多个包括有内容可视化生产记录的候选的可视化标签信息识别结果。
步骤S324,根据各所述候选的可视化标签信息识别结果分别对应的内容可视化类型,对属于相同内容可视化类型的候选的可视化标签信息识别结果进行标签信息同步,得到包括有内容可视化生产记录的可视化标签信息识别结果。
如此,在确定可视化标签信息识别结果时,能够考虑海量标签的智能生成、更新以及同步,从而确保可视化标签信息识别结果完整地反映出标签生产过程中的各个生产节点(比如相关数据信息处理节点)的状态信息。
更进一步地,步骤S321所描述的对所述内容可视化生产监控报表中的每个数据标签信息的标签内容分别进行生产需求信息配对,得到每个数据标签信息的标签内容各自对应的唯一生产需求信息,可以包括以下步骤S3211-步骤S3214所描述的内容。
步骤S3211,针对所述内容可视化生产监控报表中的每个数据标签信息的标签内容,当数据标签信息的标签内容的原始标签内容的生产需求信息的数量为至少两个时,获取每个原始标签内容的生产需求信息的用户需求热度。
步骤S3212,当生产需求信息的用户需求热度最高的原始标签内容的生产需求信息为一个时,将所述生产需求信息的用户需求热度最高的原始标签内容的生产需求信息作为相应数据标签信息的标签内容的唯一生产需求信息。
步骤S3213,当所述生产需求信息的用户需求热度最高的原始标签内容的生产需求信息为至少两个时,针对每个生产需求信息的用户需求热度最高的原始标签内容的生产需求信息,获取对应的内容可视化生产的监控结果的监控结果更新热度。
步骤S3214,根据最高的监控结果更新热度所对应的原始标签内容的生产需求信息,确定相应数据标签信息的标签内容所对应的唯一生产需求信息。
如此设计,基于上述步骤S3211-步骤S3214所描述的内容时,通过对每个原始标签内容的生产需求信息的用户需求热度的热度分析,能够确保标签内容所对应的唯一生产需求信息能够考虑不同的用户需求热度,从而实现精准的生产需求信息配对。
进一步地,在步骤S322中,基于每个数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的生产监控时效信息,分别进行监控结果更新处理,得到更新后的内容可视化生产监控报表,可以包括:对于每个数据标签信息的标签内容,获取各数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的标签分类次数;当所述标签分类次数在预设标签分类次数区间内时,保留相对应的内容可视化生产监控报表,保留的所述内容可视化生产监控报表包括内容可视化生产的监控结果、以及所述内容可视化生产的监控结果对应的唯一生产需求信息;当所述标签分类次数不在所述预设标签分类次数区间内时,将相应的数据标签信息的标签内容的内容可视化生产监控报表进行清除;基于各数据标签信息的标签内容各自对应的内容可视化生产监控报表,得到更新后的内容可视化生产监控报表。如此设计,在进行更新处理时,能够将标签的分类次数考虑在内,从而在标签生产过程中尽可能全面地实现可视化生产监控,确保标签生产符合用户需求。
进一步地,步骤S323所描述的所述对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多个包括有内容可视化生产记录的候选的可视化标签信息识别结果,可以包括步骤S3230:对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多组的已变化的标签内容和未变化的标签内容;确定每组已变化的标签内容和未变化的标签内容之间的标签信息识别结果的差异信息;当所述标签信息识别结果的差异信息对应的差异评价值大于或等于预设评价值时,将相应组的已变化的标签内容和未变化的标签内容所构成的标签信息识别结果作为候选的可视化标签信息识别结果;对于每个候选的可视化标签信息识别结果,根据所述候选的可视化标签信息识别结果中各数据标签信息的标签内容分别对应的更新后的唯一生产需求信息,确定统计次数最多的目标内容可视化类型;将所述目标内容可视化类型,作为相对应候选的可视化标签信息识别结果所包括的内容可视化生产对应的内容可视化类型。
在一些可能的实施例中,所述内容可视化生产监控报表中的内容可视化生产监控报表包括已进行用户标签覆盖的报表和已进行标签定义的报表,基于此,上述步骤S3230中的所述对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多组的已变化的标签内容和未变化的标签内容,可以包括如下步骤S3231-步骤S3234。
步骤S3231,将所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的数据标签信息的标签内容作为当前组的已变化的标签内容。
步骤S3232,遍历所述当前组的已变化的标签内容之后的数据标签信息的标签内容。
步骤S3233,当遍历至的当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内数据标签信息的标签内容所对应的内容可视化生产监控报表均为已进行用户标签覆盖的报表时,将所述当前标签内容作为所述当前组的未变化的标签内容。
步骤S3234,将所述当前组的未变化的标签内容之后的首个已进行标签定义的报表所对应的数据标签信息的标签内容,作为下一次循环的当前组的已变化的标签内容,并返回所述遍历所述当前组的已变化的标签内容之后的数据标签信息的标签内容的步骤继续执行,直至得到多组的已变化的标签内容和未变化的标签内容。
如此设计,在对更新后的内容可视化生产监控报表进行阶段性更新处理时,能够通过已进行标签定义的报表以及已进行用户标签覆盖的报表实现对已变化的标签内容和未变化的标签内容的精准区分,从而避免阶段性更新处理出现混乱。
在一个可选的实施例中,步骤S3233所描述的所述当遍历至的当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内数据标签信息的标签内容所对应的内容可视化生产监控报表均为已进行用户标签覆盖的报表时,将所述当前标签内容作为所述当前组的未变化的标签内容的步骤之前,所述方法还可以包括以下步骤S41-步骤S43。
步骤S41,当由遍历至的当前标签内容与所述当前组的已变化的标签内容所确定的标签信息识别结果的标签组合方式的数量小于预设数量时,确定所述当前标签内容对应的内容可视化生产监控报表是否为已进行用户标签覆盖的报表。
步骤S42,在所述当前标签内容对应已进行标签定义的报表时,将所述当前标签内容作为所述当前组所对应的标签信息识别结果中的其中一标签内容。
步骤S43,在所述当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内的内容可视化生产监控报表中包括已进行标签定义的报表时,将从所述当前标签内容开始的所述预设生产监控时段内的首个已进行标签定义的报表所对应的数据标签信息的标签内容,作为遍历的下一个当前标签内容,并返回所述当由遍历至的当前标签内容与所述当前组的已变化的标签内容所确定的标签信息识别结果的标签组合方式的数量小于预设数量时,确定所述当前标签内容对应的内容可视化生产监控报表是否为已进行用户标签覆盖的报表的步骤继续执行。
更进一步地,步骤S3231所描述的将所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的数据标签信息的标签内容作为当前组的已变化的标签内容,可以包括:确定所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的原始数据标签信息的标签内容;当所述原始数据标签信息的标签内容的后一标签内容所对应的内容可视化生产监控报表为已进行用户标签覆盖的报表时,将所述原始数据标签信息的标签内容对应的内容可视化生产监控报表进行清除;当所述原始数据标签信息的标签内容的后一标签内容所对应的内容可视化生产监控报表为已进行标签定义的报表时,将所述原始数据标签信息的标签内容作为当前组的已变化的标签内容。
在一个可能的实施例中,步骤S324所描述的根据各所述候选的可视化标签信息识别结果分别对应的内容可视化类型,对属于相同内容可视化类型的候选的可视化标签信息识别结果进行标签信息同步,得到包括有内容可视化生产记录的可视化标签信息识别结果,可以包括如下技术方案:确定各所述候选的可视化标签信息识别结果分别对应的内容可视化类型;当在时序上相邻的多于一个的候选的可视化标签信息识别结果均属于相同的内容可视化类型时,将所述多于一个的候选的可视化标签信息识别结果进行整合,得到与所述相同的内容可视化类型对应的可视化标签信息识别结果。
对于一些可能的实施例而言,步骤S33所描述的所述基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果,可以包括以下步骤S331和步骤S332所描述的内容。
步骤S331,对所述内容关联生产监控报表进行阶段性更新处理,得到多个包括有内容关联生产记录的候选的实例关联识别结果。
步骤S332,根据各所述候选的实例关联识别结果所对应的内容关联类型,对属于相同内容关联类型的候选的实例关联识别结果进行标签信息同步,得到包括有内容关联生产记录的实例关联标签信息识别结果。
在实际实施过程中,为了确保当前标签识别结果能够将标签生产过程中出现的误差以及数据对象实例的智能关联过程中出现的误差考虑在内,从而消除对应的误差,步骤S34所描述的所述基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果,可以包括以下步骤S341-步骤S343。
步骤S341,当所述实例关联标签信息识别结果与所述可视化标签信息识别结果存在识别结果关联时,或者,所述可视化标签信息识别结果与所述实例关联标签信息识别结果存在识别结果关联时,更新所述实例关联标签信息识别结果并保留所述可视化标签信息识别结果,得到与内容可视化生产相匹配的当前标签信息识别结果。
步骤S342,当所述可视化标签信息识别结果中的后一组数据标签信息的标签内容,与所述实例关联标签信息识别结果中的前一组数据标签信息的标签内容存在重合时,保留所述可视化标签信息识别结果作为与内容可视化生产相匹配的当前标签信息识别结果,并将所述可视化标签信息识别结果中的未变化的标签内容作为所述实例关联标签信息识别结果的已变化的标签内容,得到更新后的实例关联标签信息识别结果,将所述更新后的实例关联标签信息识别结果作为与内容关联生产相匹配的当前标签信息识别结果。
步骤S343,当所述实例关联标签信息识别结果中的后一组数据标签信息的标签内容,与所述可视化标签信息识别结果中的前一组数据标签信息的标签内容存在重合时,保留所述可视化标签信息识别结果作为与内容可视化生产相匹配的当前标签信息识别结果,并将所述可视化标签信息识别结果中的已变化的标签内容作为所述实例关联标签信息识别结果的未变化的标签内容,得到更新后的实例关联标签信息识别结果,将更新后的实例关联标签信息识别结果作为与内容关联生产相匹配的当前标签信息识别结果。
这样一来,通过实施上述步骤S341-步骤S343所描述的内容,能够将实例关联标签信息识别结果与可视化标签信息识别结果的关联性考虑在内,并结合实例关联标签信息识别结果以及可视化标签信息识别结果的标签内容的重合情况,进而实现对可视化标签信息识别结果和实例关联标签信息识别结果的统计分析,这样可以确保当前标签识别结果能够将标签生产过程中出现的误差以及数据对象实例的智能关联过程中出现的误差考虑在内,从而消除对应的误差,进一步确保在根据当前标签信息识别结果对原始数据标签信息进行识别和标记时,能够充分考虑标签生产过程中的生成、存储、分类标记、去重、查询、同步和集成等协调性处理流程,并且在进行数据对象实例的智能关联时不会对数据对象实例产生影响,这样,可以保证最终的标签识别结果和标签标记结果尽可能地与用户实际情况相匹配,进而为后续的数据分析提供准确可靠的数据基础。
基于上述同样的发明构思,还提供了对应的系统实施例的内容如下。
一种基于机器学习的数据标签识别与标记系统,包括互相之间通信的服务器和用户终端;其中,所述服务器用于:
从所述用户终端中获取待进行处理的原始数据标签信息;对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表;
基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果;
基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果;
基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果;所述目标生产指标包括内容可视化生产指标和内容关联生产指标中的至少一种,所述当前标签信息识别结果用于对所述原始数据标签信息进行识别和标记。
本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。
另外,本领域普通技术人员可以理解的是,本申请的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外,本申请的各方面可以表现为位于至少一个计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。
计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。
本申请各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写,包括面向对象程序设计,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET,Python等,或类似的常规程序编程语言,如"C"编程语言,Visual Basic,Fortran2003,Perl,COBOL 2002,PHP,ABAP,动态编程语言如Python,Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非申请专利范围中明确说明,本申请所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的申请专利范围并不仅限于披露的实施例,相反,申请专利范围旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动装置上安装所描述的系统。
同样应当理解的是,为了简化本申请揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法幷不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
Claims (10)
1.一种基于机器学习的数据标签识别与标记方法,其特征在于,应用于服务器,所述方法至少包括以下步骤:
获取待进行处理的原始数据标签信息;对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表;
基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果;
基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果;
基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果;所述目标生产指标包括内容可视化生产指标和内容关联生产指标中的至少一种,所述当前标签信息识别结果用于对所述原始数据标签信息进行识别和标记。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表,包括:
对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控,得到各个数据标签信息的标签内容中的内容可视化生产的监控结果、以及各内容可视化生产的监控结果所对应的原始标签内容的生产需求信息;
基于各数据标签信息的标签内容中的内容可视化生产的监控结果和相应的原始标签内容的生产需求信息,确定内容可视化生产监控报表;
对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容关联生产监控,得到内容关联生产监控报表;
其中,所述对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容关联生产监控,得到内容关联生产监控报表,包括:
对所述原始数据标签信息的标签内容中的多个数据标签信息的标签内容分别进行数据对象实例监控,得到各数据标签信息的标签内容分别对应的数据对象实例内容;
对所述原始数据标签信息的标签内容中的多个数据标签信息的标签内容分别进行对象实例的更新状态监控,得到各数据标签信息的标签内容分别对应的对象实例的更新状态监控报表;
将对应于相同数据对象实例的数据对象实例内容和对象实例的更新状态监控报表进行关联;
基于所述原始数据标签信息的标签内容中与目标数据对象实例内容相关联的对象实例的更新状态监控报表进行内容关联生产监控处理,得到内容关联生产监控报表。
3.根据权利要求1或2所述的方法,其特征在于,所述基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果,包括:
对所述内容可视化生产监控报表中的每个数据标签信息的标签内容分别进行生产需求信息配对,得到每个数据标签信息的标签内容各自对应的唯一生产需求信息;
基于每个数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的生产监控时效信息,分别进行监控结果更新处理,得到更新后的内容可视化生产监控报表;
对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多个包括有内容可视化生产记录的候选的可视化标签信息识别结果;
根据各所述候选的可视化标签信息识别结果分别对应的内容可视化类型,对属于相同内容可视化类型的候选的可视化标签信息识别结果进行标签信息同步,得到包括有内容可视化生产记录的可视化标签信息识别结果;
其中,所述对所述内容可视化生产监控报表中的每个数据标签信息的标签内容分别进行生产需求信息配对,得到每个数据标签信息的标签内容各自对应的唯一生产需求信息,包括:
针对所述内容可视化生产监控报表中的每个数据标签信息的标签内容,当数据标签信息的标签内容的原始标签内容的生产需求信息的数量为至少两个时,获取每个原始标签内容的生产需求信息的用户需求热度;
当生产需求信息的用户需求热度最高的原始标签内容的生产需求信息为一个时,将所述生产需求信息的用户需求热度最高的原始标签内容的生产需求信息作为相应数据标签信息的标签内容的唯一生产需求信息;
当所述生产需求信息的用户需求热度最高的原始标签内容的生产需求信息为至少两个时,针对每个生产需求信息的用户需求热度最高的原始标签内容的生产需求信息,获取对应的内容可视化生产的监控结果的监控结果更新热度;
根据最高的监控结果更新热度所对应的原始标签内容的生产需求信息,确定相应数据标签信息的标签内容所对应的唯一生产需求信息;
其中,所述基于每个数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的生产监控时效信息,分别进行监控结果更新处理,得到更新后的内容可视化生产监控报表,包括:
对于每个数据标签信息的标签内容,获取各数据标签信息的标签内容中与相应唯一生产需求信息对应的内容可视化生产的监控结果的标签分类次数;当所述标签分类次数在预设标签分类次数区间内时,保留相对应的内容可视化生产监控报表,保留的所述内容可视化生产监控报表包括内容可视化生产的监控结果、以及所述内容可视化生产的监控结果对应的唯一生产需求信息;
当所述标签分类次数不在所述预设标签分类次数区间内时,将相应的数据标签信息的标签内容的内容可视化生产监控报表进行清除;基于各数据标签信息的标签内容各自对应的内容可视化生产监控报表,得到更新后的内容可视化生产监控报表。
4.根据权利要求3所述的方法,其特征在于,所述对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多个包括有内容可视化生产记录的候选的可视化标签信息识别结果,包括:
对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多组的已变化的标签内容和未变化的标签内容;确定每组已变化的标签内容和未变化的标签内容之间的标签信息识别结果的差异信息;当所述标签信息识别结果的差异信息对应的差异评价值大于或等于预设评价值时,将相应组的已变化的标签内容和未变化的标签内容所构成的标签信息识别结果作为候选的可视化标签信息识别结果;
对于每个候选的可视化标签信息识别结果,根据所述候选的可视化标签信息识别结果中各数据标签信息的标签内容分别对应的更新后的唯一生产需求信息,确定统计次数最多的目标内容可视化类型;
将所述目标内容可视化类型,作为相对应候选的可视化标签信息识别结果所包括的内容可视化生产对应的内容可视化类型。
5.根据权利要求4所述的方法,其特征在于,所述内容可视化生产监控报表中的内容可视化生产监控报表包括已进行用户标签覆盖的报表和已进行标签定义的报表,所述对所述更新后的内容可视化生产监控报表进行阶段性更新处理,得到多组的已变化的标签内容和未变化的标签内容,包括:
将所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的数据标签信息的标签内容作为当前组的已变化的标签内容;
遍历所述当前组的已变化的标签内容之后的数据标签信息的标签内容;
当遍历至的当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内数据标签信息的标签内容所对应的内容可视化生产监控报表均为已进行用户标签覆盖的报表时,将所述当前标签内容作为所述当前组的未变化的标签内容;
将所述当前组的未变化的标签内容之后的首个已进行标签定义的报表所对应的数据标签信息的标签内容,作为下一次循环的当前组的已变化的标签内容,并返回所述遍历所述当前组的已变化的标签内容之后的数据标签信息的标签内容的步骤继续执行,直至得到多组的已变化的标签内容和未变化的标签内容。
6.根据权利要求5所述的方法,其特征在于,所述当遍历至的当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内数据标签信息的标签内容所对应的内容可视化生产监控报表均为已进行用户标签覆盖的报表时,将所述当前标签内容作为所述当前组的未变化的标签内容之前,所述方法还包括:
当由遍历至的当前标签内容与所述当前组的已变化的标签内容所确定的标签信息识别结果的标签组合方式的数量小于预设数量时,确定所述当前标签内容对应的内容可视化生产监控报表是否为已进行用户标签覆盖的报表;
在所述当前标签内容对应已进行标签定义的报表时,将所述当前标签内容作为所述当前组所对应的标签信息识别结果中的其中一标签内容;
在所述当前标签内容对应已进行用户标签覆盖的报表、且从所述当前标签内容开始的预设生产监控时段内的内容可视化生产监控报表中包括已进行标签定义的报表时,将从所述当前标签内容开始的所述预设生产监控时段内的首个已进行标签定义的报表所对应的数据标签信息的标签内容,作为遍历的下一个当前标签内容,并返回所述当由遍历至的当前标签内容与所述当前组的已变化的标签内容所确定的标签信息识别结果的标签组合方式的数量小于预设数量时,确定所述当前标签内容对应的内容可视化生产监控报表是否为已进行用户标签覆盖的报表的步骤继续执行。
7.根据权利要求5所述的方法,其特征在于,所述将所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的数据标签信息的标签内容作为当前组的已变化的标签内容,包括:
确定所述更新后的内容可视化生产监控报表中,处于当前更新阶段中的首个已进行标签定义的报表所对应的原始数据标签信息的标签内容;
当所述原始数据标签信息的标签内容的后一标签内容所对应的内容可视化生产监控报表为已进行用户标签覆盖的报表时,将所述原始数据标签信息的标签内容对应的内容可视化生产监控报表进行清除;
当所述原始数据标签信息的标签内容的后一标签内容所对应的内容可视化生产监控报表为已进行标签定义的报表时,将所述原始数据标签信息的标签内容作为当前组的已变化的标签内容。
8.根据权利要求3所述的方法,其特征在于,所述根据各所述候选的可视化标签信息识别结果分别对应的内容可视化类型,对属于相同内容可视化类型的候选的可视化标签信息识别结果进行标签信息同步,得到包括有内容可视化生产记录的可视化标签信息识别结果,包括:
确定各所述候选的可视化标签信息识别结果分别对应的内容可视化类型;
当在时序上相邻的多于一个的候选的可视化标签信息识别结果均属于相同的内容可视化类型时,将所述多于一个的候选的可视化标签信息识别结果进行整合,得到与所述相同的内容可视化类型对应的可视化标签信息识别结果。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果,包括:
对所述内容关联生产监控报表进行阶段性更新处理,得到多个包括有内容关联生产记录的候选的实例关联识别结果;
根据各所述候选的实例关联识别结果所对应的内容关联类型,对属于相同内容关联类型的候选的实例关联识别结果进行标签信息同步,得到包括有内容关联生产记录的实例关联标签信息识别结果;
其中,所述基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果,包括:
当所述实例关联标签信息识别结果与所述可视化标签信息识别结果存在识别结果关联时,或者,所述可视化标签信息识别结果与所述实例关联标签信息识别结果存在识别结果关联时,更新所述实例关联标签信息识别结果并保留所述可视化标签信息识别结果,得到与内容可视化生产相匹配的当前标签信息识别结果;
当所述可视化标签信息识别结果中的后一组数据标签信息的标签内容,与所述实例关联标签信息识别结果中的前一组数据标签信息的标签内容存在重合时,保留所述可视化标签信息识别结果作为与内容可视化生产相匹配的当前标签信息识别结果,并将所述可视化标签信息识别结果中的未变化的标签内容作为所述实例关联标签信息识别结果的已变化的标签内容,得到更新后的实例关联标签信息识别结果,将所述更新后的实例关联标签信息识别结果作为与内容关联生产相匹配的当前标签信息识别结果;
当所述实例关联标签信息识别结果中的后一组数据标签信息的标签内容,与所述可视化标签信息识别结果中的前一组数据标签信息的标签内容存在重合时,保留所述可视化标签信息识别结果作为与内容可视化生产相匹配的当前标签信息识别结果,并将所述可视化标签信息识别结果中的已变化的标签内容作为所述实例关联标签信息识别结果的未变化的标签内容,得到更新后的实例关联标签信息识别结果,将更新后的实例关联标签信息识别结果作为与内容关联生产相匹配的当前标签信息识别结果。
10.一种基于机器学习的数据标签识别与标记系统,其特征在于,包括互相之间通信的服务器和用户终端;其中,所述服务器用于:
从所述用户终端中获取待进行处理的原始数据标签信息;对所述原始数据标签信息中的多个数据标签信息的标签内容分别进行内容可视化生产监控和内容关联生产监控,得到内容可视化生产监控报表和内容关联生产监控报表;
基于训练好的用于进行可视化监控的机器学习模型,对所述内容可视化生产监控报表进行可视化标签识别处理,得到包括有内容可视化生产记录的可视化标签信息识别结果;
基于训练好的用于进行对象实例标签关联的机器学习模型,对所述内容关联生产监控报表进行实例关联标签识别处理,得到包括有内容关联生产记录的实例关联标签信息识别结果;
基于所述可视化标签信息识别结果和所述实例关联标签信息识别结果进行统计分析,得到所述原始数据标签信息中与目标生产指标相匹配的当前标签信息识别结果;所述目标生产指标包括内容可视化生产指标和内容关联生产指标中的至少一种,所述当前标签信息识别结果用于对所述原始数据标签信息进行识别和标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011547901.4A CN112579657B (zh) | 2020-12-24 | 2020-12-24 | 基于机器学习的数据标签识别与标记方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011547901.4A CN112579657B (zh) | 2020-12-24 | 2020-12-24 | 基于机器学习的数据标签识别与标记方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579657A true CN112579657A (zh) | 2021-03-30 |
CN112579657B CN112579657B (zh) | 2024-04-19 |
Family
ID=75139534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011547901.4A Active CN112579657B (zh) | 2020-12-24 | 2020-12-24 | 基于机器学习的数据标签识别与标记方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579657B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190179888A1 (en) * | 2017-12-12 | 2019-06-13 | International Business Machines Corporation | Data standardization rules generation |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
CN110909068A (zh) * | 2019-11-08 | 2020-03-24 | 广东核电合营有限公司 | 应急柴油发电机组大数据采集处理方法、系统及存储介质 |
KR102107911B1 (ko) * | 2018-12-03 | 2020-05-07 | 엄성민 | Ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법 |
CN112101412A (zh) * | 2020-08-11 | 2020-12-18 | 金雪茹 | 智能分类垃圾信息处理方法、装置及服务器 |
-
2020
- 2020-12-24 CN CN202011547901.4A patent/CN112579657B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190179888A1 (en) * | 2017-12-12 | 2019-06-13 | International Business Machines Corporation | Data standardization rules generation |
KR102107911B1 (ko) * | 2018-12-03 | 2020-05-07 | 엄성민 | Ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
CN110909068A (zh) * | 2019-11-08 | 2020-03-24 | 广东核电合营有限公司 | 应急柴油发电机组大数据采集处理方法、系统及存储介质 |
CN112101412A (zh) * | 2020-08-11 | 2020-12-18 | 金雪茹 | 智能分类垃圾信息处理方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN112579657B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145781A (zh) | 用于处理图像的方法和装置 | |
CN112255983B (zh) | 基于化妆品生产的大数据处理方法及生产数据处理中心 | |
CN104993962B (zh) | 获取终端使用状态的方法和系统 | |
CN108804704A (zh) | 一种用户深度画像方法及装置 | |
CN109580004A (zh) | 一种温度检测方法及装置 | |
US10679054B2 (en) | Object cognitive identification solution | |
CN109472280B (zh) | 一种更新物种识别模型库的方法、存储介质及电子设备 | |
CN108921323A (zh) | 用于生成信息的方法和装置 | |
CN113052295B (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
Louw et al. | Design and implementation of a low cost RFID track and trace system in a learning factory | |
CN116453438B (zh) | 一种显示屏参数检测方法、装置、设备及存储介质 | |
CN107133140A (zh) | 基于相片的图像分析的监控系统 | |
CN112613569A (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN110298597A (zh) | 一种测评方法、装置及存储介质 | |
CN115238828A (zh) | 一种色谱仪故障监测方法及装置 | |
CN108717415B (zh) | 生产设备生命周期状态数据建模方法和系统 | |
CN117196322B (zh) | 智能风控方法、装置、计算机设备及存储介质 | |
CN111755092B (zh) | 一种医疗数据互联互通方法及医疗系统 | |
CN110163084A (zh) | 操作员动作监督方法、装置及电子设备 | |
CN112700055A (zh) | 令人工神经网络具备店铺选址能力的训练方法、店铺选址方法、存储介质及店铺选址系统 | |
CN112434201A (zh) | 基于大数据的数据可视化方法及大数据云服务器 | |
CN111290953B (zh) | 分析测试日志的方法与装置 | |
CN109064464A (zh) | 用于检测电池极片毛刺的方法和装置 | |
CN112579657B (zh) | 基于机器学习的数据标签识别与标记方法及系统 | |
CN112416999B (zh) | 基于人工智能和大数据定位的数据分析方法及云端服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 1105, 11th Floor, Shining Building, No. 35 Xueyuan Road, Haidian District, Beijing, 100083 Applicant after: Beijing Zhixiang Information Technology Co.,Ltd. Address before: 100055 No.6, Xili, Malian Road, Xicheng District, Beijing Applicant before: Beijing Zhixiang Energy Technology Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |