CN115062676B - 数据处理方法、装置及计算机可读存储介质 - Google Patents

数据处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN115062676B
CN115062676B CN202210989796.2A CN202210989796A CN115062676B CN 115062676 B CN115062676 B CN 115062676B CN 202210989796 A CN202210989796 A CN 202210989796A CN 115062676 B CN115062676 B CN 115062676B
Authority
CN
China
Prior art keywords
label
target
unstructured data
marking
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210989796.2A
Other languages
English (en)
Other versions
CN115062676A (zh
Inventor
胡波
张鹏翼
门蓉
韦崇凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Big Data Research Institute Of Peking University
Peking University
Original Assignee
Chongqing Big Data Research Institute Of Peking University
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Big Data Research Institute Of Peking University, Peking University filed Critical Chongqing Big Data Research Institute Of Peking University
Priority to CN202210989796.2A priority Critical patent/CN115062676B/zh
Publication of CN115062676A publication Critical patent/CN115062676A/zh
Application granted granted Critical
Publication of CN115062676B publication Critical patent/CN115062676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置及计算机可读存储介质。其中,该方法包括:获取目标非结构化数据;采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签;确定目标非结构化数据的历史标签,其中,历史标签为来自预定数据库中的已有标签;基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签。本发明解决了针对非结构化数据打标效果差、效率低、实时性差的技术问题。

Description

数据处理方法、装置及计算机可读存储介质
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法、装置及计算机可读存储介质。
背景技术
在相关技术中,通常采用离线数据管理或人工标注的方法对非结构化数据进行打标,但上述方法的打标效果差、效率低、实时性差,其面向大规模数据的存储能力也不足。
因此,在相关技术中,存在针对非结构化数据打标效果差、效率低、实时性差的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、装置及计算机可读存储介质,以至少解决针对非结构化数据打标效果差、效率低、实时性差的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取目标非结构化数据;采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签;确定目标非结构化数据的历史标签,其中,历史标签为来自预定数据库中的已有标签;基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签。
可选地,采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签,包括:在目标非结构化数据为采用分布式流的处理方式获取的多个非结构化数据的情况下,基于对应的分布式流的处理方式,采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签。
可选地,分布式流的处理方式所采用的分布式计算引擎为Flink引擎。
可选地,上述方法还包括:将新增标签和历史标签分别存储至预定分布式数据库中。
可选地,基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签,包括:在新增标签和历史标签为不同类型标签的情况下,对新增标签和历史标签进行组合,得到组合标签;将组合标签设置为目标非结构化数据的目标标签。
可选地,基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签,包括:在新增标签和历史标签为相同类型标签的情况下,获取新增标签和历史标签之间的标签差异;基于标签差异对历史标签进行调整,得到历史更新标签;将历史更新标签设置为目标非结构化数据的目标标签。
可选地,在基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签之后,还包括以下至少之一:通过应用接口将目标标签提供给应用程序,供应用程序调用;将目标标签更新到存储历史标签的预定数据库中;对目标非结构化数据,以及目标非结构化数据的目标标签进行展示。
根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于获取目标非结构化数据;第一打标模块,用于采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签;确定模块,用于确定目标非结构化数据的历史标签,其中,历史标签为来自预定数据库中的已有标签;第二打标模块,用于基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的数据处理方法。
根据本发明实施例的另一方面,还提供了一种计算机设备,包括:存储器和处理器,存储器存储有计算机程序;处理器,用于执行存储器中存储的计算机程序,计算机程序运行时使得处理器执行上述任意一项的数据处理方法。
在本发明实施例中,通过采用预定打标模型对目标非结构化数据进行标签开发处理,得到与预定数据库中的任何一个历史标签都不同的新增标签,再从预定数据库中确定出与目标非结构化数据对应的历史标签,基于新增标签和历史标签对目标非结构化数据确定出了与目标非结构化数据对应的目标标签,从而实现了对非结构化数据进行高效、准确地打标的技术效果,进而解决了针对非结构化数据打标效果差、效率低、实时性差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据处理方法;
图2是根据本发明可选实施方式的数据仓库架构图;
图3是根据本发明可选实施方式的大数据打标平台的架构图;
图4是根据本发明可选实施方式的线上标签验证流程图;
图5是根据本发明实施例的数据处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
术语说明
非结构化数据,数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。
分布式流处理,分布式流处理是一种面向动态数据的细粒度处理模式,基于分布式内存,对不断产生的动态数据进行处理。其对数据处理的快速,高效,低延迟等特性,在大数据处理中发挥越来越重要的作用。
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
logistic回归,又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
k均值聚类算法(k-means clustering algorithm,K-Means)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
数据仓库,(Data Warehouse,简称DW或DWH),是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
消息中间件,基于队列与消息传递技术,在网络环境中为应用系统提供同步或异步、可靠的消息传输的支撑性软件系统。
根据本发明实施例,提供了一种数据处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据处理方法,如图1所示,该方法包括如下步骤:
步骤S102,获取目标非结构化数据;
步骤S104,采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签;
步骤S106,确定目标非结构化数据的历史标签,其中,历史标签为来自预定数据库中的已有标签;
步骤S108,基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签。
通过上述步骤,采用预定打标模型对目标非结构化数据进行标签开发处理,得到与预定数据库中的任何一个历史标签都不同的新增标签,再从预定数据库中确定出与目标非结构化数据对应的历史标签,基于新增标签和历史标签对目标非结构化数据确定出了与目标非结构化数据对应的目标标签,从而实现了对非结构化数据进行高效、准确地打标的技术效果,进而解决了针对非结构化数据打标效果差、效率低、实时性差的技术问题。
需要说明的是,上述目标非结构化数据为不便于用数据库二维逻辑表来表现的数据,具体形式可以有多种,例如,可以是各种格式的办公文档、文本、图片、视频、音频,等等。同时,本明是实施例中的方法不仅可以应用于非结构化数据,也可以完成对结构化数据的高效、精准打标。
作为一种可选实施例,采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签时,可以采用多种方式,例如,可以采用以下方式:在目标非结构化数据为采用分布式流的处理方式获取的多个非结构化数据的情况下,基于对应的分布式流的处理方式,采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签。通过对数据进行分布式流处理,可以极大程度地提高数据打标处理的实时性和处理效率,尤其是对大规模的数据进行处理时,仍可以保持高度的实时性。其中,预定打标模型在对目标非结构化数据进行处理时,可以采用多种标签开发方法自动地得出多个标签,其中,将上述多个标签与预定数据库中的历史标签进行比对,若在预定数据库中没有发现与开发得到的标签相同的历史标签,则该开发得到的标签就可以作为新增标签,而若预定数据库中已经存在于开发得到的标签相同的历史标签,则该开发得到的标签为重复的,无法作为新增标签,通过上述确定新增标签的方法,可以利用预定打标模型对目标非结构化数据进行特征学习并实现标签挖掘,进而得到与现有的历史标签不同的新增标签,以提高对该目标非结构化数据的打标效果。
需要说明的是,在上述利用预定打标模型获取新增标签时,具体的标签开发方法可以是多种的,例如,可以是有监督的分类方法、回归方法,也可以无监督的聚类方法、主题模型方法,等等,具体的标签开发方法可以由适用场景、需求效果和计算性能等进行调整。
作为一种可选实施例,分布式流的处理方式所采用的分布式计算引擎为Flink引擎。通过采用Flink引擎作为计算引擎,可以对目标非结构化数据进行并行的、流水线方式的数据处理,大大提高了数据处理的效率和实时性。
作为一种可选实施例,在上述方法中还可以将新增标签和历史标签分别存储至预定分布式数据库中。通过对确定出来的新增标签和历史标签采用分布式数据库进行存储,这些标签可以在之后对其它数据进行打标时重新调用,也可以根据分布式数据库中的这些标签对标签开发得到的标签进行比对,例如,在预定打标模型对另一非结构化数据进行标签开发,又得到多个标签,则不仅可以将这些标签与预定数据库中的历史标签进行比对,也可以与分布式数据库中的标签进行比对,确定上述多个标签是否为新增标签。
需要说明的是,上述的分布式数据库可以是多个,通过设置多个分布式数据库,这些数据库可以通过联网等方式实现数据上的共享,进行形成一个大型的数据库,以解决相关技术中针对大规模数据存储能力不足的问题。
作为一种可选实施例,基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签时,可以采用多种方式,例如,可以采用以下方式:在新增标签和历史标签为不同类型标签的情况下,对新增标签和历史标签进行组合,得到组合标签;将组合标签设置为目标非结构化数据的目标标签。在根据目标非结构化数据确定出不同类型的新增标签和历史标签后,可以对新增标签和历史标签进行组合,将组合后的标签作为目标标签,也就是说利用确定出来的多个标签从多个特征角度对目标非结构化数据进行精准打标,使得打标效果更好。
作为一种可选实施例,基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签时,可以采用多种方式,例如,可以采用以下方式:在新增标签和历史标签为相同类型标签的情况下,获取新增标签和历史标签之间的标签差异;基于标签差异对历史标签进行调整,得到历史更新标签;将历史更新标签设置为目标非结构化数据的目标标签。当新增标签和历史标签为相同类型时,可以对该型同类型的新增标签和历史标签进行标签差异上的比对,并根据比对结果对历史标签进行调整,对历史标签进行更新,确定出与目标非结构化数据更加匹配的标签。例如,对图像进行识别时,历史标签中关于颜色的识别结果为“红色”和“蓝色”,而新增标签中关于颜色的识别结果为“饱和度最高的是红色”和“基色是蓝色”,即,虽然新增标签和历史标签都是对颜色进行分类,但仍可以根据新增标签中关于饱和度以及基色的细节对历史标签进行调整和更新,以获得更好的打标效果。
作为一种可选实施例,在基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签之后,还可以进行以下至少之一的操作:通过应用接口将目标标签提供给应用程序,供应用程序调用;将目标标签更新到存储历史标签的预定数据库中;对目标非结构化数据,以及目标非结构化数据的目标标签进行展示。在完成打标之后,可以利用消息中间件对标签进行出传输,一方面可以将标签传输至预定数据库进行历史标签的更新,也可以将传输至分布式数据库进行存储,还可以将标签传输至应用端完成对目标非结构化数据的打标操作,另一方面,消息中间件既可以实现同步传输,也可以实现异步传输,尤其是利用消息中间件进行异步传输时,可以避免在传输时对数据处理效率的影响,对于打标结果也可以利用异步通知的方式进行打标结果的展示。
需要说明的是,在对打标后的数据进行存储时,可以根据数据种类进行不同的存储,例如,标签和结构化数据可以直接存储至数据库,对于非结构化数据可以在生成唯一标识后存储至分布式数据库。在完成打标后,也可以搭建数据检索引擎,以便于对打标好的数据进行检索。
基于上述实施例及可选实施例,本发明提供一种可选实施方式,下面进行说明。
在相关技术中,对非结构化数据(图像、视频、语音和文档等)进行管理时通常都是通过人工创建的分类目录来存储数据,这种管理数据的方式缺少专业的分类划分且极大地降低了数据的检索效率,同时还需要大量的人工标注成本,并不适用于大量非结构化数据的管理,且相关技术中的方法多采用离线数据管理,该方法的实时性差,如果数据存储能力不足,也无法实时地向下游反馈标签内容的变化结果和数据打标的结果。
针对上述技术问题,本发明可选实施方式提出一种基于人工智能算法的数据打标方法,该方法能使分散杂乱的数据通过专业的词汇来进行有序的管理和检索。经过训练的算法不仅能识别出预定数据库中已有的标签,还可以对新的类别数据进行识别,使该模型具有知识迁移的能力,其数学机理是让预定打标模型对数据类别进行特征理解,不断学习这种从数据到特征的映射关系,以在遇到新的类别时,只要提供该类别的特征标签知识就可以识别新的类别,并为这些新的数据打上标签,本发明可选实施方式在实际场景中有广泛的应用潜力,如数据分类、计算机视觉、语言是被、自然语义等都具有很好的应用潜力。下面对该方法进行详细说明。
本发明可选实施方式包括如下步骤:
确定出标签领域,并根据确定出的标签领域构建标签所属的实体分类体系,给出详细的实体分类体系的说明,根据对应的实体分类体系获取相应预定打标模型的训练数据源,将对应的数据源存入数据集群;
利用预定打标模型对数据集群中的训练数据源通过分布式流处理的方法进行处理,得到新增标签。其中,在得到新增标签时,可以采用有监督的分类算法和回归算法,也可以采用无监督的聚类算法和主题模型算法,例如,决策树算法,Logistic回归算法,K-Means算法,等等;
从预定数据库中获取历史标签,其中,预定数据库可以是数据仓库,图2是根据本发明可选实施方式的数据仓库架构图;
将新增标签和历史标签分别存储至HBase分布式数据库。其中,基于Flink分布式流数据流引擎进行实时流计算,将数据以流的形式进行操作,灵活性高,实时性强,且基于HBase的分布式数据存储,支持大规模的数据查询和存储;
从预定数据库中获取完成打标的历史标签,其中,还包括对预定数据库中的历史标签针对是否已经完成对数据的打标操作进行判断,进而保证获取的是打标过数据的历史标签,其中,上述判断可以通过每日调度作业进行自动判断;
基于Flink分布式流数据流引擎进行实时流处理,产生的标签消息可以由消息中间件进行输出,例如,可以由RabbitMQ(消息队列)将标签输出至下游应用端进行打标,由Kinesis将标签经Stream Consumer(资源流使用方)处理后输出至HBase分布式数据库进行存储;
图3是根据本发明可选实施方式的大数据打标平台的架构图,如图3所示,存储的历史标签可以通过后端Java应用程序接口的方式推送给需要使用的打标平台使用,本发明可选实施方式除标签数据接口,还提供了打标接口,以实现通过调用打标接口将数据推送给大数据平台,并由平台解析数据后利用人工智能算法对数据进行打标的技术效果,且在打标完成后可以通过异步通知的方式将打标结果推送给业务平台;
数据展示和检索的业务平台在获取了大数据打标平台的打标结果后,可以将数据和标签建立的关联关系存储至MySQL数据库(关系型数据库管理系统)中,也可以在业务平台的上层通过ES(Elasticsearch)搭建数据检索引擎,将打标好的数据结果实时存储至检索引擎中,以供检索时使用。
另外,图4是根据本发明可选实施方式的线上标签验证流程图,如图4所示,经过需求标签、行为分析、活动推送、用户反馈和统计分析的循环验证过程,就可以实现对标签的准确验证。
综上,本发明可选实施方式可以对数据进行分布式流处理操作,生成实时标签,并可以从数据仓库(即预定数据库)中获取已完成打标作业的历史标签,达到了将实时的新增标签和历史标签分别存储至HBase分布式数据库的目的,从而实现了灵活性强、实时性高的数据打标的技术效果,且上述的预定打标模型在运行过程中不断加入新样本,可以通过模型历史识别中的相似样本不断修正平均映射特征,进而能够使模型的性能在使用过程中越来越好,且该过程无需重新训练,既可以削弱对新类别的识别依赖,又可以更好地契合新类别的加入。
根据本发明实施例,提供了一种数据处理装置,图5是根据本发明实施例的数据处理装置的结构框图,如图5所示,该装置包括:获取模块51,第一打标模块52,确定模块53和第二打标模块54,下面对该装置进行介绍。
获取模块51,用于获取目标非结构化数据;第一打标模块52,连接至上述获取模块51,用于采用预定打标模型,对目标非结构化数据进行打标,得到目标非结构化数据的新增标签;确定模块53,连接至上述第一打标模块52,用于确定目标非结构化数据的历史标签,其中,历史标签为来自预定数据库中的已有标签;第二打标模块54,连接至上述确定模块53,用于基于新增标签和历史标签,对目标非结构化数据进行打标,得到目标非结构化数据的目标标签。
根据本发明实施例,提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的数据处理方法。
根据本发明实施例,提供了一种计算机设备,包括:存储器和处理器,存储器存储有计算机程序;处理器,用于执行存储器中存储的计算机程序,计算机程序运行时使得处理器执行上述任意一项的数据处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
获取目标非结构化数据;
采用预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签;
确定所述目标非结构化数据的历史标签,其中,所述历史标签为来自预定数据库中的已有标签;
基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签;
其中,所述采用预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签,包括:在所述目标非结构化数据为采用分布式流的处理方式获取的多个非结构化数据的情况下,基于对应的分布式流的处理方式,采用所述预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签;
其中,所述基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签,包括:在所述新增标签和所述历史标签为相同类型标签的情况下,获取所述新增标签和所述历史标签之间的标签差异;基于所述标签差异对所述历史标签进行调整,得到历史更新标签;将所述历史更新标签设置为所述目标非结构化数据的所述目标标签。
2.根据权利要求1所述的方法,其特征在于,所述分布式流的处理方式所采用的分布式计算引擎为Flink引擎。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述新增标签和所述历史标签分别存储至预定分布式数据库中。
4.根据权利要求1所述的方法,其特征在于,所述基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签,包括:
在所述新增标签和所述历史标签为不同类型标签的情况下,对所述新增标签和所述历史标签进行组合,得到组合标签;
将所述组合标签设置为所述目标非结构化数据的所述目标标签。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签之后,还包括以下至少之一:
通过应用接口将所述目标标签提供给应用程序,供所述应用程序调用;
将所述目标标签更新到存储所述历史标签的所述预定数据库中;
对所述目标非结构化数据,以及所述目标非结构化数据的所述目标标签进行展示。
6.一种数据处理装置,其特征在于,包括:
获取模块,用于获取目标非结构化数据;
第一打标模块,用于采用预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签;
确定模块,用于确定所述目标非结构化数据的历史标签,其中,所述历史标签为来自预定数据库中的已有标签;
第二打标模块,用于基于所述新增标签和所述历史标签,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的目标标签;
其中,所述第一打标模块包括:打标单元,用于在所述目标非结构化数据为采用分布式流的处理方式获取的多个非结构化数据的情况下,基于对应的分布式流的处理方式,采用所述预定打标模型,对所述目标非结构化数据进行打标,得到所述目标非结构化数据的新增标签;
其中,所述第二打标模块包括:获取单元,用于在所述新增标签和所述历史标签为相同类型标签的情况下,获取所述新增标签和所述历史标签之间的标签差异;调整单元,用于基于所述标签差异对所述历史标签进行调整,得到历史更新标签;设置单元,用于将所述历史更新标签设置为所述目标非结构化数据的所述目标标签。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至5中任意一项所述的数据处理方法。
8.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至5中任意一项所述的数据处理方法。
CN202210989796.2A 2022-08-18 2022-08-18 数据处理方法、装置及计算机可读存储介质 Active CN115062676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210989796.2A CN115062676B (zh) 2022-08-18 2022-08-18 数据处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210989796.2A CN115062676B (zh) 2022-08-18 2022-08-18 数据处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN115062676A CN115062676A (zh) 2022-09-16
CN115062676B true CN115062676B (zh) 2022-11-22

Family

ID=83208306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210989796.2A Active CN115062676B (zh) 2022-08-18 2022-08-18 数据处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115062676B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910669A (zh) * 2023-09-13 2023-10-20 深圳市智慧城市科技发展集团有限公司 数据分类方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555076A (zh) * 2019-08-22 2019-12-10 上海数禾信息科技有限公司 数据打标方法、处理方法以及装置
CN113051303A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 业务数据处理方法、装置、电子设备以及存储介质
CN113190680A (zh) * 2021-05-25 2021-07-30 广东电网有限责任公司广州供电局 一种非结构化数据标记方法、装置、设备及存储介质
CN113297288A (zh) * 2021-04-28 2021-08-24 上海淇玥信息技术有限公司 用户的实时标签生成方法、装置及电子设备
CN114359670A (zh) * 2021-12-28 2022-04-15 深圳中智永浩机器人有限公司 非结构化数据标注方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318846B2 (en) * 2016-12-28 2019-06-11 Ancestry.Com Operations Inc. Clustering historical images using a convolutional neural net and labeled data bootstrapping

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555076A (zh) * 2019-08-22 2019-12-10 上海数禾信息科技有限公司 数据打标方法、处理方法以及装置
CN113051303A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 业务数据处理方法、装置、电子设备以及存储介质
CN113297288A (zh) * 2021-04-28 2021-08-24 上海淇玥信息技术有限公司 用户的实时标签生成方法、装置及电子设备
CN113190680A (zh) * 2021-05-25 2021-07-30 广东电网有限责任公司广州供电局 一种非结构化数据标记方法、装置、设备及存储介质
CN114359670A (zh) * 2021-12-28 2022-04-15 深圳中智永浩机器人有限公司 非结构化数据标注方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN115062676A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN108416620B (zh) 一种基于大数据的画像数据的智能社交广告投放平台
US10354201B1 (en) Scalable clustering for mixed machine learning data
CN106095842B (zh) 在线课程搜索方法和装置
CN111459985A (zh) 标识信息处理方法及装置
CN111191125A (zh) 一种基于标签化的数据分析方法
CN112446399A (zh) 标签确定方法、装置和系统
CN111489201A (zh) 一种客户价值分析的方法、设备、存储介质
CN109871470B (zh) 一种电网设备数据标签化管理系统及实现方法
CN114429364A (zh) 业务数据管理方法和装置、存储介质及电子设备
CN112232713B (zh) 一种信息处理方法、设备及存储介质
CN115062676B (zh) 数据处理方法、装置及计算机可读存储介质
CN111125518A (zh) 家电信息推荐的系统及方法
CN115423289A (zh) 智能板材加工车间数据处理方法及终端
CN111027838A (zh) 一种众包任务推送方法、装置、设备及其存储介质
US10055469B2 (en) Method and software for retrieving information from big data systems and analyzing the retrieved data
CN115564071A (zh) 一种电力物联网设备数据标签生成方法及系统
CN112035483A (zh) 知识库知识存储、检索方法及装置
CN110062112A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN115114073A (zh) 告警信息的处理方法及装置、存储介质、电子设备
CN113127563B (zh) 一种基于区块链的智能零售管理方法及系统
CN113627810A (zh) 线索处理方法、装置和存储介质
CN110262973B (zh) 数据养成维护方法、装置、设备及计算机存储介质
CN113946745A (zh) 通用个性化推荐方法、推荐系统及训练方法
CN110399337A (zh) 基于数据驱动的文件自动化服务方法和系统
CN111400375A (zh) 一种基于财务业务数据商机挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant