CN110659283A - 数据标签处理方法、装置、计算机设备及存储介质 - Google Patents

数据标签处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110659283A
CN110659283A CN201910755580.8A CN201910755580A CN110659283A CN 110659283 A CN110659283 A CN 110659283A CN 201910755580 A CN201910755580 A CN 201910755580A CN 110659283 A CN110659283 A CN 110659283A
Authority
CN
China
Prior art keywords
data
tag
indexed
request task
retrievable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910755580.8A
Other languages
English (en)
Inventor
章育涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910755580.8A priority Critical patent/CN110659283A/zh
Publication of CN110659283A publication Critical patent/CN110659283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据标签处理方法、装置、计算机设备及存储介质,所述方法包括:对预设数据仓库中的原始数据进行数据同步,将所述原始数据存储到本地数据库;若接收到应用层发送的数据请求任务,则从所述本地数据库中选取与所述数据请求任务匹配的原始数据,并将选取到的所述原始数据作为待处理数据;对所述待处理数据进行索引化处理,得到可检索数据标签;将所述可检索数据标签发送到所述应用层。本发明的技术方案解决数据仓库与应用层之间数据传输效率低下,自动化程度不足,无法满足时效的问题。

Description

数据标签处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及信息处理领域,尤其涉及数据标签处理方法、装置、计算机设备及存储介质。
背景技术
在大数据时代,基于大数据的应用中经常用到数据标签。数据标签,是对数据的标注,用以反映该数据某方面的特征或属性。标签化后的数据可以更直观、简洁的反映大数据所代表的趋势。
目前的数据标签管理体系,通常分为标签生产和标签应用两部分。其中,标签生产主要是对原始数据进行特征提取,得到与原始数据相对应的数据标签;标签应用主要是实现对数据标签进行归类、分析、输出等应用功能。
在现实应用中,标签生产和标签应用往往分别由不同的系统实现,系统之间的软硬件架构可能完全不同,这给标签生产和标签应用之间的数据交互带来了极高的传输成本。
例如,标签生产部分的数据由数据仓库负责存储,如采用Hive库,而标签应用部分部署的应用层随着实际业务的不同而不同,不同的应用层需要的数据可能存在交叉的情况,加上标签生产部分与标签应用部分的存储系统完全不同,数据结构也不相同,因此,需要研发人员根据标签应用的具体需求,分别从数据仓库中获取数据并进行转化,使得数据传输和转换的成本高,效率低下,自动化程度低,无法满足实时需求。
发明内容
本发明实施例提供一种数据标签处理方法、装置、计算机设备及存储介质,以解决数据仓库与应用层之间数据传输效率低下,自动化程度不足,无法满足时效的问题。
一种数据标签处理方法,包括:
对预设数据仓库中的原始数据进行数据同步,将所述原始数据存储到本地数据库;
若接收到应用层发送的数据请求任务,则从所述本地数据库中选取与所述数据请求任务匹配的原始数据,并将选取到的所述原始数据作为待处理数据;
对所述待处理数据进行索引化处理,得到可检索数据标签;
将所述可检索数据标签发送到所述应用层。
一种数据标签处理装置,包括:
数据同步模块,用于对预设数据仓库中的原始数据进行数据同步,将所述原始数据存储到本地数据库;
数据提取模块,用于若接收到应用层发送的数据请求任务,则从所述本地数据库中选取与所述数据请求任务匹配的原始数据,并将选取到的所述原始数据作为待处理数据;
索引处理模块,用于对所述待处理数据进行索引化处理,得到可检索数据标签;
数据发送模块,用于将所述可检索数据标签发送到所述应用层。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据标签处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据标签处理方法。
上述数据标签处理方法、装置、计算机设备及存储介质,对预设数据仓库中的原始数据进行数据同步,即,在数据仓库与应用层中间建立中间层,将原始数据及时同步到本地数据库中,该方式与应用层直接从异构系统的数据仓库中获取原始数据相比,加快了获取原始数据的速度,有利于应对应用层频繁发生的实时数据请求;接收到数据请求任务后,对数据请求任务需要的数据进行索引化处理,并将索引化处理后的数据以数据标签的形式进行传输,由于数据标签比原始数据更加简洁、所占空间更小,有利于提高应用层检索数据的效率和速度;即,可以为应用层提供标准化处理后的数据,减少了应用层的工作量,提高了应用层的数据查询效率;整个方案将数据仓库与应用层之间的数据交互过程变得简洁高效,提高了自动化程度,满足实时地数据请求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据标签处理方法的一应用环境示意图;
图2是本发明一实施例中数据标签处理方法的流程图;
图3是本发明一实施例中数据标签处理方法中步骤S1的流程图;
图4是本发明一实施例中数据标签处理方法中将索引信息发送到应用层的流程图;
图5是本发明一实施例中数据标签处理方法中根据数据请求任务中的关键字得到待索引数据的流程图;
图6是本发明一实施例中数据标签处理方法中将待索引数据存储到索引层的流程图;
图7是本发明一实施例中数据标签处理装置的示意图;
图8是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的数据标签处理方法,可应用在如图1的应用环境中,其中,服务端是提供数据标签处理服务的计算机设备,服务端可以是服务器或服务器集群;标签管理系统,是对用户数据进行大数据分析,为用户数据产生数据标签的生产系统;标签管理系统中包括数据仓库,数据仓库用于为数据标签提供存储服务;应用系统,是数据标签的需求方,应用系统由多个不同的应用层组成,每个应用层对应不同的实际业务需求,可以由不同的部门或机构负责;应用层通过数据请求任务从服务端获取数据标签,并向用户输出以数据标签为核心的分析结果;标签管理系统与服务端之间、服务端与应用系统之间通过网络连接,网络可以是有线网络或无线网络。本发明实施例提供的数据标签处理方法应用于服务端。
在一实施例中,如图2所示,提供了一种数据标签处理方法,其具体实现流程包括如下步骤:
S1:对预设数据仓库中的原始数据进行数据同步,将原始数据存储到本地数据库。
预设数据仓库,即标签管理系统中的数据仓库;数据仓库,英文名称为DataWarehouse,是用于存储数据的存储平台。
原始数据,是存储在数据仓库中的、与用户相关的所有数据。原始数据包括但不限于数据标签,数据表、数据记录等。
本地数据库,是部署在服务端的数据库管理系统。
本地数据库可以包括但不限于各种关系型或非关系型数据库,如MS-SQL、Oracle、MySQL、Sybase、DB2、Redis、MongodDB、Hbase等。
优选地,本地数据库可以为TiDB。TiDB,是一个全索引的高度兼容MySQL的关系型数据库,TiDB不仅具有非关系型的数据库对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。
数据同步,指服务端实时从预设数据仓库中获取原始数据的过程。其中,实时包括服务端主动向预设数据仓库发送数据获取请求,以及服务端及时响应标签管理系统发送的数据同步请求。
服务端可以通过数据仓库工具对数据仓库中的数据源进行同步。其中,数据仓库工具可以是Hive。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。因此,服务端可以通过Hive提供的HQL语句,对数据仓库中的数据源进行“增删查改”的操作,其中,HQL语句一种基于Hive的,类SQL语言。
具体地,以同步数据标签为例,服务端可以通过HQL的select语句,获取数据仓库中的所有数据标签,并通过insert语句插入到本地数据库中。
S2:若接收到应用层发送的数据请求任务,则从本地数据库中选取与数据请求任务匹配的原始数据,并将选取到的原始数据作为待处理数据。
应用层,是图1中应用系统中的应用层。
数据请求任务,是由应用层发起的,与实际业务相关的任务。
举例来说,若运营部门需要查询一定时期内到期车险的车主相关信息,则需要从标签生产端获取相关的标签信息,并在标签应用端进行处理,从而得到所需的信息。对应到图1所示的示意图中,运营部门的查询需求相当于应用层发起的数据请求任务,即“获取一定时期内到期车险的车主相关信息”即为数据请求任务。因此,服务端需要从预设数据仓库中获取相关数据,并经过一系列处理后返回给应用层。
数据请求任务中的数据包括但不限于,数据字段的名称、数据表的名称、目标数据标签、限定条件等。因此,数据请求任务可以由具体的关键字或符号组成。
例如,在一些模糊查询应用中,应用层只提供某个目标数据,如“职业培训”,则服务端需要将与目标标签“职业培训”相关的数据或标签提供给应用层,因此,服务端需要从本地数据库中获取与“职业培训”相关的数据;数据请求任务中的限定条件包括时间条件、逻辑判断条件等,其中,时间条件,是指从时间上限定数据的范围;逻辑判断条件,是指逻辑与、或、非、大于、等于、小于等,同时,逻辑条件可以用相应的字符表示,如“&、~!||”等。
具体地,数据请求任务中的数据可以为“职业培训&(!IT)”,其代表需求的目标数据标签为“职业培训”,限制条件为筛选掉非IT相关的职业培训。
待处理数据,是服务端从本地数据库中获取的与数据请求任务匹配的原始数据。
具体地,服务端对数据请求任务进行字符解析,得到关键字或符号,然后根据关键字或符号,从本地数据库中获取原始数据,得到待处理数据。
以数据请求任务为“职业培训&(!IT)”为例,服务端以解析得到的关键字作为搜索条件,对本地数据库进行全局搜索,即以“职业培训”和“IT”作为关键字,搜索本地数据库中的数据表名、数据字段名、数据表中的数据记录,数据字段的值,以及数据标签的键名和值,并去掉其他包含“IT”关键字的搜索结果,从而得到待处理数据。
S3:对待处理数据进行索引化处理,得到可检索数据标签。
索引化处理,是指服务端根据数据请求任务,将待处理数据转换成可被应用层快速检索到的数据标签的过程。经过索引化处理后,得到的数据为可检索数据标签。
索引化处理包括建立待处理数据与数据请求任务之间的映射关系。
其中,待处理数据与数据请求任务之间的映射关系,是指服务端根据数据请求任务,向应用层返回数据请求任务需要的数据,即,数据请求任务所请求的数据与服务端返回的数据之间既可以是一一对应的映射关系,也可以是一对多的映射关系。
由于数据请求任务所请求的数据与服务端返回的数据之间具有一对一或一对多的映射关系,因此服务端可以采用非关系型数据库的方式建立映射关系。
具体地,服务端可以在非关系数据库Redis下,以数据请求任务中的数据字段名称、数据表名称、目标数据标签等作为存储记录的键名(Key),以与数据请求任务中的数据字段名称、数据表名称、目标数据标签等相对应的待处理数据作为键值(Value),建立以键值对(Key-Value)为单元的数据记录。其中,Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库;键值即为可检索数据标签。
S4:将可检索数据标签发送到应用层。
具体地,若服务端在Redis下建立了Key-Value数据记录,则服务端将Key-Value数据记录中的Value值作为可检索数据标签发送到发起数据请求任务所在的应用层。
在本实施例中,对预设数据仓库中的原始数据进行数据同步,即,在数据仓库与应用层中间建立中间层,将原始数据及时同步到本地数据库中,该方式与应用层直接从异构系统的数据仓库中获取原始数据相比,加快了获取原始数据的速度,有利于应对应用层频繁发生的实时数据请求;接收到数据请求任务后,对数据请求任务需要的数据进行索引化处理,并将索引化处理后的数据以数据标签的形式进行传输,由于数据标签比原始数据更加简洁、所占空间更小,有利于提高应用层检索数据的效率和速度;即,可以为应用层提供标准化处理后的数据,减少了应用层的工作量,提高了应用层的数据查询效率;整个方案将数据仓库与应用层之间的数据交互过程变得简洁高效,提高了自动化程度,满足实时地数据请求。
进一步地,在一实施例中,如图3所示,针对步骤S1,即对预设数据仓库中的原始数据进行数据同步,将原始数据存储到本地数据库,具体包括如下步骤:
S11:以预设时间间隔,从预设数据仓库中获取原始数据的状态。
原始数据的状态,是指预设数据仓库中是否新增了新的原始数据,是否删除了已有的原始数据,或者原始数据的值是否有变更。
具体地,服务端可以通过定时任务的方式,例如,每隔1小时,定期向标签管理系统发送数据同步消息,其中,数据同步消息用于向标签管理系统请求预设数据仓库中原始数据的变化情况。即,当预设数据仓库中的原始数据有增加、删除或变更时,服务端需要将这些变化情况同步到本地数据库中。
S12:根据原始数据的状态,将原始数据存储到本地数据库。
具体地,若原始数据的状态发生变化,服务端将变化后的原始数据存储到本地数据库中。
在本实施例中,服务端可以主动地,根据实际应用的需要,以一定时间间隔向标签管理系统发送数据同步消息,获取原始数据的变化情况,并将变化后的原始数据存储到本地数据库,实现了对标签生产系统的实时数据同步,使得能够及时向标签应用系统提供数据,进一步避免了应用系统获取数据的延时。
进一步地,在一实施例中,针对步骤S1,即对预设数据仓库中的原始数据进行数据同步,将原始数据存储到本地数据库,还包括步骤:
S13:对预设数据仓库对应的终端发送的数据同步消息进行监听,并根据数据同步消息将原始数据存储到本地数据库。
预设数据仓库对应的终端,即图1示意图中的标签管理系统。
数据同步消息,是预设数据仓库中原始数据发生变化后,标签管理系统与服务端之间通信的信号量。
数据同步消息中的数据包括消息标志位、记录标识。其中,消息标志位,用于表示当前消息为数据同步消息。例如,可以约定消息的前2字节为消息标志位。记录标识包括但不限于数据表的id、数据记录的主键值、数据标签的键名等。
标签管理系统将预设数据仓库中原始数据的变化情况,以数据同步消息的方式发送给服务端,以提醒服务端进行数据同步。同时,服务端上有监听服务,用于对数据同步消息作出相应的处理。
具体地,服务端在接收到数据同步消息后,根据其中的记录标识,确定需要更新的本地数据。例如,若记录标识中包括数据表id,则代表数据仓库中的该数据表有数据更新,服务端根据数据表id,调用Hive的HQL语句可以对数据仓库中的该数据表进行数据同步,从而更新本地数据库中的数据。
在本实施例中,服务端也可以被动地接收标签管理系统发送的数据同步消息,及时更新本地数据库中的数据,有利于避免了应用系统获取数据的延时。本实施例的实现方式与步骤S11和步骤S12构成的实施例可以并存,即通过服务端主动获取和被动接收两种方式,可以更加灵活地更新本地数据库中的数据,以满足应用系统的需要。
进一步地,在一实施例中,如图4所示,针对步骤S3,即对待处理数据进行索引化处理,得到可检索数据标签,具体包括如下步骤:
S31:根据数据请求任务的类型,建立索引层。
数据请求任务的类型,是根据不同的应用类型预设设置的。例如,若数据请求任务的类型为影音娱乐类,则当应用系统发起数据请求时,服务端返回的数据以影音娱乐类的数据标签为主。可以理解地,不同的应用对应着不同的数据请求任务类型,不同的数据请求任务类型对应着不同的数据标签。
索引层,用于存储数据请求任务和服务端向应用层返回的数据之间的映射关系。索引层可以为应用层提供经过标准化处理的,已索引的数据,使得应用层可以更加快速地获取需要的数据,以减少数据传输的延迟。同时,由于不同的数据请求任务可能属于同一类型,因此,索引层还起到缓存数据的作用。
举例来说,若服务端为数据请求任务A建立了索引层a,当与A同类型的数据请求任务B发起数据请求时,服务端可以直接从索引层a中获取数据并返回给数据请求任务B。
具体地,索引层可以由ES集群组成,服务端根据数据请求任务的类型,在ES下,通过“PUT”命令为每一类数据请求任务建立一个索引文件。其中,ES,即Elasticsearch,是一个开源的非关系型数据库,也是一个接近实时的搜索平台。它能实现从索引一个文档到这个文档能够被搜索到只有一个轻微的延迟,同时,它具有可拓展性、高可用性的特点。
S32:使用预设计算引擎对待处理数据进行数据格式转换,得到待索引数据。
计算引擎,是基于大数据处理的软件框架。优选地,计算引擎可以采用Spark。Spark,全称为Apache Spark,它是专为大规模数据处理而设计的快速通用的计算引擎,同时,也是一个开源集群计算环境。Spark是通用的基于内存计算的大数据框架,其可以与Hadoop生态系统很好的兼容。
待索引数据,是待存储到索引层的数据,待索引数据中包括可检索数据标签。
数据格式转换,即服务端根据索引层的数据格式要求,将待处理数据进行转换,得到待索引数据。
具体地,以索引层是ES集群为例,由于ES的最小存储单位为文档,而文档的本质是一个JSON文件,即键值对结构的数据,因此,索引层需要的数据格式即为JSON格式的数据。
服务端以Spark作为计算引擎,将数据请求任务的分类id和待处理数据输入到计算引擎中,得到键值对(Key-Value)结构的输出数据,即待索引数据。可以理解地,由于数据请求任务与服务端返回的数据之间具有一对一或一对多的映射关系,因此,针对每个数据请求任务,可以得到至少一个待索引数据。
S33:将待索引数据存储到索引层,得到索引层为待索引数据分配的索引信息。
索引信息,是服务端将步骤S32得到的待索引数据作为输入,存储到索引层后,由索引层返回的数值,该数值可以是id(identification,身份标识信息)号,或者在索引层的存储地址。
具体地,服务端可以通过curl命令实现写入操作,将待索引数据存储到索引层。
例如,一条将索引数据存储到索引层的写入命令可以表示为“curl-XPOST"http://127.0.0.1:9200/test/?pretty"-H"Content-Type:application/json"-d{‘id’:3}”,其中,参数“-XPOST”和“-H”之间的为索引层的网络地址;参数“-H”和“-d”之间的为插入数据的类型(此处为JSON格式);参数“-d”之后的为具体待索引数据。
在本实施例中,针对步骤S4,即将可检索数据标签发送到应用层,还可以包括以下步骤:
S41:将索引信息发送到应用层。
应用层通过索引信息可以在索引层中找到与其数据请求任务相匹配的数据标签,因此,服务端可以直接将索引信息发送到应用层。
在本实施例中,服务端根据数据请求任务的类型,建立索引层;然后通过计算引擎将待处理数据转换成索引层需要的格式,并存储到索引层,得到索引信息;最后将索引信息发送给应用层,使得应用层可以通过索引信息快速的获取其需要的数据标签;其中,索引层能为应用层提供提供标准的数据源,以及接近实时的搜索服务;由于Spark是基于内存计算的大数据框架,提高了计算速度;并且可以和hadoop生态系统很好的兼容,减少了研发投入成本;索引层能起到数据缓存的作用;由于索引信息往往比数据标签更小,因此,与向应用层发送数据标签相比,发送索引信息更有利于减少服务端的工作负载。
进一步地,在一实施例中,如图5所示,在步骤S31之后,并且在步骤S33之前,即在根据所述数据请求任务的类型,建立索引层的步骤之后,并且在将所述可检索数据标签存储到所述索引层的步骤之前,还包括如下步骤:
S34:获取数据请求任务中的关键字。
数据请求任务中的关键字,包括但不限于数据请求任务中数据字段的名称、数据表的名称、目标数据标签、限定条件等。
具体地,服务端可以根据与应用层的通信协议约定数据请求任务的数据格式,并根据数据格式获取数据请求任务中的关键字。
S35:将关键字与待处理数据进行组合,得到待索引数据。
将关键字与待处理数据进行组合,是指服务端将关键字和待处理数据进行关联存储,以建立关键字与待处理数据之间的映射关系。
具体地,服务端可以通过多种方式对关键字和待处理数据进行关联存储。例如,将关键字与待处理数据存储为XML格式的文件,或者,JSON格式的数据等。其中,XML即可扩展标记语言,是标准通用标记语言的一个子集,XML格式简单,有利于传输数据。
以XML文件为例,服务端将关键字作为XML文件的父标签,将待处理数据作为父标签下的子标签,从而以得到XML文件作为待索引数据。
在本实施例中,服务端获取数据请求任务中的关键字,并将关键字与待处理数据组合起来,进行关联存储,得到待索引数据,通过待索引数据将数据请求任务和待处理数据进行关联,有利于快速地向应用层返回数据请求任务所需的数据。
进一步地,在一实施例中,如图6所示,针对步骤S33,即将待索引数据存储到索引层,得到索引层为待索引数据分配的索引信息,具体包括如下步骤:
S331:获取数据请求任务中的关键字;
具体地,与步骤S34中获取数据请求任务中的关键字一致,此处不再赘述。
S332:将待索引数据中的可检索数据标签与关键字进行相似度比较,得到可检索数据标签的相似度值;
相似度比较,用于判断数据请求任务与待索引数据中的可检索数据标签的相关程度,相似度比较的结果以相似度值表示。
相似度值,是数据请求任务与待索引数据中的可检索数据标签之间相关程度对的量化。
具体地,服务端可以将待索引数据中的可检索数据标签与关键字进行正则表达式匹配,以相同字数作为相似度值。例如,若可检索数据标签包括30个字符,关键字包括10个字符,当两者的相同字符为7个时,该可检索数据标签的相似度值为70%(7/10)。其中,正则表达式,即Regular Expression,常用于检索、替换或比较符合某个规则的文本。
S333:将相似度值超过预设阈值的可检索数据标签所在的待索引数据存储到索引层。
预设阈值,用于对相似度值进行衡量,以确定可检索数据标签是否为数据请求任务需要的数据。
具体地,假设预设阈值为75%,则相似度值超过75%的可检索数据标签为数据请求任务需要的数据;反之,相似度值低于75%,该可检索数据标签不是数据请求任务需要的数据。服务端由此可以将相似度值超过预设阈值的可检索数据标签所在的待索引数据存储到索引层,将剩下的待索引数据舍去。
在本实施例中,服务端将取数据请求任务中的关键字与待索引数据中的可检索数据标签进行相似度比较,得到每个可检索数据标签的相似度值,并通过预设阈值对相似度值进行筛选,实现了对存储到索引层的待索引数据的过滤,使得索引层中的数据与数据请求任务更加匹配,提高返回给应用层数据的准确性。
进一步地,在一实施例中,针对步骤S35,即将关键字与待处理数据进行组合,得到待索引数据,包括以下步骤:
S351:将关键字作为键名,并以待处理数据作为键值,将键名和键值组成键值对形式的待索引数据。
具体地,服务端可以关键字作为键名,以待处理数据作为键值,组成键值对形式的数据结构。
例如,若数据请求任务中的关键字为“职业培训”,则组合后的键值对形式的数据可以表示为:
{
“职业培训”:{“业务类型”:“职业培训”},
“职业培训”:{“职业培训时间”:“1年”}
“职业培训”:“X职业培训学校X市X区X路2号010-88881001...”
......
}
在本实施例中,服务端获取数据请求任务中的关键字,并直接以关键字作为键名,以待处理数据作为键值进行组合,得到键值对形式的待索引数据,实现了一种得到待索引数据的简便快捷的方式。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据标签处理装置,该数据标签处理装置与上述实施例中数据标签处理方法一一对应。如图7所示,该数据标签处理装置包括数据同步模块71、数据提取模块72、索引处理模块73和数据发送模块74。各功能模块详细说明如下:
数据同步模块71,用于对预设数据仓库中的原始数据进行数据同步,将原始数据存储到本地数据库;
数据提取模块72,用于若接收到应用层发送的数据请求任务,则从本地数据库中选取与数据请求任务匹配的原始数据,并将选取到的原始数据作为待处理数据;
索引处理模块73,用于对待处理数据进行索引化处理,得到可检索数据标签;
数据发送模块74,用于将可检索数据标签发送到应用层。
进一步地,数据同步模块71,包括:
定时子模块711,用于以预设时间间隔,从预设数据仓库中获取原始数据的状态;
存储子模块712,用于根据原始数据的状态,将原始数据存储到本地数据库。
进一步地,数据同步模块71,还包括:
监听同步子模块713,用于对预设数据仓库对应的终端发送的数据同步消息进行监听,并根据数据同步消息将原始数据存储到本地数据库。
进一步地,索引处理模块73,包括:
建层子模块731,用于根据数据请求任务的类型,建立索引层;
格式转换子模块732,用于使用预设计算引擎对待处理数据进行数据格式转换,得到待索引数据;
索引分配子模块733,用于将待索引数据存储到索引层,得到索引层为待索引分配的索引信息;
数据发送模块74,包括:
索引发送子模块741,用于将索引信息发送到应用层。
进一步地,索引处理模块73,还包括:
关键字提取子模块734,用于获取数据请求任务中的关键字;
数据组合子模块735,用于将关键字与待处理数据进行组合,得到待索引数据。
进一步地,索引分配子模块733,包括:
关键字提取单元7331,用于获取数据请求任务中的关键字;
相似度比较单元7332,用于将待索引数据中的可检索数据标签与关键字进行相似度比较,得到可检索数据标签的相似度值;
集合存储单元7333,用于将相似度值超过预设阈值的可检索数据标签所在的待索引数据存储到索引层。
进一步地,数据组合子模块735,包括:
键值对组合单元7351,用于将关键字作为键名,并以待处理数据作为键值,将键名和键值组成键值对形式的待索引数据。
关于数据标签处理装置的具体限定可以参见上文中对于数据标签处理方法的限定,在此不再赘述。上述数据标签处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标签处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中数据标签处理方法的步骤,例如图2所示的步骤S1至步骤S4。或者,处理器执行计算机程序时实现上述实施例中数据标签处理装置的各模块/单元的功能,例如图7所示模块71至模块74的功能。为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中数据标签处理方法,或者,该计算机程序被处理器执行时实现上述装置实施例中数据标签处理装置中各模块/单元的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据标签处理方法,其特征在于,所述数据标签处理方法包括:
对预设数据仓库中的原始数据进行数据同步,将所述原始数据存储到本地数据库;
若接收到应用层发送的数据请求任务,则从所述本地数据库中选取与所述数据请求任务匹配的原始数据,并将选取到的所述原始数据作为待处理数据;
对所述待处理数据进行索引化处理,得到可检索数据标签;
将所述可检索数据标签发送到所述应用层。
2.如权利要求1所述的数据标签处理方法,其特征在于,所述对预设数据仓库中的原始数据进行数据同步,将所述原始数据存储到本地数据库,包括:
以预设时间间隔,从所述预设数据仓库中获取所述原始数据的状态;
根据所述原始数据的状态,将所述原始数据存储到所述本地数据库。
3.如权利要求1所述的数据标签处理方法,其特征在于,所述对预设数据仓库中的原始数据进行数据同步,将所述原始数据存储到本地数据库,还包括:
对所述预设数据仓库对应的终端发送的数据同步消息进行监听,并根据所述数据同步消息将所述原始数据存储到所述本地数据库。
4.如权利要求1所述的数据标签处理方法,其特征在于,所述对所述待处理数据进行索引化处理,得到可检索数据标签,包括:
根据所述数据请求任务的类型,建立索引层;
使用预设计算引擎对所述待处理数据进行数据格式转换,得到待索引数据;
将所述待索引数据存储到所述索引层,得到所述索引层为所述待索引数据分配的索引信息;
所述将所述可检索数据标签发送到所述应用层,包括:
将所述索引信息发送到所述应用层。
5.如权利要求4所述的数据标签处理方法,其特征在于,所述根据所述数据请求任务的类型,建立索引层之后,并且在所述将所述待索引数据存储到所述索引层,得到所述索引层为所述待索引数据分配的索引信息之前,所述数据标签处理方法,还包括:
获取所述数据请求任务中的关键字;
将所述关键字与所述待处理数据进行组合,得到所述待索引数据。
6.如权利要求4所述的数据标签处理方法,其特征在于,所述将所述可检索数据标签存储到所述索引层,包括:
获取所述数据请求任务中的关键字;
将所述待索引数据中的可检索数据标签与所述关键字进行相似度比较,得到所述可检索数据标签的相似度值;
将所述相似度值超过预设阈值的可检索数据标签所在的待索引数据存储到所述索引层。
7.如权利要求5所述的数据标签处理方法,其特征在于,所述将所述关键字与所述待处理数据进行组合,得到所述待索引数据,包括:
将所述关键字作为键名,并以所述待处理数据作为键值,将所述键名和所述键值组成键值对形式的所述待索引数据。
8.一种数据标签处理装置,其特征在于,所述数据标签处理装置,包括:
数据同步模块,用于对预设数据仓库中的原始数据进行数据同步,将所述原始数据存储到本地数据库;
数据提取模块,用于若接收到应用层发送的数据请求任务,则从所述本地数据库中选取与所述数据请求任务匹配的原始数据,并将选取到的所述原始数据作为待处理数据;
索引处理模块,用于对所述待处理数据进行索引化处理,得到可检索数据标签;
数据发送模块,用于将所述可检索数据标签发送到所述应用层。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数据标签处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据标签处理方法。
CN201910755580.8A 2019-08-15 2019-08-15 数据标签处理方法、装置、计算机设备及存储介质 Pending CN110659283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910755580.8A CN110659283A (zh) 2019-08-15 2019-08-15 数据标签处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910755580.8A CN110659283A (zh) 2019-08-15 2019-08-15 数据标签处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110659283A true CN110659283A (zh) 2020-01-07

Family

ID=69037512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910755580.8A Pending CN110659283A (zh) 2019-08-15 2019-08-15 数据标签处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110659283A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414519A (zh) * 2020-03-27 2020-07-14 中国平安财产保险股份有限公司 一种信息处理方法、装置、计算机系统及可读存储介质
CN112785368A (zh) * 2020-12-24 2021-05-11 江苏苏宁云计算有限公司 一种标签生产方法、管理方法、装置及系统
CN113347220A (zh) * 2020-03-02 2021-09-03 北京金山云网络技术有限公司 一种服务间数据共享方法、装置、服务器及介质
CN115248831A (zh) * 2021-04-28 2022-10-28 马上消费金融股份有限公司 一种标注方法、装置、系统、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273519A (zh) * 2017-06-22 2017-10-20 睿视智联科技(香港)有限公司 数据分析方法、装置、终端及存储介质
CN108717432A (zh) * 2018-05-11 2018-10-30 腾讯科技(深圳)有限公司 资源查询方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273519A (zh) * 2017-06-22 2017-10-20 睿视智联科技(香港)有限公司 数据分析方法、装置、终端及存储介质
CN108717432A (zh) * 2018-05-11 2018-10-30 腾讯科技(深圳)有限公司 资源查询方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113347220A (zh) * 2020-03-02 2021-09-03 北京金山云网络技术有限公司 一种服务间数据共享方法、装置、服务器及介质
CN113347220B (zh) * 2020-03-02 2022-10-04 北京金山云网络技术有限公司 一种服务间数据共享方法、装置、服务器及介质
CN111414519A (zh) * 2020-03-27 2020-07-14 中国平安财产保险股份有限公司 一种信息处理方法、装置、计算机系统及可读存储介质
CN112785368A (zh) * 2020-12-24 2021-05-11 江苏苏宁云计算有限公司 一种标签生产方法、管理方法、装置及系统
CN115248831A (zh) * 2021-04-28 2022-10-28 马上消费金融股份有限公司 一种标注方法、装置、系统、设备及可读存储介质
CN115248831B (zh) * 2021-04-28 2024-03-15 马上消费金融股份有限公司 一种标注方法、装置、系统、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110659283A (zh) 数据标签处理方法、装置、计算机设备及存储介质
CN108874971B (zh) 一种应用于海量标签化实体数据存储的工具和方法
CN112527783B (zh) 一种基于Hadoop的数据质量探查系统
CN106407360B (zh) 一种数据的处理方法及装置
CN111506559A (zh) 数据存储方法、装置、电子设备及存储介质
CN111339171B (zh) 数据查询的方法、装置及设备
CN105227367A (zh) 一种低延迟的告警解析处理方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN112883125A (zh) 一种实体数据处理方法、装置、设备和存储介质
CN115794839B (zh) 基于Php+Mysql体系的数据归集方法、计算机设备及存储介质
CN111858760A (zh) 一种异构数据库的数据处理方法及装置
CN112231351A (zh) 一种pb级海量数据的实时查询方法和装置
CN106528810B (zh) 一种融合异构数据便于快速大数据分析的方法
CN114416868B (zh) 一种数据同步方法、装置、设备及存储介质
CN109491988B (zh) 一种支持全量更新的数据实时关联方法
CN113190517B (zh) 数据集成方法、装置、电子设备和计算机可读介质
US20230153357A1 (en) Method of processing an observation information, electronic device and storage medium
CN116303628A (zh) 基于Elasticsearch的告警数据查询方法、系统及设备
CN116049193A (zh) 数据存储方法及装置
CN113868138A (zh) 测试数据的获取方法、系统、设备及存储介质
CN110737662B (zh) 一种数据分析方法、装置、服务器及计算机存储介质
CN113778996A (zh) 一种大数据流数据处理方法、装置、电子设备及存储介质
CN112000669A (zh) 一种环境监测数据的处理方法、装置、存储介质及终端
CN112579705A (zh) 元数据采集方法、装置、计算机设备和存储介质
CN113792137B (zh) 一种中台研发物料检索方法、系统、智能终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination