CN117113090A - 数据源标签标注方法、装置及电子设备 - Google Patents
数据源标签标注方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117113090A CN117113090A CN202311368404.1A CN202311368404A CN117113090A CN 117113090 A CN117113090 A CN 117113090A CN 202311368404 A CN202311368404 A CN 202311368404A CN 117113090 A CN117113090 A CN 117113090A
- Authority
- CN
- China
- Prior art keywords
- data
- json format
- key
- json
- format data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000002372 labelling Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明实施例中提供了一种数据源标签标注方法、装置及电子设备,属于数据处理技术领域,该方法包括:接收JSON格式数据和所述JSON格式数据对应的标注数据主键;将接收到的JSON格式数据进行转换;判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名;若不存在,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0。采用本方案,能够在节省数据存储空间的同时,提高数据查询的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据源标签标注方法、装置及电子设备。
背景技术
传统的数据库操作方式采用SQL语句进行数据操作,当处理大规模并发数据时,SQL语句可能会受到性能瓶颈的限制,导致数据处理速度变慢。另外,不同的数据库事务存在不同隔离级别的情况,低隔离级别会导致数据操作的线程安全问题,高的隔离级别又会影响数据库的读写效率。由于多个操作不是原子性的,当多个操作同时进行时,可能会导致数据不一致的问题。关系数据库存储多对多关系会导致数据膨胀,数据量级是条目与映射类型的笛卡尔积级别。
传统关系型数据库采用行作为单位,列作为字段的存储值,故指定行的指定列字段若存在多个值则会导致其更新成本非常高,业务上也会难以处理。统的关系型数据库存储多对多关系会造成数据冗余,继而引发存储空间的浪费。由于数据源标注的类型会存在缓慢变化的情况,若采用关系型数据库的冗余字段的方案会导致数据变更的成本异常升高,在大数据量级的情况下尤为显著。
为克服上述缺陷,本发明提出一种数据源标签标注方法,该方法能够适用于大规模并发数据入库和更新场景,性能方面提升至少10倍,并能够保证数据的准确性和唯一性,在存储方面可节省95%以上的空间,并灵活支撑业务变更需求。
发明内容
有鉴于此,本发明实施例提供一种数据源标签标注方法、装置及电子设备,至少部分解决现有技术中存在的问题。
第一方面,本发明实施例提供了一种数据源标签标注方法,包括:
接收JSON格式数据和所述JSON格式数据对应的标注数据主键;
将接收到的JSON格式数据进行转换,将JSON格式数据通过基础映射表转换为多组key-value形式的预处理数据,其中key为JSON格式数据的标签名,value为主键id;
判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名;
若不存在,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,并通过hash表的形式存储一个键值对,hash表的key为JSON格式数据的标签key,value为通过指针指向内存空间的地址;
在申请的存储空间中,每个字节byte有8个位,用于存储8个主键的标签情况,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0,其中,内存空间中使用内存数据库Redis对hash表形式键值对进行存储和操作,保障底层的lua实现为单线程操作,所有的数据库操作均为安全的原子操作。
根据本公开实施例的一种具体实现方式,所述将接收到的JSON格式数据进行转换,包括:
构建基础映射表,以便于将JSON数据通过基础映射表转换为多组key-value形式的预处理数据。
根据本公开实施例的一种具体实现方式,所述将接收到的JSON格式数据进行转换,还包括:
在所述基础映射表中设置JSON读取函数,所述JSON读取函数用于读取
JSON格式数据的头文件信息以及JSON数据体M,从所述头文件信息中判断是否存在JSON数
据体的描述值;
若不存在,则通过标准数据段将JSON数据体M分成m份,;
通过value计算函数计算JSON数据体的value值:
size()为数据大小计算函数,mod()为取整函数,为第一调节参数,为第二调
节参数,为标准数据段,P()为相似度计算函数。
根据本公开实施例的一种具体实现方式,所述则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,包括:
设置计算公式来计算内存空间的大小:
MemorySize = Max(Id) ÷ BitPerByte ÷ (Kilobyte × Kilobyte)
其中,MemorySize表示内存空间的空间大小,Max(Id)表示主键Id的最大值,BitPerByte等于8,Kilobyte等于1024。
根据本公开实施例的一种具体实现方式,所述判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名之后,所述方法还包括:
当hash表中存在转换的JSON格式数据的标签名时,直接在hash表中对JSON格式数据的标签名进行添加或删除操作。
根据本公开实施例的一种具体实现方式,所述直接在hash表中对JSON格式数据的标签名进行添加或删除操作,包括:
执行添加操作时,将JSON格式数据的标签名对应的主健值设置为1。
根据本公开实施例的一种具体实现方式,所述直接在hash表中对JSON格式数据的标签名进行添加或删除操作,包括:
执行删除操作时,将JSON格式数据的标签名对应的主健值设置为0。
根据本公开实施例的一种具体实现方式,所述方法还包括:
当所述头文件信息中存在JSON数据体的描述值时,直接将所述描述值作为
JSON数据体的value值。
第二方面,本发明实施例提供了一种数据源标签标注装置,包括:
接收模块,用于接收JSON格式数据和所述JSON格式数据对应的标注数据主键;
转换模块,用于将接收到的JSON格式数据进行转换,将JSON格式数据通过基础映射表转换为多组key-value形式的预处理数据,其中key为JSON格式数据的标签名,value为主键id;
判断模块,用于判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名;
存储模块,当存储数据源标签的hash表中是不存在转换的JSON格式数据的标签名时,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,并通过hash表的形式存储一个键值对,hash表的key为JSON格式数据的标签key,value为通过指针指向内存空间的地址;
设置模块,在申请的存储空间中,每个字节byte有8个位,用于存储8个主键的标签情况,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0,其中,内存空间中使用内存数据库Redis对hash表形式键值对进行存储和操作,保障底层的lua实现为单线程操作,所有的数据库操作均为安全的原子操作。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式中的数据源标签标注方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的数据源标签标注方法。
第五方面,本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的数据源标签标注方法。
本发明实施例中的数据源标签标注方案,包括:接收JSON格式数据和所述JSON格式数据对应的标注数据主键;将接收到的JSON格式数据进行转换,将JSON格式数据通过基础映射表转换为多组key-value形式的预处理数据,其中key为JSON格式数据的标签名,value为主键id;判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名;若不存在,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,并通过hash表的形式存储一个键值对,hash表的key为JSON格式数据的标签key,value为通过指针指向内存空间的地址;在申请的存储空间中,每个字节byte有8个位,用于存储8个主键的标签情况,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0,其中,内存空间中使用内存数据库Redis对hash表形式键值对进行存储和操作,保障底层的lua实现为单线程操作,所有的数据库操作均为安全的原子操作。本申请的方案具有如下有益效果:
1)接收JSON格式数据并转存数据,从数据源端保证灵活可变,且变动对存储架构不会产生影响;
2)存储空间大大节省,最高可节省98%的存储空间;
3)基于内存存储,查询效率提升至少10倍。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种数据源标签标注方法流程示意图;
图2为本发明实施例提供的另一种数据源标签标注方法流程示意图;
图3为本发明实施例提供的数据源标签标注装置结构示意图;
图4为本发明实施例提供的电子设备示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种数据源标签标注方法。本实施例提供的数据源标签标注方法可以由一计算装置来执行,该计算装置可以实现为软件,或者实现为软件和硬件的组合,该计算装置可以集成设置在服务器、终端设备等中。
参见图1和图2,本公开实施例提供了一种数据源标签标注方法,包括:
S101,接收JSON格式数据和所述JSON格式数据对应的标注数据主键。
JSON数据是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据。在大部分语言中,JSON数据被理解为对象,记录,结构,字典,哈希表,有键列表,或者关联数组。
针对海量并发的JSON数据进行处理时,传统的数据库往往需要占用海量的存储空间,一方面导致存储空间的浪费,同时也影响了数据处理的实时性。
为此,当存在海量并发的JSON数据需要进行入库存储时,可以先接收JSON格式数据和所述JSON格式数据对应的标注数据主键。
S102,将接收到的JSON格式数据进行转换,将JSON格式数据通过基础映射表转换为多组key-value形式的预处理数据,其中key为JSON格式数据的标签名,value为主键id。
为了便于对JSON数据进行存储,需要对其进行数据转换,转换成方便存储的数据类型。可以将JSON数据通过基础映射表转换为多组key-value形式的预处理数据,例如:
crawl_page:1001,crawl_api:1002,crawl_search:1003
进一步的,为了提高数据转换的效率,可以在所述基础映射表中设置JSON读取函
数,所述JSON读取函数用于读取JSON格式数据的头文件信息以及JSON数据体M,
从所述头文件信息中判断是否存在JSON数据体的描述值,JSON数据体的描述值用于
描述JSON数据体的数据大小等信息。
若不存在,则通过标准数据段将JSON数据体M分成m份,,
标准数据段为小于JSON数据体M的JSON数据,用于对JSON数据体M进行类比数据切割,从
而形成m个分割数据。
通过value计算函数计算JSON数据体的value值:
size()为数据大小计算函数,mod()为取整函数,为第一调节参数,为第二调
节参数,为标准数据段,P()为相似度计算函数。通过上述方式,可以快速的基于数据特
征进行数据的转换。
S103,判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名。
S104,若不存在,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,并通过hash表的形式存储一个键值对,hash表的key为JSON格式数据的标签key,value为通过指针指向内存空间的地址。
作为一个例子,可以通过如下公式申请数据空间:
MemorySize = Max(Id) ÷ BitPerByte ÷ (Kilobyte × Kilobyte)
MemorySize表示空间大小(MB) ;
Max(Id)表示主键Id的最大值;
BitPerByte的值为8;
Kilobyte的值为1024。
S105,在申请的存储空间中,每个字节byte有8个位,用于存储8个主键的标签情况,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0,其中,内存空间中使用内存数据库Redis对hash表形式键值对进行存储和操作,保障底层的lua实现为单线程操作,所有的数据库操作均为安全的原子操作。
作为一个例子,可以采用如下方式进行数据库的操作:
> SETBIT crawl_page 1001 1 # 将crawl_page标签的1001位设置为1(添加标签)
> SETBIT crawl_api 1002 0 # 将crawl_api标签的1002位设置为0(删除标签)
> GETBIT crawl_search 1003 # 获取crawl_search标签的1003位(1:有标签,0:无标签)
通过上述方案,本申请的方案能够极大的节省存储空间,例如,在一个标签中存储10亿条数据主键需要1000000000÷8÷(1024²)≈120MB,而在传统的关系型数据库中,即使只有两个列[主键(4B),标签值(small_int,2B)]的10亿行数据,至少需要5.6GB的存储空间,相比之下该方法节省了98%的存储空间。同时,基于内存存储,查询效率提升至少10倍,数据库基于原子级别操作,保证了数据的操作安全性。
根据本公开实施例的一种具体实现方式,所述将接收到的JSON格式数据进行转换,包括:
构建基础映射表,以便于将JSON数据通过基础映射表转换为多组key-value形式的预处理数据。
根据本公开实施例的一种具体实现方式,所述将接收到的JSON格式数据进行转换,还包括:
在所述基础映射表中设置JSON读取函数,所述JSON读取函数用于读取
JSON格式数据的头文件信息以及JSON数据体M,从所述头文件信息中判断是否存在JSON数
据体的描述值;
若不存在,则通过标准数据段将JSON数据体M分成m份,;
通过value计算函数计算JSON数据体的value值:
size()为数据大小计算函数,mod()为取整函数,为第一调节参数,为第二调
节参数,为标准数据段,P()为相似度计算函数。
根据本公开实施例的一种具体实现方式,所述则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,包括:
设置计算公式来计算内存空间的大小:
MemorySize = Max(Id) ÷ BitPerByte ÷ (Kilobyte × Kilobyte)
其中,MemorySize表示内存空间的空间大小,Max(Id)表示主键Id的最大值,BitPerByte等于8,Kilobyte等于1024。
根据本公开实施例的一种具体实现方式,所述判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名之后,所述方法还包括:
当hash表中存在转换的JSON格式数据的标签名时,直接在hash表中对JSON格式数据的标签名进行添加或删除操作。
根据本公开实施例的一种具体实现方式,所述直接在hash表中对JSON格式数据的标签名进行添加或删除操作,包括:
执行添加操作时,将JSON格式数据的标签名对应的主健值设置为1。
根据本公开实施例的一种具体实现方式,所述直接在hash表中对JSON格式数据的标签名进行添加或删除操作,包括:
执行删除操作时,将JSON格式数据的标签名对应的主健值设置为0。
根据本公开实施例的一种具体实现方式,所述方法还包括:
当所述头文件信息中存在JSON数据体的描述值时,直接将所述描述值作为
JSON数据体的value值。
与上面的方法实施例相对应,参见图3,本发明实施例还公开了一种数据源标签标注装置30,包括:
接收模块301,用于接收JSON格式数据和所述JSON格式数据对应的标注数据主键;
转换模块302,用于将接收到的JSON格式数据进行转换,将JSON格式数据通过基础映射表转换为多组key-value形式的预处理数据,其中key为JSON格式数据的标签名,value为主键id;
判断模块303,用于判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名;
存储模块304,当存储数据源标签的hash表中是不存在转换的JSON格式数据的标签名时,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,并通过hash表的形式存储一个键值对,hash表的key为JSON格式数据的标签key,value为通过指针指向内存空间的地址;
设置模块305,在申请的存储空间中,每个字节byte有8个位,用于存储8个主键的标签情况,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0,其中,内存空间中使用内存数据库Redis对hash表形式键值对进行存储和操作,保障底层的lua实现为单线程操作,所有的数据库操作均为安全的原子操作。
参见图4,本发明实施例还提供了一种电子设备60,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述方法实施例中数据源标签标注方法。
本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实施例中。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述方法实施例中的数据源标签标注方法。
图4所示装置可以执行图1-2所示实施例的方法,本实施例未详细描述的部分,可参考对图1-2所示实施例的相关说明。在此不再赘述。
下面参考图4,其示出了适于用来实现本公开实施例的电子设备60的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备60可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备60操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备60与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备60,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据源标签标注方法,其特征在于,包括:
接收JSON格式数据和所述JSON格式数据对应的标注数据主键;
将接收到的JSON格式数据进行转换,将JSON格式数据通过基础映射表转换为多组key-value形式的预处理数据,其中key为JSON格式数据的标签名,value为主键id;
判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名;
若不存在,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,并通过hash表的形式存储一个键值对,hash表的key为JSON格式数据的标签key,value为通过指针指向内存空间的地址;
在申请的存储空间中,每个字节byte有8个位,用于存储8个主键的标签情况,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0,其中,内存空间中使用内存数据库Redis对hash表形式键值对进行存储和操作,保障底层的lua实现为单线程操作,所有的数据库操作均为安全的原子操作。
2.根据权利要求1所述的方法,其特征在于,所述将接收到的JSON格式数据进行转换,包括:
构建基础映射表,以便于将JSON数据通过基础映射表转换为多组key-value形式的预处理数据。
3.根据权利要求2所述的方法,其特征在于,所述将接收到的JSON格式数据进行转换,还包括:
在所述基础映射表中设置JSON读取函数,所述JSON读取函数/>用于读取JSON格式数据的头文件信息以及JSON数据体M,从所述头文件信息中判断是否存在JSON数据体的描述值/>;
若不存在,则通过标准数据段将JSON数据体M分成m份,/>;
通过value计算函数计算JSON数据体的value值/>:
,
,
size()为数据大小计算函数,mod()为取整函数,为第一调节参数,/>为第二调节参数,/>为标准数据段,P()为相似度计算函数。
4.根据权利要求3所述的方法,其特征在于,所述则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,包括:
设置计算公式来计算内存空间的大小:
MemorySize = Max(Id) ÷ BitPerByte ÷ (Kilobyte × Kilobyte)
其中,MemorySize表示内存空间的空间大小,Max(Id)表示主键Id的最大值,BitPerByte等于8,Kilobyte等于1024。
5.根据权利要求4所述的方法,其特征在于,所述判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名之后,所述方法还包括:
当hash表中存在转换的JSON格式数据的标签名时,直接在hash表中对JSON格式数据的标签名进行添加或删除操作。
6.根据权利要求5所述的方法,其特征在于,所述直接在hash表中对JSON格式数据的标签名进行添加或删除操作,包括:
执行添加操作时,将JSON格式数据的标签名对应的主健值设置为1。
7.根据权利要求5所述的方法,其特征在于,所述直接在hash表中对JSON格式数据的标签名进行添加或删除操作,包括:
执行删除操作时,将JSON格式数据的标签名对应的主健值设置为0。
8.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述头文件信息中存在JSON数据体的描述值时,直接将所述描述值/>作为JSON数据体的value值。
9.一种数据源标签标注装置,其特征在于,包括:
接收模块,用于接收JSON格式数据和所述JSON格式数据对应的标注数据主键;
转换模块,用于将接收到的JSON格式数据进行转换,将JSON格式数据通过基础映射表转换为多组key-value形式的预处理数据,其中key为JSON格式数据的标签名,value为主键id;
判断模块,用于判断存储数据源标签的hash表中是否存在转换的JSON格式数据的标签名;
存储模块,当存储数据源标签的hash表中是不存在转换的JSON格式数据的标签名时,则根据JSON格式数据业务的数据量预估,申请满足所述业务数据量的指定大小的二进制位内存空间,并通过hash表的形式存储一个键值对,hash表的key为JSON格式数据的标签key,value为通过指针指向内存空间的地址;
设置模块,在申请的存储空间中,每个字节byte有8个位,用于存储8个主键的标签情况,当某个主键id数据需要标注该标签时,只需将hash表中对应的key标签的第id个位设置为1即可,否则将第id个位设置为0,其中,内存空间中使用内存数据库Redis对hash表形式键值对进行存储和操作,保障底层的lua实现为单线程操作,所有的数据库操作均为安全的原子操作。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述权利要求1-8任一项所述的数据源标签标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311368404.1A CN117113090B (zh) | 2023-10-23 | 2023-10-23 | 数据源标签标注方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311368404.1A CN117113090B (zh) | 2023-10-23 | 2023-10-23 | 数据源标签标注方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117113090A true CN117113090A (zh) | 2023-11-24 |
CN117113090B CN117113090B (zh) | 2024-01-19 |
Family
ID=88809442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311368404.1A Active CN117113090B (zh) | 2023-10-23 | 2023-10-23 | 数据源标签标注方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117113090B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094380A1 (en) * | 2004-01-08 | 2009-04-09 | Agency For Science, Technology And Research | Shared storage network system and a method for operating a shared storage network system |
CN102033912A (zh) * | 2010-11-25 | 2011-04-27 | 北京北纬点易信息技术有限公司 | 一种分布式数据库访问方法及系统 |
CN102591970A (zh) * | 2011-12-31 | 2012-07-18 | 北京奇虎科技有限公司 | 一种分布式键-值查询方法和查询引擎系统 |
CN103078927A (zh) * | 2012-12-28 | 2013-05-01 | 合一网络技术(北京)有限公司 | 一种key-value数据分布式缓存系统及其方法 |
CN106095698A (zh) * | 2016-06-03 | 2016-11-09 | 合网络技术(北京)有限公司 | 面向对象的缓存写入、读取方法及装置 |
CN112148674A (zh) * | 2020-10-12 | 2020-12-29 | 平安科技(深圳)有限公司 | 日志数据处理方法、装置、计算机设备和存储介质 |
-
2023
- 2023-10-23 CN CN202311368404.1A patent/CN117113090B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094380A1 (en) * | 2004-01-08 | 2009-04-09 | Agency For Science, Technology And Research | Shared storage network system and a method for operating a shared storage network system |
CN102033912A (zh) * | 2010-11-25 | 2011-04-27 | 北京北纬点易信息技术有限公司 | 一种分布式数据库访问方法及系统 |
CN102591970A (zh) * | 2011-12-31 | 2012-07-18 | 北京奇虎科技有限公司 | 一种分布式键-值查询方法和查询引擎系统 |
CN103078927A (zh) * | 2012-12-28 | 2013-05-01 | 合一网络技术(北京)有限公司 | 一种key-value数据分布式缓存系统及其方法 |
CN106095698A (zh) * | 2016-06-03 | 2016-11-09 | 合网络技术(北京)有限公司 | 面向对象的缓存写入、读取方法及装置 |
CN112148674A (zh) * | 2020-10-12 | 2020-12-29 | 平安科技(深圳)有限公司 | 日志数据处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117113090B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107771334B (zh) | 自动的数据库模式注释 | |
CN102272713B (zh) | 用于型式辨识处理器的电力消耗管理的方法及系统 | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
US20120158742A1 (en) | Managing documents using weighted prevalence data for statements | |
US10331717B2 (en) | Method and apparatus for determining similar document set to target document from a plurality of documents | |
CN110990406B (zh) | 一种模糊查询方法、装置、设备和介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN110704608A (zh) | 文本主题生成方法、装置和计算机设备 | |
CN117113090B (zh) | 数据源标签标注方法、装置及电子设备 | |
CN112699656A (zh) | 一种广告标题重写方法、装置、设备及储存介质 | |
CN111198917A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111309988B (zh) | 基于编码的字符串检索方法、装置及电子设备 | |
CN114222317A (zh) | 数据处理方法及装置、电子设备和存储介质 | |
CN114356912A (zh) | 一种向数据库写入数据的方法及计算机设备 | |
CN113609128A (zh) | 生成数据库实体类的方法、装置、终端设备及存储介质 | |
CN112131222A (zh) | 消息读取状态数据的存储方法、装置、介质及电子设备 | |
CN112949320A (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
CN111949765A (zh) | 基于语义的相似文本搜索方法、系统、设备和存储介质 | |
CN112395387A (zh) | 全文检索方法及装置、计算机存储介质、电子设备 | |
CN113515504B (zh) | 数据管理方法、装置、电子设备以及存储介质 | |
CN115408491B (zh) | 一种历史数据的文本检索方法及系统 | |
CN111221817B (zh) | 业务信息数据存储方法、装置、计算机设备及存储介质 | |
US20160155055A1 (en) | Method of Operating a Solution Searching System and Solution Searching System | |
US11386089B2 (en) | Scan optimization of column oriented storage | |
CN114756545A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |