CN112817530B - 一种多线程安全高效读写有序数据的方法 - Google Patents

一种多线程安全高效读写有序数据的方法 Download PDF

Info

Publication number
CN112817530B
CN112817530B CN202110086974.6A CN202110086974A CN112817530B CN 112817530 B CN112817530 B CN 112817530B CN 202110086974 A CN202110086974 A CN 202110086974A CN 112817530 B CN112817530 B CN 112817530B
Authority
CN
China
Prior art keywords
node
data
date
array
container
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110086974.6A
Other languages
English (en)
Other versions
CN112817530A (zh
Inventor
吴洪
王俊华
刘茂军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wind Information Technology Co ltd
Original Assignee
Wind Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wind Information Technology Co ltd filed Critical Wind Information Technology Co ltd
Priority to CN202110086974.6A priority Critical patent/CN112817530B/zh
Publication of CN112817530A publication Critical patent/CN112817530A/zh
Application granted granted Critical
Publication of CN112817530B publication Critical patent/CN112817530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种多线程安全高效读写有序数据的方法,其特征在于,包括以下步骤:利用读线程实现对容器内存储数据的读操作,同时利用与读线程不同的写线程实现对同一容器内存储数据的写操作,对容器的读操作与写操作同时进行。本发明针对数据处理领域中对存储在某一容器内的数据进行各种排序来进行数据分析的情况,设计了一种多线程安全高效读写有序数据的方法。采用本发明的技术方案后,一系列的数据在多线程的情况下任意一列的数据可以进行有序地存储与读取,实现读写同时进行以及多线程读写安全的无锁容器。

Description

一种多线程安全高效读写有序数据的方法
技术领域
本发明涉及一种读线程与写线程同时对存储于同一容器内的数据进行读写操作的方法。
背景技术
随着计算的硬件的不断发展,CPU所采用的多核结构带来了计算机工作模式的重大改革,使得计算机的性能得到很大提升,原有的单线程模式已经可以在多核情况下并行工作。数据在任何领域系统中都是存在的,如何去高效地读写数据是任何领域系统中都必须要解决的问题。在数据处理领域,对存储在某一容器内的数据进行各种排序来进行数据分析,这种情况非常普遍。
在现有的技术方案中,对存储于同一容器内的数据进行读写操作采用以下两种模式之一:如图1所示,为单线程情况下的工作模式。在该工作模式下,只有一个线程在对存储于容器内的数据进行读、写操作,因而读写不能同时进行,读和写是互斥的,从容器中读出数据的时候不能将数据写入同一容器中,在将数据写入容器的时候不能将数据从同一容器中读出。
如图2所示,为多核情况下多线程的读写工作模式。在该工作模式下,对同一容器内存储的数据进行的读操作和写操作是在不同线程中进行的。为了解决两个线程相互冲突的问题,上述读写工作模式引入锁来解决,读线程与写线程同时抢占资源,若读线程先抢占到锁,则进行读操作,反之若写线程先抢占到锁,则进行写操作。图2所示的工作模式,虽然是两个线程在工作,但读线程与写线程的操作是互斥的,不能同时进行,性能上得不到提升。
发明内容
本发明要解决的技术问题是:在现有的多核情况下多线程的读写工作模式中,读线程与写线程的操作是互斥的。
为了解决上述技术问题,本发明的技术方案是提供了一种多线程安全高效读写有序数据的方法,其特征在于,包括以下步骤:
容器利用N个Node数据节点来存储任意数据类型的数据,N≥3,每个Node数据节点包含Previous字段、Key字段、Value字段及Next字段,第n个Node数据节点的Previous字段用于存储指向第(n-1)个Node数据节点的指针,第n个Node数据节点的Key字段用于存储按照场景的需求需要排序的值,定义为Key值,第n个Node数据节点的Value字段用于存储Key字段的值对应的数据值,定义为Value值,第n个Node数据节点的Next字段用于存储指向第(n+1)个Node数据节点的指针,n=2,…,(N-1);所有Node数据节点按照Key字段的值在容器内排序;
利用读线程实现对容器内存储数据的读操作,同时利用与读线程不同的写线程实现对同一容器内存储数据的写操作,对容器的读操作与写操作同时进行,其中:对容器的写操作包括以下步骤:
步骤101:获得待存储的数据的Key值及与Key值相对应的Value值,创建一个Node数据节点;
新创建的Node数据节点的Previous字段及Next字段为空,将Key值存入新创建的当前Node数据节点的Key字段,将Value值存入新创建的当前Node数据节点的Value字段;
步骤102:将新创建的Node数据节点的Key字段的值与容器内已存在的所有Node数据节点的Key字段的值进行匹配,若匹配成功,则进入步骤103,若匹配失败,则进入步骤104;
步骤103:将匹配到的已存在的Node数据节点的Key字段的值以及Value字段的值用新创建的Node数据节点的Key字段的值以及Value字段的值覆盖,返回步骤101;
步骤104:设容器内已存储有K个Node数据节点,2≤K≤N,查找与新创建的Node数据节点的Key字段的值相匹配的Key值区间,Key值区间为由容器内已存储的相邻两个Node数据节点的Key字段的值组成的区间;
设Vk表示容器内已有的第k个Node数据节点的Key字段的值,k=2,…,K,新创建的Node数据节点的Key字段的值为V;
设容器内已有K个Node数据节点按照Key字段的值降序排列,则有:
若V∈(V k,Vk-1),则V与Key值区间(V k,Vk-1)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第(k-1)个Node数据节点,将新创建的Node数据节点的Next字段的指针指向容器内已有的第k个Node数据节点,再将容器内已有的第(k-1)个Node数据节点的Next字段的指针指向新创建的Node数据节点,将容器内已有的第k个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V>V1,则V与Key值区间(V1,+∞)相匹配,此时,先将新创建的Node数据节点的Next字段的指针指向容器内已有的第1个Node数据节点,再将容器内已有的第1个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V<VK,则V与Key值区间(-∞,VK)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第K个Node数据节点,再将容器内已有的第K个Node数据节点的Next字段的指针指向新创建的Node数据节点;
设容器内已有K个Node数据节点按照Key字段的值升序排列,则有:
若V∈(Vk-1,Vk),则V与Key值区间(Vk-1,Vk)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第(k-1)个Node数据节点,将新创建的Node数据节点的Next字段的指针指向容器内已有的第k个Node数据节点,再将容器内已有的第(k-1)个Node数据节点的Next字段的指针指向新创建的Node数据节点,将容器内已有的第k个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V<V1,则V与Key值区间(-∞,V1)相匹配,此时,先将新创建的Node数据节点的Next字段的指针指向容器内已有的第1个Node数据节点,再将容器内已有的第1个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V>VK,则V与Key值区间(VK,+∞)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第K个Node数据节点,再将容器内已有的第K个Node数据节点的Next字段的指针指向新创建的Node数据节点;
对容器的读操作包括以下步骤:
获得待读取数据的Key值,通过二分法获得容器中Key字段的值与该Key值相匹配的Node数据节点,利用二分法进行匹配时,将待读取数据的Key值不断与位于搜索范围中间位置的Node数据节点的Key字段的值进行匹配,已经匹配结果再基于Node数据节点按照Key字段的值在容器内升序或降低排列的方式不断将搜索范围减半,最终得到相匹配的Node数据节点,在此过程中,若通过同步进行的写操作将待匹配的Node数据节点删除,则将待读取数据的Key值与删除的Node数据节点的上一个Node数据节点或下一个Node数据节点进行匹配,并依据匹配结论将搜索范围减半。
优选地,所述N个Node数据节点存放在数组中。
优选地,在所述步骤101之前还包括初始化数组,将数组的大小初始化为可以存储M个所述Node数据节点,1≤M≤N;
当对数组进行扩容时,按照数组的已有大小成倍扩容,数组的大小为可以存储所述Node数据节点的个数。
优选地,步骤102中,利用二分法进行新创建的Node数据节点的Key字段的值与容器内已存在的所有Node数据节点的Key字段的值的匹配。
本发明的另一个技术方案是提供了一种多线程安全高效读写有序数据的方法,其特征在于,包括以下步骤:
利用一个且仅有一个数组来存储日期类型数据,日期类型数据通过Ushort数据格式存储,占用两个字节;设数组的长度为N,N≥3,则数组中第n个元素与第n个索引位置相对应,n=0,1,…,N-1,即第n个索引位置指向数组中第n个元素;
将日期类型数据定义为与日期相关的数据,利用读线程实现对数组的读操作,同时利用与读线程不同的写线程实现对同一数组的写操作,对数组的读操作与写操作同时进行,其中:对数组的写操作包括以下步骤:
步骤111:依据所有待存入的日期类型数据对应的日期确定最小日期DMin及最大日期DMax,则有N=DMax-DMin,初始化一个长度为N的数组,数组中所有元素指向空;
步骤112:对所有待存入的日期类型数据进行写操作,其中,对当前一个待存入的日期类型数据进行写操作时,先将当前日期类型数据转换为Ushort数据格式,再依据当前日期类型数据所对应的具体日期,利用步骤111确定的最小日期DMin及最大日期DMax,计算得到当前日期类型数据所对应的索引位置,将该索引位置指向转换为Ushort数据格式的当前日期类型数据;
当写入一个新的日期类型数据时,若相应索引位置指向的数据不为空,则用新的日期类型数据替换该相应索引指向的旧日期类型数据,若相应索引位置指向的数据为空,则将该索引位置直接指向新的日期类型数据;
当写入一个新的日期类型数据时,若新的日期类型数据所对应的日期大于最大日期DMax,则对数组进行扩容后,再将扩容后的数组的相应索引位置指向新的日期类型数据;
对数组的读操作包括以下步骤:
若需要读取某个具体日期的日期类型数据,则包括以下步骤:
步骤211:计算与具体日期相对应的索引位置,该索引位置=具体日期-数组中已存储的最小日期-1;
步骤212:直接读取数组中通过步骤211计算得到的索引位置所指向的日期类型数据,或者读取数组中通过步骤211计算得到的索引位置往后一个索引位置或往前一个索引位置所指向的日期类型数据,直至获得日期类型数据;
若需要读取某个日期区间的数据,则包括以下步骤:
步骤221:采用上述步骤211所记载的方法获得日期区间中下限日期对应的索引位置,定义为下限索引位置;
采用上述步骤211所记载的方法获得日期区间中上限日期对应的索引位置,定义为上限索引位置;
步骤222:获得数组中位于下限索引位置与上限索引位置之间的所有索引位置指向的日期类型数据。
优选地,步骤111中,依据所有待存入的日期类型数据所对应的最大日期及最小日期确定所述最小日期DMin及所述最大日期DMax
或者依据所有待存入的日期类型数据所对应日期的规律确定所述最小日期DMin及所述最大日期DMax
或者所述最小日期DMin设定为所有待存入的日期类型数据所对应的日期中最小日期,所述最大日期DMax设定为当前日期加固定天数,其中,固定天数的具体值根据经验确定。
优选地,在所述步骤112之后还包括:
步骤113:完成对所有待存入的日期类型数据的写操作后,再获得数组中指向日期类型数据所对应日期最小的索引位置,将该索引位置指向的日期作为所述最小日期DMin后重新计算得到N,依据更新后的N重新初始化一个数组,将原数组中的数据放入到新的数组中,并将原数组的数据设置为空。
优选地,步骤112中,对数组进行扩容包括以下步骤:
计算新的日期类型数据所对应的索引位置,将数组大小扩容至计算得到的索引位置+1;
或者计算新的日期类型数据所对应的索引位置,将数组大小扩容至计算得到的索引位置+一个月的天数+1。
本发明针对数据处理领域中对存储在某一容器内的数据进行各种排序来进行数据分析的情况,设计了一种多线程安全高效读写有序数据的方法。采用本发明的技术方案后,一系列的数据在多线程的情况下任意一列的数据可以进行有序地存储与读取,实现读写同时进行以及多线程读写安全的无锁容器。
附图说明
图1为单线程情况下工作模式的流程图;
图2为现有的多核情况下多线程的读写工作模式的流程图;
图3为本发明的多核情况下多线程的读写工作模式的流程图;
图4为实施例1中的数据存储结构示意图;
图5为实施例1中初始化的数组示意图;
图6为实施例1中创建的Node数据节点示意图;
图7为将张三对应的Node数据节点插入图5所示的数组中的示意图;
图8为匹配李四对应的Node数据节点的示意图;
图9为张三对应的Node数据节点插入后,再插入李四对应的Node数据节点的示意图;
图10为实施例1中将四条数据插入后的示意图;
图11为实施例1中构建双向链表的步骤;
图12为实施例1中的二分法查询示意图;
图13为实施例2中确认索引位置的示意图;
图14为实施例2中一个具体实例的确认数组长度的示意图;
图15为实施例2中写入数据的示意图;
图16为实施例2的数据压缩示意图;
图17为实施例2中读数据所用案例示意图;
图18为实施例2读数据的示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图3所示,在本发明中,利用读线程实现对容器内存储数据的读操作,同时利用与读线程不同的写线程实现对同一容器内存储数据的写操作,对容器的读操作与写操作同时进行,
实施例1
基于图3所述的工作模式,本实施例公开了一种支持任意数据类型的排序的读写方法。
本实施例中,数据存储结构采用如图4所示的双向链表+数组实现存储。本实施例中容器为数组,数组利用N个Node数据节点来存储任意数据类型的数据,N≥3。每个Node数据节点包含Previous字段、Key字段、Value字段及Next字段,其中:第n个Node数据节点的Previous字段用于存储指向第(n-1)个Node数据节点的指针;第n个Node数据节点的Key字段用于存储按照场景的需求需要排序的值,定义为Key值;第n个Node数据节点的Value字段用于存储Key字段的值对应的数据值,定义为Value值;第n个Node数据节点的Next字段用于存储指向第(n+1)个Node数据节点的指针,N=2,…,(N-1)。
本实施例中以一张如下表1所示的学生成绩表,要求按照学生的成绩分数来排序读写为例进一步说明本发明。
表1
针对上表所示的数据,则Node数据节点有:
1)Key字段:用于存储学生成绩对应的分数;
2)Value字段:用于存储对应该分数的学生的分数以及需要信息(例如:一个学生的姓名、班级、性别、分数等);
3)Previous字段:该成绩分数比当前Node数据节点高的Node数据节点指针(如果Node数据节点按照Key字段的值升序排序,对应的是比当前Node数据节点高的Node数据节点;如果Node数据节点按照Key字段的值降序排序,则对应的是比当前Node数据节点低的Node数据节点)
4)Next字段:该成绩分数比当前Node数据节点低(或者高)的Node数据节点指针,同Previous字段。
则向数组写入数据包括以下步骤:
第一步:初始化一个如图5所示的数组,数组大小为4可以存储4个Node数据节点。若后续需要对数组进行扩容,则依据数组的已有大小成倍进行扩容。
第二步:创建一个Node数据节点,将其Key字段及Value字段赋予相应的值,Previous字段的指针及Next字段的指针指向空,如图6所示。
第三步:通过二分法查找数组,找到Node数据节点对应的Key值,如果找到,则覆盖,没有找到,则找到对应数组的插入位置。如下图7,先插入张三对应的Node数据节点,再如图9所示插入李四对应的Node数据节点。
1)由于数组里面没有数据,张三对应的索引位置为0,如图7所示。
2)如图8所示,插入李四,通过二分法查找,数组中没有对应的值,则找到插入的位置0,将双向链表的Node数据节点的Previous字段的指针及Next字段的指针赋值。
3)将李四对应的Node数据节点插入到0的位置,数组索引0后续的数据往后移动一个位置,如图9所示。
4)将上表1中的四条数据全部插入后的数组如图10所示。
上面的过程中:构建双向链表的步骤如图11所示:
步骤1:将新插入的Node数据节点的Pervious字段及Next字段的指针指向数组中的前Node数据节点及后Node数据节点。
步骤2:然后再将数组中的前Node数据节点及后Node数据节点指向新插入的Node数据节点。
如果上述步骤1及步骤2反了,则在读的过程中,双向链表会出现断裂的情况。
从数组读出数据包括以下步骤:
本实施例通过二分法的逻辑获取对应的值所在的位置,找到对应的数据。
结合图4,若要查询60分的同学信息,本实施例中的二分法包括以下步骤:
第一步:找到数组长度为4的中间所以位置:4/2=2,则找到Key字段为89分的Node数据节点。
第二步:比较89与60,因为60比89小,所以说明60在前半部分。
第三步:再找0-2的索引的中间位置,找到索引为1的位置,即找到Key字段为79分的Node数据节点。
第四步:比较79与60的大小,重复上述步骤,直到找到60,索引为0。
本发明在上述步骤中还采用了校正算法,因为在查找的过程中有可能数据会发生删除的操作。如数组本来为1、2、3、4、10、11、12、13,要找元素10,但在查的过程中发生了数据移动,变成了1、2、3、4、9、10、11、12、13。校正算法原理是根据最后一步比较值的大小,让指针前移或后移。
如:以上算法在读取的过程中如果Key字段为79分的Node数据节点被删除了,就找到它的前一个Node数据节点比较。如果前一个Node数据节点的Key字段的值比它小,那就找到Key字段为79分的Node数据节点的后一个Node数据节点比较。
实施例2
本实施例公开了一种支持日期类型的排序的读写存储方法。日期类型数据在各个领域应用中非常常见,应用也非常灵活,例如:获取某一日期的数据,获取某一日期的前一条数据,获取某日期区间内的数据。因为应用比较灵活,所以性能与存储都是非常重要,本实施例公开一种支持日期类型的高效排序的读写存储方法,其同样适用于图3所示的工作模式。
本实施例将日期类型数据节通过Ushort数据格式进行校存储,占用两个字节,可以支持100年的数据存储。本实施例中,日期类型数据存储在一个而且仅有一个数组内,索引的存储非常低。设数组的长度为N,N≥3,则数组中第n个元素与第n个索引位置相对应,n=0,1,…,N-1,即第n个索引位置指向数组中第n个元素。
读数据包括以下步骤:
第一步:初始化数组,将数组中所有的值指向空。在存储日期数据前,对数据的大概范围进行评估,初始化数据的大小。这样的好处避免频繁的扩容带来性能上损失。
上述步骤中,对数据的大概范围进行评估包括:
1)直接利用现有数据获得最小日期DMin及最大日期DMax。比如现有一张1亿条数据的数据表,可以找到这个数据表中的最大日期和最小日期分别作为最大日期DMax及最小日期DMin
2)根据数据表的使用规律来确定最大日期DMax及最小日期DMin。比如某张数据表只会存储某个日期后的数据或某个日期之前的数据,则可以进一步确定最大日期DMax及最小日期DMin
3)一般日期序列的数据,不是预测的数据,都是随着时间的推移产生的数据,可以将最大日期DMax设置为当前的日期往后推30天。最小日期DMin则参考上述第1)种方法进行确定。
确定最大日期DMax及最小日期DMin后,计算得到数组长度N,N=DMax-DMin,如图13所示。
例如需要对全国的天气进行历史十年和未来的数据进行存储:最小日期DMin设置为20100103,则最大日期DMax设置为20200103+30天=20200203。数组的长度N为最大日期DMax与最小日期DMin相减得到的天数:3650+30=3680。则本步骤种初始化为一个长度为3680的数组。与20100103对应的天气数据存储到数组的索引位置0指向的位置,与20200203对应的天气数据存储到数组的末位置,如图14所示。
第二步:写数据
如图15所示,在写数据的过程中,首先将日期类型数据转换成Ushort格式数据,随后根据初始化好的最小日期DMin、最大日期DMax,计算出当前日期类型数据对应日期所对应的索引位置,将该索引位置指向当前日期类型数据。本发明中,将日期类型数据定义为与日期相关的数据。
第三步:压缩数据
在第一步初始化的过程当中,评估的日期数据可能与实际情况不相符,这个情况通过压缩的方式减少存储空间的浪费。如上面的案例中,存储数据是按照每个城市的天气进行分类存储,这种情况每个城市都是一个有序的数组。当某个城市是一个新产生的城市,并没有历史数据,而这个时候初始化的数组是按照历史数据的大小初始化,数组里面全部是空,对于数据的存储是一个极大的浪费。这个时候需要压缩。
如图16所示,压缩算法包括以下步骤
1)找到这个数组中日期最小的一个不为空的索引。
2)对应这个索引位置的日期作为最小值,重新初始化一个数组,将原有的数据放入到新的数组中。这样数组的大小大大降低。
3)将原来的数组的数据设置为空。
第四步:增量数据的同步。
当写入新的数据,如果原有的数据位置不为空,则用新的数据的替换原有的数据。当为空,则将该索引位置指向现有的数据。
如果新的数据日期大于这个数组中最大索引位置对应的日期,这个时候说明数组需要扩容才能将这个数据放入到数组中。计算该日期对应的索引位置,将数组的大小扩容到该日期的索引位置+1。优化的算法是扩容到这个日期往后推一个月对应的索引位置+1。这样数组只需要一个月扩容一次。可以减少数组的频繁扩容带来的性能损失。这里的一个月不是固定值,可以在初始化设置这个参数。
读数据包括以下步骤:
一)精确读取
本实施例的读数据并没有采用二分法的查找方法,而是先计算该日期在数组的索引位置。
如图17案例中天气预报的数据。比如:上海的历史十年天气的数据,拿一个月的数据来作为案例。某个日期在数组中的索引算法为:当前日期减去数组中的最小日期的间隔天数-1。比如:数组中最小日期是20100103,存储在0位置。读取20100115的天气数据,计算索引位置:20200115-20100103的天数,即为12-1=11。直接读取数组中索引位置为11的数据即可。如果该位置的数据为Null,则表示不存在该数据;如果有则找到,返回对应的位置。读的性能保持在0(1)操作。
二)前推、后推读取
只需要在精确读取的基础上,通过该索引位置,索引+1、-1读取,找到不为空为止。例如:上海的天气预报有些天气的数据是空缺的,要求是当这个日期的天气预报数据没有,以前一天或者后一天的数据作为该日期的数据。
三)区间读取
只需要计算两个区间日期的索引位置,通过该索引位置,获取这个区间内的不为空的数据。

Claims (8)

1.一种多线程安全高效读写有序数据的方法,其特征在于,包括以下步骤:
容器利用N个Node数据节点来存储任意数据类型的数据,N≥3,每个Node数据节点包含Previous字段、Key字段、Value字段及Next字段,第n个Node数据节点的Previous字段用于存储指向第(n-1)个Node数据节点的指针,第n个Node数据节点的Key字段用于存储按照场景的需求需要排序的值,定义为Key值,第n个Node数据节点的Value字段用于存储Key字段的值对应的数据值,定义为Value值,第n个Node数据节点的Next字段用于存储指向第(n+1)个Node数据节点的指针,n=2,…,(N-1);所有Node数据节点按照Key字段的值在容器内排序;
利用读线程实现对容器内存储数据的读操作,同时利用与读线程不同的写线程实现对同一容器内存储数据的写操作,对容器的读操作与写操作同时进行,其中:对容器的写操作包括以下步骤:
步骤101:获得待存储的数据的Key值及与Key值相对应的Value值,创建一个Node数据节点;
新创建的Node数据节点的Previous字段及Next字段为空,将Key值存入新创建的当前Node数据节点的Key字段,将Value值存入新创建的当前Node数据节点的Value字段;
步骤102:将新创建的Node数据节点的Key字段的值与容器内已存在的所有Node数据节点的Key字段的值进行匹配,若匹配成功,则进入步骤103,若匹配失败,则进入步骤104;
步骤103:将匹配到的已存在的Node数据节点的Key字段的值以及Value字段的值用新创建的Node数据节点的Key字段的值以及Value字段的值覆盖,返回步骤101;
步骤104:设容器内已存储有K个Node数据节点,2≤K≤N,查找与新创建的Node数据节点的Key字段的值相匹配的Key值区间,Key值区间为由容器内已存储的相邻两个Node数据节点的Key字段的值组成的区间;
设Vk表示容器内已有的第k个Node数据节点的Key字段的值,k=2,…,K,新创建的Node数据节点的Key字段的值为V;
设容器内已有K个Node数据节点按照Key字段的值降序排列,则有:
若V∈(Vk,Vk-1),则V与Key值区间(Vk,Vk-1)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第(k-1)个Node数据节点,将新创建的Node数据节点的Next字段的指针指向容器内已有的第k个Node数据节点,再将容器内已有的第(k-1)个Node数据节点的Next字段的指针指向新创建的Node数据节点,将容器内已有的第k个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V>V1,则V与Key值区间(V1,+∞)相匹配,此时,先将新创建的Node数据节点的Next字段的指针指向容器内已有的第1个Node数据节点,再将容器内已有的第1个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V<VK,则V与Key值区间(-∞,VK)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第K个Node数据节点,再将容器内已有的第K个Node数据节点的Next字段的指针指向新创建的Node数据节点;
设容器内已有K个Node数据节点按照Key字段的值升序排列,则有:
若V∈(Vk-1,Vk),则V与Key值区间(Vk-1,Vk)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第(k-1)个Node数据节点,将新创建的Node数据节点的Next字段的指针指向容器内已有的第k个Node数据节点,再将容器内已有的第(k-1)个Node数据节点的Next字段的指针指向新创建的Node数据节点,将容器内已有的第k个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V<V1,则V与Key值区间(-∞,V1)相匹配,此时,先将新创建的Node数据节点的Next字段的指针指向容器内已有的第1个Node数据节点,再将容器内已有的第1个Node数据节点的Previous字段的指针指向新创建的Node数据节点;
若V>VK,则V与Key值区间(VK,+∞)相匹配,此时,先将新创建的Node数据节点的Previous字段的指针指向容器内已有的第K个Node数据节点,再将容器内已有的第K个Node数据节点的Next字段的指针指向新创建的Node数据节点;
对容器的读操作包括以下步骤:
获得待读取数据的Key值,通过二分法获得容器中Key字段的值与该Key值相匹配的Node数据节点,利用二分法进行匹配时,将待读取数据的Key值不断与位于搜索范围中间位置的Node数据节点的Key字段的值进行匹配,已经匹配结果再基于Node数据节点按照Key字段的值在容器内升序或降低排列的方式不断将搜索范围减半,最终得到相匹配的Node数据节点,在此过程中,若通过同步进行的写操作将待匹配的Node数据节点删除,则将待读取数据的Key值与删除的Node数据节点的上一个Node数据节点或下一个Node数据节点进行匹配,并依据匹配结论将搜索范围减半。
2.如权利要求1所述的一种多线程安全高效读写有序数据的方法,其特征在于,所述N个Node数据节点存放在数组中。
3.如权利要求2所述的一种多线程安全高效读写有序数据的方法,其特征在于,在所述步骤101之前还包括初始化数组,将数组的大小初始化为可以存储M个所述Node数据节点,1≤M≤N;
当对数组进行扩容时,按照数组的已有大小成倍扩容,数组的大小为可以存储所述Node数据节点的个数。
4.如权利要求1所述的一种多线程安全高效读写有序数据的方法,其特征在于,步骤102中,利用二分法进行新创建的Node数据节点的Key字段的值与容器内已存在的所有Node数据节点的Key字段的值的匹配。
5.一种多线程安全高效读写有序数据的方法,其特征在于,包括以下步骤:
利用一个且仅有一个数组来存储日期类型数据,日期类型数据通过Ushort数据格式存储,占用两个字节;设数组的长度为N,N≥3,则数组中第n个元素与第n个索引位置相对应,n=0,1,…,N-1,即第n个索引位置指向数组中第n个元素;
将日期类型数据定义为与日期相关的数据,利用读线程实现对数组的读操作,同时利用与读线程不同的写线程实现对同一数组的写操作,对数组的读操作与写操作同时进行,其中:对数组的写操作包括以下步骤:
步骤111:依据所有待存入的日期类型数据对应的日期确定最小日期DMin及最大日期DMax,则有N=DMax-DMin,初始化一个长度为N的数组,数组中所有元素指向空;
步骤112:对所有待存入的日期类型数据进行写操作,其中,对当前一个待存入的日期类型数据进行写操作时,先将当前日期类型数据转换为Ushort数据格式,再依据当前日期类型数据所对应的具体日期,利用步骤111确定的最小日期DMin及最大日期DMax,计算得到当前日期类型数据所对应的索引位置,将该索引位置指向转换为Ushort数据格式的当前日期类型数据;
当写入一个新的日期类型数据时,若相应索引位置指向的数据不为空,则用新的日期类型数据替换该相应索引指向的旧日期类型数据,若相应索引位置指向的数据为空,则将该索引位置直接指向新的日期类型数据;
当写入一个新的日期类型数据时,若新的日期类型数据所对应的日期大于最大日期DMax,则对数组进行扩容后,再将扩容后的数组的相应索引位置指向新的日期类型数据;
对数组的读操作包括以下步骤:
若需要读取某个具体日期的日期类型数据,则包括以下步骤:
步骤211:计算与具体日期相对应的索引位置,该索引位置=具体日期-数组中已存储的最小日期-1;
步骤212:直接读取数组中通过步骤211计算得到的索引位置所指向的日期类型数据,或者读取数组中通过步骤211计算得到的索引位置往后一个索引位置或往前一个索引位置所指向的日期类型数据,直至获得日期类型数据;
若需要读取某个日期区间的数据,则包括以下步骤:
步骤221:采用上述步骤211所记载的方法获得日期区间中下限日期对应的索引位置,定义为下限索引位置;
采用上述步骤211所记载的方法获得日期区间中上限日期对应的索引位置,定义为上限索引位置;
步骤222:获得数组中位于下限索引位置与上限索引位置之间的所有索引位置指向的日期类型数据。
6.如权利要求5所述的一种多线程安全高效读写有序数据的方法,其特征在于,步骤111中,依据所有待存入的日期类型数据所对应的最大日期及最小日期确定所述最小日期DMin及所述最大日期DMax
或者依据所有待存入的日期类型数据所对应日期的规律确定所述最小日期DMin及所述最大日期DMax
或者所述最小日期DMin设定为所有待存入的日期类型数据所对应的日期中最小日期,所述最大日期DMax设定为当前日期加固定天数,其中,固定天数的具体值根据经验确定。
7.如权利要求5所述的一种多线程安全高效读写有序数据的方法,其特征在于,在所述步骤112之后还包括:
步骤113:完成对所有待存入的日期类型数据的写操作后,再获得数组中指向日期类型数据所对应日期最小的索引位置,将该索引位置指向的日期作为所述最小日期DMin后重新计算得到N,依据更新后的N重新初始化一个数组,将原数组中的数据放入到新的数组中,并将原数组的数据设置为空。
8.如权利要求5所述的一种多线程安全高效读写有序数据的方法,其特征在于,步骤112中,对数组进行扩容包括以下步骤:
计算新的日期类型数据所对应的索引位置,将数组大小扩容至计算得到的索引位置+1;
或者计算新的日期类型数据所对应的索引位置,将数组大小扩容至计算得到的索引位置+一个月的天数+1。
CN202110086974.6A 2021-01-22 2021-01-22 一种多线程安全高效读写有序数据的方法 Active CN112817530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110086974.6A CN112817530B (zh) 2021-01-22 2021-01-22 一种多线程安全高效读写有序数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110086974.6A CN112817530B (zh) 2021-01-22 2021-01-22 一种多线程安全高效读写有序数据的方法

Publications (2)

Publication Number Publication Date
CN112817530A CN112817530A (zh) 2021-05-18
CN112817530B true CN112817530B (zh) 2024-06-07

Family

ID=75858778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110086974.6A Active CN112817530B (zh) 2021-01-22 2021-01-22 一种多线程安全高效读写有序数据的方法

Country Status (1)

Country Link
CN (1) CN112817530B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115712628A (zh) * 2023-01-09 2023-02-24 江苏中天科技股份有限公司 基于集中控制器的数据存储、数据发送方法、装置及设备
CN115793989B (zh) * 2023-02-06 2023-06-20 江苏华存电子科技有限公司 一种基于NAND的NVMe KV SSD数据管理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355422A (zh) * 2011-10-17 2012-02-15 苏州迈科网络安全技术股份有限公司 多核并行无锁的qos流量控制方法
CN102880704A (zh) * 2012-09-25 2013-01-16 上海证券交易所 一种新型的并发内存数据组织与访问方法
CN105447035A (zh) * 2014-08-29 2016-03-30 华为技术有限公司 数据扫描方法及装置
CN106648461A (zh) * 2016-11-15 2017-05-10 努比亚技术有限公司 一种内存管理装置和方法
WO2018161881A1 (zh) * 2017-03-09 2018-09-13 腾讯科技(深圳)有限公司 结构化数据的处理方法、存储介质和计算机设备
CN108614668A (zh) * 2016-12-12 2018-10-02 北京忆恒创源科技有限公司 基于kv模型的数据访问方法与固态存储设备
CN109189356A (zh) * 2018-08-28 2019-01-11 万得信息技术股份有限公司 一种多终端转屏系统和方法
KR20200032463A (ko) * 2018-09-18 2020-03-26 에스케이하이닉스 주식회사 메모리 시스템 혹은 데이터 처리 시스템의 동작을 진단하는 장치 혹은 진단을 통해 신뢰성을 확보하는 방법
CN111399777A (zh) * 2020-03-16 2020-07-10 北京平凯星辰科技发展有限公司 一种基于数据值分类的差异化键值数据存储方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355422A (zh) * 2011-10-17 2012-02-15 苏州迈科网络安全技术股份有限公司 多核并行无锁的qos流量控制方法
CN102880704A (zh) * 2012-09-25 2013-01-16 上海证券交易所 一种新型的并发内存数据组织与访问方法
CN105447035A (zh) * 2014-08-29 2016-03-30 华为技术有限公司 数据扫描方法及装置
CN106648461A (zh) * 2016-11-15 2017-05-10 努比亚技术有限公司 一种内存管理装置和方法
CN108614668A (zh) * 2016-12-12 2018-10-02 北京忆恒创源科技有限公司 基于kv模型的数据访问方法与固态存储设备
WO2018161881A1 (zh) * 2017-03-09 2018-09-13 腾讯科技(深圳)有限公司 结构化数据的处理方法、存储介质和计算机设备
CN109189356A (zh) * 2018-08-28 2019-01-11 万得信息技术股份有限公司 一种多终端转屏系统和方法
KR20200032463A (ko) * 2018-09-18 2020-03-26 에스케이하이닉스 주식회사 메모리 시스템 혹은 데이터 처리 시스템의 동작을 진단하는 장치 혹은 진단을 통해 신뢰성을 확보하는 방법
CN111399777A (zh) * 2020-03-16 2020-07-10 北京平凯星辰科技发展有限公司 一种基于数据值分类的差异化键值数据存储方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于顺序表查找的学生成绩查询功能的实现;笪林梅;;电脑学习(第02期);全文 *
王博千 ; 于齐 ; 刘辛 ; 沈立 ; 王志英 ; 陈微 ; .面向Cassandra数据库的高效动态数据管理机制.计算机科学.2016,(第07期),全文. *
笪林梅 ; .基于顺序表查找的学生成绩查询功能的实现.电脑学习.2011,(第02期),全文. *
面向Cassandra数据库的高效动态数据管理机制;王博千;于齐;刘辛;沈立;王志英;陈微;;计算机科学(第07期);全文 *

Also Published As

Publication number Publication date
CN112817530A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN110413611B (zh) 数据存储、查询方法及装置
CN112817530B (zh) 一种多线程安全高效读写有序数据的方法
US5930805A (en) Storage and retrieval of ordered sets of keys in a compact 0-complete tree
EP2724269B1 (en) System, method and data structure for fast loading, storing and access to huge data sets in real time
EP2069979B1 (en) Dynamic fragment mapping
US20100106713A1 (en) Method for performing efficient similarity search
CN111126625B (zh) 一种可扩展的学习索引方法及系统
CN106528647B (zh) 一种基于cedar双数组字典树算法进行术语匹配的方法
US7653643B2 (en) Method and apparatus for compressing a data set
CN108509505A (zh) 一种基于分区双数组Trie的字符串检索方法及装置
KR20020029843A (ko) 주기억장치 데이터베이스의 인덱스 데이터 관리방법
CN106648991A (zh) 数据容灾系统中的重复数据删除方法
CN115563409A (zh) 一种地址行政区划识别方法、装置、设备及介质
CN111339381A (zh) 一种字典序分区双数组的字符串批量查询方法及装置
CN110457531B (zh) 一种基于OpenMP的并行字符串查询方法
US8976048B2 (en) Efficient processing of Huffman encoded data
US8204887B2 (en) System and method for subsequence matching
CN115982310B (zh) 一种自带验证功能的链表生成方法及电子设备
CN113886391B (zh) 基于离散型的双指纹存储布谷鸟过滤器的数据处理方法
CN111581206B (zh) B+树操作装置及其方法
CN114489794A (zh) 用于topk操作的方法和系统
KR100472949B1 (ko) 시계열 데이터베이스에서 서브시퀀스 매칭의 인덱스검색방법
CN112632337A (zh) 一种应用于烟花过滤器的元素管理方法及烟花过滤器
CN113676189B (zh) 一种ldpc译码器的最小值计算装置及方法
CN111949439B (zh) 基于数据库的数据文件更新方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant