CN116881014B - 一种多线程数据采集的处理方法 - Google Patents

一种多线程数据采集的处理方法 Download PDF

Info

Publication number
CN116881014B
CN116881014B CN202311130961.XA CN202311130961A CN116881014B CN 116881014 B CN116881014 B CN 116881014B CN 202311130961 A CN202311130961 A CN 202311130961A CN 116881014 B CN116881014 B CN 116881014B
Authority
CN
China
Prior art keywords
preset
classification
elements
sigma
field name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311130961.XA
Other languages
English (en)
Other versions
CN116881014A (zh
Inventor
刘立宇
李强
初乃强
安西平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Singularity Of Life Beijing Technology Co ltd
Singularity Digital Beijing Technology Co ltd
Original Assignee
Singularity Of Life Beijing Technology Co ltd
Singularity Digital Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Singularity Of Life Beijing Technology Co ltd, Singularity Digital Beijing Technology Co ltd filed Critical Singularity Of Life Beijing Technology Co ltd
Priority to CN202311130961.XA priority Critical patent/CN116881014B/zh
Publication of CN116881014A publication Critical patent/CN116881014A/zh
Application granted granted Critical
Publication of CN116881014B publication Critical patent/CN116881014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5033Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及电数字数据处理技术领域,特别是涉及一种多线程数据采集的处理方法。该方法包括:如果目标列表an包括的记录数量不大于q0,且M>q1,则遍历bn,如果bn,m为属于预设字段名类型的字段名,则将bn,m追加至C1;设置z=1;对an中fz对应的元素进行归类,得到Hz;获取进行第z次归类的时间;获取第一归类时间T;如果T≤T0且σ’z>σ’0,则z=z+1,重复执行上述步骤,直至满足预设的循环截止条件;如果满足σ’z≤σ’0,则按照fz对应元素的类别对an包括的记录进行多线程采集;如果满足T>T0,则根据z次归类得到的归类序列对an包括的记录进行多线程采集。本发明提高了数据采集的效率。

Description

一种多线程数据采集的处理方法
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及一种多线程数据采集的处理方法。
背景技术
为了减少数据采集的时间,进而提高数据采集的效率,可以使用多线程数据采集的方式,例如,根据数据对应的时间信息将数据进行划分,由每一线程采集一个时间段对应的数据,但是,有些应用场景下数据并不是按照时间稳步递增的,导致有的线程对应的数据采集量远远超过其他线程对应的数据采集量,使得数据采集的整体时间仍然较长,数据采集的效率仍较低。
发明内容
本发明目的在于,提供一种多线程数据采集的处理方法,以有效减少数据采集的时间,提高数据采集的效率。
根据本发明,提供了一种多线程数据采集的处理方法,包括以下步骤:
S100,获取目标列表an包括的记录数量Q,如果Q≤q0,则执行S200;q0为预设的记录数量阈值。
S200,获取an的字段名bn,bn=(bn,1,bn,2,…,bn,m,…,bn,M),bn,m为an包括的第m个字段名,m的取值范围为1到M,M为an包括的字段名的数量。
S300,如果M>q1,则遍历bn,如果bn,m为属于预设字段名类型的字段名,则将bn,m追加至预设的第一字段名集合C1;C1的初始化为空集;q1为预设的第一字段名数量阈值。
S400,设置第一变量z=1。
S500,对an中fz对应的元素进行归类,得到fz对应的归类序列Hz,Hz=(hz,1,hz,2,…,hz,r,…,hz,R),hz,r为an中fz对应的元素中类别为第r个类别的元素的集合,r的取值范围为1到R,R为对an中fz对应的元素进行归类得到的类别的数量;fz为随机从C1中选择的第z个字段名;an中fz对应的元素为an中位于fz所在列且不包括fz在内的元素。
S600,获取进行第z次归类的时间tz
S700,获取第一归类时间T,T=(z+1)×(∑z y=1ty)/z,ty为进行第y次归类的时间。
S800,如果T≤T0且σ’z>σ’0,则z=z+1,重复执行S500-S700,直至满足预设的循环截止条件,所述预设的截止条件为:T>T0或σ’z≤σ’0;σ’z=((∑R r=1(pz,r-pz)2)/R)0.5,pz,r为hz,r包括的元素数量,pz为an中fz对应元素中每个类别的元素数量的均值,σ’0为预设的标准差阈值。
S900,如果循环截止时满足的是σ’z≤σ’0,则按照fz对应元素的类别对an包括的记录进行多线程采集;如果循环截止时满足的是T>T0,则根据z次归类得到的归类序列对an包括的记录进行多线程采集。
本发明与现有技术相比至少具有以下有益效果:
对于待传输的an,本发明获取了an包括的记录数量,如果an包括的记录数量较小,则对an包括的字段名的数量进行判断;如果an包括的字段名的数量较大,则选择an包括的字段名中属于预设字段名类型的字段名;先从属于预设字段名类型的字段名中随机选择1个字段名,对该字段名对应的元素进行归类,并获取进行该次归类的时间,通过该时间获取进行2次归类的时间,如果该时间小于等于预设的截止时间且该次归类对应的标准差大于预设的标准差阈值,则进行第2次归类,以此类推,直至满足预设的循环截止条件;本发明的预设的循环截止条件为T>T0或σ’z≤σ’0,如果循环截止是由于满足了T>T0的条件,说明归类时间已经相对较长,则根据之前z次归类得到的归类序列对an包括的记录进行多线程采集,不再继续归类,以避免出现由于归类时间较长导致的数据采集时间整体较长的情况;如果循环截止是由于满足了σ’z≤σ’0的条件,说明第z次归类对应的元素的类别包括的元素数量相对均衡,可直接根据第z次归类对应的元素的类别对an包括的记录进行多线程采集,一个线程采集一个类别对应的数据,能够避免由于不同线程对应的数据采集量差别较大导致的数据采集整体时间仍较长的情况。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多线程数据采集的处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明,如图1所示,提供了一种多线程数据采集的处理方法,包括以下步骤:
S100,获取目标列表an包括的记录数量Q,如果Q≤q0,则执行S200;q0为预设的记录数量阈值。
本实施例中目标列表an为拟采集的列表。
本实施例中q0为经验值,可选的,q0的数量级为百万级或千万级。
S200,获取an的字段名bn,bn=(bn,1,bn,2,…,bn,m,…,bn,M),bn,m为an包括的第m个字段名,m的取值范围为1到M,M为an包括的字段名的数量。
S300,如果M>q1,则遍历bn,如果bn,m为属于预设字段名类型的字段名,则将bn,m追加至预设的第一字段名集合C1;C1的初始化为空集;q1为预设的第一字段名数量阈值。
具体的,C1=(c1,1,c1,2,…,c1,k,…,c1,v),c1,k为第k个被追加至C1的字段名,k的取值为1到v,v为被追加至C1的字段名的数量。
本实施例中q1为经验值。
具体的,S300包括:
S310,对bn,m进行分词处理,得到bn,m对应的分词集合FCn,m,FCn,m={fc1 n,m,fc2 n,m,…,fczj n,m,…,fccl n,m},fczj n,m为对bn,m进行分词处理得到的第zj个词,zj的取值范围为1到cl,cl为对bn,m进行分词处理得到的词的数量。
本领域技术人员知悉,现有技术中任何的分词处理方法均落入本发明的保护范围。
S320,获取预设的词汇集合CB,CB={cb1,cb2,…,cbqb,…,cbQB},cbqb为CB包括的第qb个预设的词汇,qb的取值范围为1到QB,QB为CB包括的预设的词汇的数量,每一cbqb为用户输入的词汇或用于表征时间的词汇或用于表征类别的词汇。
本实施例中CB包括用户输入的词汇、用于表征时间的词汇和用于表征类别的词汇,其中,用户输入的词汇为用户根据实际应用场景预先确定的词汇;用于表征时间的词汇包括日期和时间等;用于表征类别的词汇包括种类、分组、类别和类型等。
S330,遍历FCn,m和CB,获取fczj n,m与cbqb的语义相似度xsdzj qb
本领域技术人员知悉,现有技术中任何的获取两词汇之间的语义相似度的方法均落入本发明的保护范围。
S340,如果xsdzj qb大于等于预设的相似度阈值,则判定bn,m为属于预设字段名类型的字段名;否则,判定bn,m为不属于预设字段名类型的字段名。
本实施例中,只要某一fczj n,m与CB中某一cbqb的语义相似度大于等于预设的相似度阈值,则判定bn,m为属于预设字段名类型的字段名;只有当任一fczj n,m与CB中任一cbqb的语义相似度均小于预设的相似度阈值时,才判定bn,m为不属于预设字段名类型的字段名。本实施例中预设的相似度阈值为经验值,可选的,预设的相似度阈值的取值范围为[0.8,0.9]。
S400,设置第一变量z=1。
S500,对an中fz对应的元素进行归类,得到fz对应的归类序列Hz,Hz=(hz,1,hz,2,…,hz,r,…,hz,R),hz,r为an中fz对应的元素中类别为第r个类别的元素的集合,r的取值范围为1到R,R为对an中fz对应的元素进行归类得到的类别的数量;fz为随机从C1中选择的第z个字段名;an中fz对应的元素为an中位于fz所在列且不包括fz在内的元素。
本实施例中an中fz对应的元素指的是an中位于fz所在列的元素(不包括fz在内)。
本领域技术人员知悉,现有技术中任何的对元素进行归类的方法均落入本发明的保护范围。作为现有技术的一种,使用group by子句对元素进行归类。
S600,获取进行第z次归类的时间tz
S700,获取第一归类时间T,T=(z+1)×(∑z y=1ty)/z,ty为进行第y次归类的时间。
S800,如果T≤T0且σ’z>σ’0,则z=z+1,重复执行S500-S700,直至满足预设的循环截止条件,所述预设的截止条件为:T>T0或σ’z≤σ’0;σ’z为fz对应的标准差,σ’z=((∑R r=1(pz,r-pz)2)/R)0.5,pz,r为hz,r包括的元素数量,pz为an中fz对应元素中每个类别的元素数量的均值,σ’0为预设的标准差阈值;T0为预设的截止时间。
具体的,pz=(∑R r=1pz,r)/R。
S900,如果循环截止时满足的是σ’z≤σ’0,则按照fz对应元素的类别对an包括的记录进行多线程采集;如果循环截止时满足的是T>T0,则根据z次归类得到的归类序列对an包括的记录进行多线程采集。
具体的,所述按照fz对应元素的类别对an包括的记录进行多线程采集包括:使用su个线程对an包括的记录进行采集,每个线程用于采集fz对应元素的一个类别对应的记录,su为fz对应元素的类别数量。
具体的,所述根据z次归类得到的归类序列对an包括的记录进行多线程采集包括以下步骤:
S910,获取z次归类得到的归类序列H,H=(H1,H2,…,Hy,…,Hz),Hy为进行第y次归类得到的归类序列;Hy=(hy,1,hy,2,…,hy,δ,…,hy,ε(y)),hy,δ为an中fy对应的元素中类别为第δ个类别的元素的集合,δ的取值范围为1到ε(y),ε(y)为对an中fy对应的元素进行归类得到的类别的数量;fy为随机从C1中选择的第y个字段名;an中fy对应的元素为an中位于fy所在列且不包括fy在内的元素。
S920,遍历H,根据每一hy,δ包括的元素数量对Hy进行重新排列,得到对Hy进行重新排列的序列H’y;H’y=(h’y,1,h’y,2,…,h’y,δ,…,h’y,ε(y)),h’y,δ为H’y中包括的元素数量为第δ大的集合。
本实施例中,h’y,1为H’y中包括的元素数量为最大的集合,h’y,2为H’y中包括的元素数量为次大的集合,h’y,ε(y)为H’y中包括的元素数量为最小的集合。
S930,如果ε(y)为偶数,则获取第y次归类对应的第一组合序列L1 y的标准差σ1(y);如果ε(y)为奇数,则获取第y次归类对应的第二组合序列L0 y的标准差σ2(y);L1 y=(l 1,y,l 2,y,…,l ζ,y,…,l ε(y)/2,y),l ζ,y为h’y,ζ包括的元素数量与h’y,ε(y)-ζ+1包括的元素数量之和,ζ的取值范围为1到ε(y)/2;L0 y=(l1,y,l2,y,…,lψ,y,…,lε(y)/2+1,y),lψ,y为h’y,ψ包括的元素数量与h’y,ε(y)-ψ+2包括的元素数量之和,ψ的取值范围为2到(ε(y)+1)/2;l1,y为h’y,1包括的元素数量。
S940,获取z次归类对应的标准差序列seq1,seq1=(σ(1),σ(2),…,σ(y),…,σ(z));σ(y)为第y次归类对应的标准差,当ε(y)为偶数时,σ(y)=σ1(y);当ε(y)为奇数时,σ(y)=σ2(y)。
S950,按照min(seq1)对应的H’y对an包括的记录进行多线程采集,其中,当min(seq1)对应的H’y包括的集合的数量φ为偶数时,使用φ/2个线程对an包括的记录进行采集,第η个线程用于对min(seq1)对应的H’y中h’y,η和h’y,φ-η+1对应的记录进行采集,η的取值范围为1到φ/2;当min(seq1)对应的H’y包括的集合的数量φ为奇数时,使用(φ+1)/2个线程对an包括的记录进行采集,第1个线程用于对min(seq2)对应的H’y中h’y,1对应的记录进行采集,第f个线程用于对min(seq2)对应的H’y中h’y,f和h’y,θ-f+2对应的记录进行采集,f的取值范围为2到(φ+1)/2;min( )为取最小值。
本实施例在循环截止时满足的是T>T0的情况下,根据z次归类得到的归类序列对an包括的记录进行多线程采集,具体的,对于z次归类得到的每一归类序列,本实施例按照归类序列中各类别包括的元素的数量由大到小的顺序将归类序列进行重新排列,使得重新排列的归类序列中包括的元素的数量越大的类别的位置越靠前;如果归类序列包括的元素数量为偶数,本实施例将归类序列包括的类别进行两两组合,且将包括的元素的数量越大的类别与包括的元素的数量越小的类别进行组合,由此,组合后得到的分组数量为原来类别数量的一半,且各分组包括的元素的数量能够相对均衡;如果归类序列包括的元素数量为奇数,本实施例将归类序列包括的类别中除包括的元素的数量最大的类别以外的其他类别进行两两组合,且将包括的元素的数量越大的类别与包括的元素的数量越小的类别进行组合,由此,组合后得到的分组数量为原来类别数量的一半加1,且各分组包括的元素的数量能够相对均衡。
在此基础上,本实施例将对应的分组后的元素的数量最为均衡的归类对应的分组结果作为进行多线程采集的依据,能够进一步保证各线程采集的数据量之间的均衡性,避免出现由于各线程采集的数据量之间差异较大导致的线程浪费和数据采集整体时间较长的问题。
对于待传输的an,本实施例获取了an包括的记录数量,如果an包括的记录数量较小,则对an包括的字段名的数量进行判断;如果an包括的字段名的数量较大,则选择an包括的字段名中属于预设字段名类型的字段名;先从属于预设字段名类型的字段名中随机选择1个字段名,对该字段名对应的元素进行归类,并获取进行该次归类的时间,通过该时间获取进行2次归类的时间,如果该时间小于等于预设的截止时间且该次归类对应的标准差大于预设的标准差阈值,则进行第2次归类,以此类推,直至满足预设的循环截止条件;本发明的预设的循环截止条件为T>T0或σ’z≤σ’0,如果循环截止是由于满足了T>T0的条件,说明归类时间已经相对较长,则根据之前z次归类得到的归类序列对an包括的记录进行多线程采集,不再继续归类,以避免出现由于归类时间较长导致的数据采集时间整体较长的情况;如果循环截止是由于满足了σ’z≤σ’0的条件,说明第z次归类对应的元素的类别包括的元素数量相对均衡,可直接根据第z次归类对应的元素的类别对an包括的记录进行多线程采集,一个线程采集一个类别对应的数据,能够避免由于不同线程对应的数据采集量差别较大导致的数据采集整体时间仍较长的情况。
如果Q>q0,则对an进行随机采样,并根据随机采样的结果对an包括的记录进行多线程采集。
应当理解的是,对an进行随机采样,得到的采样后的列表与an相比,两者包括的字段名相同,采样后的列表包括的记录数量小于an包括的记录数量;在此基础上,本实施例将采样后的列表作为新的目标列表,再执行类似于S200-S900的方法,得到最小标准差对应的元素的类别,并按照该类别对an包括的记录进行多线程采集。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (7)

1.一种多线程数据采集的处理方法,其特征在于,所述处理方法包括以下步骤:
S100,获取目标列表an包括的记录数量Q,如果Q≤q0,则执行S200;q0为预设的记录数量阈值;
S200,获取an的字段名bn,bn=(bn,1,bn,2,…,bn,m,…,bn,M),bn,m为an包括的第m个字段名,m的取值范围为1到M,M为an包括的字段名的数量;
S300,如果M>q1,则遍历bn,如果bn,m为属于预设字段名类型的字段名,则将bn,m追加至预设的第一字段名集合C1;C1的初始化为空集;q1为预设的第一字段名数量阈值;
S400,设置第一变量z=1;
S500,对an中fz对应的元素进行归类,得到fz对应的归类序列Hz,Hz=(hz,1,hz,2,…,hz,r,…,hz,R),hz,r为an中fz对应的元素中类别为第r个类别的元素的集合,r的取值范围为1到R,R为对an中fz对应的元素进行归类得到的类别的数量;fz为随机从C1中选择的第z个字段名;an中fz对应的元素为an中位于fz所在列且不包括fz在内的元素;
S600,获取进行第z次归类的时间tz
S700,获取第一归类时间T,T=(z+1)×(∑z y=1ty)/z,ty为进行第y次归类的时间;
S800,如果T≤T0且σ’z>σ’0,则z=z+1,重复执行S500-S700,直至满足预设的循环截止条件,所述预设的截止条件为:T>T0或σ’z≤σ’0;σ’z为fz对应的标准差,σ’z=((∑R r=1(pz,r-pz)2)/R)0.5,pz,r为hz,r包括的元素数量,pz为an中fz对应元素中每个类别的元素数量的均值,σ’0为预设的标准差阈值;T0为预设的截止时间;
S900,如果循环截止时满足的是σ’z≤σ’0,则按照fz对应元素的类别对an包括的记录进行多线程采集;如果循环截止时满足的是T>T0,则根据z次归类得到的归类序列对an包括的记录进行多线程采集。
2.根据权利要求1所述的多线程数据采集的处理方法,其特征在于,S900中,所述根据z次归类得到的归类序列对an包括的记录进行多线程采集包括以下步骤:
S910,获取z次归类得到的归类序列H,H=(H1,H2,…,Hy,…,Hz),Hy为进行第y次归类得到的归类序列;Hy=(hy,1,hy,2,…,hy,δ,…,hy,ε(y)),hy,δ为an中fy对应的元素中类别为第δ个类别的元素的集合,δ的取值范围为1到ε(y),ε(y)为对an中fy对应的元素进行归类得到的类别的数量;fy为随机从C1中选择的第y个字段名;an中fy对应的元素为an中位于fy所在列且不包括fy在内的元素;
S920,遍历H,根据每一hy,δ包括的元素数量对Hy进行重新排列,得到对Hy进行重新排列的序列H’y;H’y=(h’y,1,h’y,2,…,h’y,δ,…,h’y,ε(y)),h’y,δ为H’y中包括的元素数量为第δ大的集合;
S930,如果ε(y)为偶数,则获取第y次归类对应的第一组合序列L1 y的标准差σ1(y);如果ε(y)为奇数,则获取第y次归类对应的第二组合序列L0 y的标准差σ2(y);L1 y=(l 1,y,l 2,y,…,l ζ,y,…,l ε(y)/2,y),l ζ,y为h’y,ζ包括的元素数量与h’y,ε(y)-ζ+1包括的元素数量之和,ζ的取值范围为1到ε(y)/2;L0 y=(l1,y,l2,y,…,lψ,y,…,lε(y)/2+1,y),lψ,y为h’y,ψ包括的元素数量与h’y,ε(y)-ψ+2包括的元素数量之和,ψ的取值范围为2到(ε(y)+1)/2;l1,y为h’y,1包括的元素数量;
S940,获取z次归类对应的标准差序列seq1,seq1=(σ(1),σ(2),…,σ(y),…,σ(z));σ(y)为第y次归类对应的标准差,当ε(y)为偶数时,σ(y)=σ1(y);当ε(y)为奇数时,σ(y)=σ2(y);
S950,按照min(seq1)对应的H’y对an包括的记录进行多线程采集,其中,当min(seq1)对应的H’y包括的集合的数量φ为偶数时,使用φ/2个线程对an包括的记录进行采集,第η个线程用于对min(seq1)对应的H’y中h’y,η和h’y,φ-η+1对应的记录进行采集,η的取值范围为1到φ/2;当min(seq1)对应的H’y包括的集合的数量φ为奇数时,使用(φ+1)/2个线程对an包括的记录进行采集,第1个线程用于对min(seq2)对应的H’y中h’y,1对应的记录进行采集,第f个线程用于对min(seq2)对应的H’y中h’y,f和h’y,θ-f+2对应的记录进行采集,f的取值范围为2到(φ+1)/2;min( )为取最小值。
3.根据权利要求1所述的多线程数据采集的处理方法,其特征在于,S300包括:
S310,对bn,m进行分词处理,得到bn,m对应的分词集合FCn,m,FCn,m={fc1 n,m,fc2 n,m,…,fczj n,m,…,fccl n,m},fczj n,m为对bn,m进行分词处理得到的第zj个词,zj的取值范围为1到cl,cl为对bn,m进行分词处理得到的词的数量;
S320,获取预设的词汇集合CB,CB={cb1,cb2,…,cbqb,…,cbQB},cbqb为CB包括的第qb个预设的词汇,qb的取值范围为1到QB,QB为CB包括的预设的词汇的数量,每一cbqb为用户输入的词汇或用于表征时间的词汇或用于表征类别的词汇;
S330,遍历FCn,m和CB,获取fczj n,m与cbqb的语义相似度xsdzj qb
S340,如果xsdzj qb大于等于预设的相似度阈值,则判定bn,m为属于预设字段名类型的字段名;否则,判定bn,m为不属于预设字段名类型的字段名。
4.根据权利要求3所述的多线程数据采集的处理方法,其特征在于,所述预设的相似度阈值的取值范围为[0.8,0.9]。
5.根据权利要求1所述的多线程数据采集的处理方法,其特征在于,所述按照fz对应元素的类别对an包括的记录进行多线程采集包括:使用su个线程对an包括的记录进行采集,每个线程用于采集fz对应元素的一个类别对应的记录,su为fz对应元素的类别数量。
6.根据权利要求1所述的多线程数据采集的处理方法,其特征在于,pz=(∑R r=1pz,r)/R。
7.根据权利要求1所述的多线程数据采集的处理方法,其特征在于,如果Q>q0,则对an进行随机采样,并根据随机采样的结果对an包括的记录进行多线程采集。
CN202311130961.XA 2023-09-04 2023-09-04 一种多线程数据采集的处理方法 Active CN116881014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311130961.XA CN116881014B (zh) 2023-09-04 2023-09-04 一种多线程数据采集的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311130961.XA CN116881014B (zh) 2023-09-04 2023-09-04 一种多线程数据采集的处理方法

Publications (2)

Publication Number Publication Date
CN116881014A CN116881014A (zh) 2023-10-13
CN116881014B true CN116881014B (zh) 2023-11-10

Family

ID=88262443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311130961.XA Active CN116881014B (zh) 2023-09-04 2023-09-04 一种多线程数据采集的处理方法

Country Status (1)

Country Link
CN (1) CN116881014B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921285A (zh) * 2018-06-22 2018-11-30 西安理工大学 基于双向门控循环神经网络的序列中单一元素分类方法
CN111177148A (zh) * 2019-12-06 2020-05-19 南京南瑞水利水电科技有限公司 一种水电数据库自动建表分表的方法
CN114328962A (zh) * 2021-12-29 2022-04-12 北京信息科技大学 一种基于知识图谱的web日志异常行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11921672B2 (en) * 2017-07-31 2024-03-05 Splunk Inc. Query execution at a remote heterogeneous data store of a data fabric service

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921285A (zh) * 2018-06-22 2018-11-30 西安理工大学 基于双向门控循环神经网络的序列中单一元素分类方法
CN111177148A (zh) * 2019-12-06 2020-05-19 南京南瑞水利水电科技有限公司 一种水电数据库自动建表分表的方法
CN114328962A (zh) * 2021-12-29 2022-04-12 北京信息科技大学 一种基于知识图谱的web日志异常行为识别方法

Also Published As

Publication number Publication date
CN116881014A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN102135979B (zh) 数据清洗方法及装置
CN107633380A (zh) 一种数据防泄漏系统的任务审批方法和系统
WO2020140620A1 (zh) 基于智能决策的文本分类方法、装置、服务器及存储介质
CN104598632B (zh) 热点事件检测方法和装置
CN116881014B (zh) 一种多线程数据采集的处理方法
US20130066872A1 (en) Method and Apparatus for Organizing Images
CN105843889A (zh) 基于可信度面向大数据及普通数据的数据采集方法和系统
JP2010218353A (ja) クラスタリング装置およびクラスタリング方法
CN113704577A (zh) 基于多线程并发处理的数据查询方法及装置
CN113010884B (zh) 一种入侵检测系统中的实时特征过滤方法
JP3651550B2 (ja) 属性圧縮装置および方法
CN110781211B (zh) 一种数据的解析方法及装置
CN111611450A (zh) 跨媒介数据融合方法、装置及存储介质
CN115510032A (zh) 一种基于机器学习的数据库行为分析方法及系统
CN116860462B (zh) 一种基于数仓切片的多线程数据采集方法
CN115510331A (zh) 一种基于闲置量聚合的共享资源匹配方法
CN113613079A (zh) 一种智能设备视频广告处理方法以及智能设备
CN116841756B (zh) 一种目标增量型数据的采集方法
CN112131384A (zh) 新闻分类方法、计算机可读存储介质
JPWO2016013175A1 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
CN110674838A (zh) 基于组合特征筛选的模型构建方法、装置、计算机设备
CN116796214B (zh) 一种基于差分特征的数据聚类方法
CN109977269B (zh) 一种针对xml文件的数据自适应融合方法
JP5290401B2 (ja) 被写体識別方法、被写体識別プログラムおよび被写体識別装置
CN113128535B (zh) 一种聚类模型的选取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant