CN116881014B

CN116881014B - 一种多线程数据采集的处理方法

Info

Publication number: CN116881014B
Application number: CN202311130961.XA
Authority: CN
Inventors: 刘立宇; 李强; 初乃强; 安西平
Original assignee: Singularity Of Life Beijing Technology Co ltd; Singularity Digital Beijing Technology Co ltd
Current assignee: Singularity Of Life Beijing Technology Co ltd; Singularity Digital Beijing Technology Co ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-11-10
Anticipated expiration: 2043-09-04
Also published as: CN116881014A

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及一种多线程数据采集的处理方法。该方法包括：如果目标列表a_n包括的记录数量不大于q₀，且M>q₁，则遍历b_n，如果b_n,m为属于预设字段名类型的字段名，则将b_n,m追加至C₁；设置z=1；对a_n中f_z对应的元素进行归类，得到H_z；获取进行第z次归类的时间；获取第一归类时间T；如果T≤T₀且σ’_z>σ’₀，则z=z+1，重复执行上述步骤，直至满足预设的循环截止条件；如果满足σ’_z≤σ’₀，则按照f_z对应元素的类别对a_n包括的记录进行多线程采集；如果满足T>T₀，则根据z次归类得到的归类序列对a_n包括的记录进行多线程采集。本发明提高了数据采集的效率。

Description

一种多线程数据采集的处理方法

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及一种多线程数据采集的处理方法。

背景技术

为了减少数据采集的时间，进而提高数据采集的效率，可以使用多线程数据采集的方式，例如，根据数据对应的时间信息将数据进行划分，由每一线程采集一个时间段对应的数据，但是，有些应用场景下数据并不是按照时间稳步递增的，导致有的线程对应的数据采集量远远超过其他线程对应的数据采集量，使得数据采集的整体时间仍然较长，数据采集的效率仍较低。

发明内容

本发明目的在于，提供一种多线程数据采集的处理方法，以有效减少数据采集的时间，提高数据采集的效率。

根据本发明，提供了一种多线程数据采集的处理方法，包括以下步骤：

S100，获取目标列表a_n包括的记录数量Q，如果Q≤q₀，则执行S200；q₀为预设的记录数量阈值。

S200，获取a_n的字段名b_n，b_n=(b_n,1,b_n,2,…,b_n,m,…,b_n,M)，b_n,m为a_n包括的第m个字段名，m的取值范围为1到M，M为a_n包括的字段名的数量。

S300，如果M>q₁，则遍历b_n，如果b_n,m为属于预设字段名类型的字段名，则将b_n,m追加至预设的第一字段名集合C₁；C₁的初始化为空集；q₁为预设的第一字段名数量阈值。

S400，设置第一变量z=1。

S500，对a_n中f_z对应的元素进行归类，得到f_z对应的归类序列H_z，H_z=(h_z,1,h_z,2,…,h_z,r,…,h_z,R)，h_z,r为a_n中f_z对应的元素中类别为第r个类别的元素的集合，r的取值范围为1到R，R为对a_n中f_z对应的元素进行归类得到的类别的数量；f_z为随机从C₁中选择的第z个字段名；a_n中f_z对应的元素为a_n中位于f_z所在列且不包括f_z在内的元素。

S600，获取进行第z次归类的时间t_z。

S700，获取第一归类时间T，T=(z+1)×(∑^z _y=1t_y)/z，t_y为进行第y次归类的时间。

S800，如果T≤T₀且σ’_z>σ’₀，则z=z+1，重复执行S500-S700，直至满足预设的循环截止条件，所述预设的截止条件为：T>T₀或σ’_z≤σ’₀；σ’_z=((∑^R _r=1(p_z,r-p_z)²)/R)^0.5，p_z,r为h_z,r包括的元素数量，p_z为a_n中f_z对应元素中每个类别的元素数量的均值，σ’₀为预设的标准差阈值。

S900，如果循环截止时满足的是σ’_z≤σ’₀，则按照f_z对应元素的类别对a_n包括的记录进行多线程采集；如果循环截止时满足的是T>T₀，则根据z次归类得到的归类序列对a_n包括的记录进行多线程采集。

本发明与现有技术相比至少具有以下有益效果：

对于待传输的a_n，本发明获取了a_n包括的记录数量，如果a_n包括的记录数量较小，则对a_n包括的字段名的数量进行判断；如果a_n包括的字段名的数量较大，则选择a_n包括的字段名中属于预设字段名类型的字段名；先从属于预设字段名类型的字段名中随机选择1个字段名，对该字段名对应的元素进行归类，并获取进行该次归类的时间，通过该时间获取进行2次归类的时间，如果该时间小于等于预设的截止时间且该次归类对应的标准差大于预设的标准差阈值，则进行第2次归类，以此类推，直至满足预设的循环截止条件；本发明的预设的循环截止条件为T>T₀或σ’_z≤σ’₀，如果循环截止是由于满足了T>T₀的条件，说明归类时间已经相对较长，则根据之前z次归类得到的归类序列对a_n包括的记录进行多线程采集，不再继续归类，以避免出现由于归类时间较长导致的数据采集时间整体较长的情况；如果循环截止是由于满足了σ’_z≤σ’₀的条件，说明第z次归类对应的元素的类别包括的元素数量相对均衡，可直接根据第z次归类对应的元素的类别对a_n包括的记录进行多线程采集，一个线程采集一个类别对应的数据，能够避免由于不同线程对应的数据采集量差别较大导致的数据采集整体时间仍较长的情况。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多线程数据采集的处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明，如图1所示，提供了一种多线程数据采集的处理方法，包括以下步骤：

本实施例中目标列表a_n为拟采集的列表。

本实施例中q₀为经验值，可选的，q₀的数量级为百万级或千万级。

具体的，C₁=(c_1,1,c_1,2,…,c_1,k,…,c_1,v)，c_1,k为第k个被追加至C₁的字段名，k的取值为1到v，v为被追加至C₁的字段名的数量。

本实施例中q₁为经验值。

具体的，S300包括：

S310，对b_n,m进行分词处理，得到b_n,m对应的分词集合FC_n,m，FC_n,m={fc¹ _n,m,fc² _n,m,…,fc^zj _n,m,…,fc^cl _n,m}，fc^zj _n,m为对b_n,m进行分词处理得到的第zj个词，zj的取值范围为1到cl，cl为对b_n,m进行分词处理得到的词的数量。

本领域技术人员知悉，现有技术中任何的分词处理方法均落入本发明的保护范围。

S320，获取预设的词汇集合CB，CB={cb₁,cb₂,…,cb_qb,…,cb_QB}，cb_qb为CB包括的第qb个预设的词汇，qb的取值范围为1到QB，QB为CB包括的预设的词汇的数量，每一cb_qb为用户输入的词汇或用于表征时间的词汇或用于表征类别的词汇。

本实施例中CB包括用户输入的词汇、用于表征时间的词汇和用于表征类别的词汇，其中，用户输入的词汇为用户根据实际应用场景预先确定的词汇；用于表征时间的词汇包括日期和时间等；用于表征类别的词汇包括种类、分组、类别和类型等。

S330，遍历FC_n,m和CB，获取fc^zj _n,m与cb_qb的语义相似度xsd^zj _qb。

本领域技术人员知悉，现有技术中任何的获取两词汇之间的语义相似度的方法均落入本发明的保护范围。

S340，如果xsd^zj _qb大于等于预设的相似度阈值，则判定b_n,m为属于预设字段名类型的字段名；否则，判定b_n,m为不属于预设字段名类型的字段名。

本实施例中，只要某一fc^zj _n,m与CB中某一cb_qb的语义相似度大于等于预设的相似度阈值，则判定b_n,m为属于预设字段名类型的字段名；只有当任一fc^zj _n,m与CB中任一cb_qb的语义相似度均小于预设的相似度阈值时，才判定b_n,m为不属于预设字段名类型的字段名。本实施例中预设的相似度阈值为经验值，可选的，预设的相似度阈值的取值范围为[0.8,0.9]。

S400，设置第一变量z=1。

本实施例中a_n中f_z对应的元素指的是a_n中位于f_z所在列的元素（不包括f_z在内）。

本领域技术人员知悉，现有技术中任何的对元素进行归类的方法均落入本发明的保护范围。作为现有技术的一种，使用group by子句对元素进行归类。

S600，获取进行第z次归类的时间t_z。

S800，如果T≤T₀且σ’_z>σ’₀，则z=z+1，重复执行S500-S700，直至满足预设的循环截止条件，所述预设的截止条件为：T>T₀或σ’_z≤σ’₀；σ’_z为f_z对应的标准差，σ’_z=((∑^R _r=1(p_z,r-p_z)²)/R)^0.5，p_z,r为h_z,r包括的元素数量，p_z为a_n中f_z对应元素中每个类别的元素数量的均值，σ’₀为预设的标准差阈值；T₀为预设的截止时间。

具体的，p_z=(∑^R _r=1p_z,r)/R。

具体的，所述按照f_z对应元素的类别对a_n包括的记录进行多线程采集包括：使用su个线程对a_n包括的记录进行采集，每个线程用于采集f_z对应元素的一个类别对应的记录，su为f_z对应元素的类别数量。

具体的，所述根据z次归类得到的归类序列对a_n包括的记录进行多线程采集包括以下步骤：

S910，获取z次归类得到的归类序列H，H=(H₁,H₂,…,H_y,…,H_z)，H_y为进行第y次归类得到的归类序列；H_y=(h_y,1,h_y,2,…,h_y,δ,…,h_y,ε(y))，h_y,δ为a_n中f_y对应的元素中类别为第δ个类别的元素的集合，δ的取值范围为1到ε(y)，ε(y)为对a_n中f_y对应的元素进行归类得到的类别的数量；f_y为随机从C₁中选择的第y个字段名；a_n中f_y对应的元素为a_n中位于f_y所在列且不包括f_y在内的元素。

S920，遍历H，根据每一h_y,δ包括的元素数量对H_y进行重新排列，得到对H_y进行重新排列的序列H’_y；H’_y=(h’_y,1,h’_y,2,…,h’_y,δ,…,h’_y,ε(y))，h’_y,δ为H’_y中包括的元素数量为第δ大的集合。

本实施例中，h’_y,1为H’_y中包括的元素数量为最大的集合，h’_y,2为H’_y中包括的元素数量为次大的集合，h’_y,ε(y)为H’_y中包括的元素数量为最小的集合。

S930，如果ε(y)为偶数，则获取第y次归类对应的第一组合序列L¹ _y的标准差σ₁(y)；如果ε(y)为奇数，则获取第y次归类对应的第二组合序列L⁰ _y的标准差σ₂(y)；L¹ _y=(l _1,y,l _2,y,…,l _ζ,y,…,l _ε(y)/2,y)，l _ζ,y为h’_y,ζ包括的元素数量与h’_y,ε(y)-ζ+1包括的元素数量之和，ζ的取值范围为1到ε(y)/2；L⁰ _y=(l’_1,y,l’_2,y,…,l’_ψ,y,…,l’_ε(y)/2+1,y)，l’_ψ,y为h’_y,ψ包括的元素数量与h’_y,ε(y)-ψ+2包括的元素数量之和，ψ的取值范围为2到(ε(y)+1)/2；l’_1,y为h’_y,1包括的元素数量。

S940，获取z次归类对应的标准差序列seq₁，seq₁=(σ(1),σ(2),…,σ(y),…,σ(z))；σ(y)为第y次归类对应的标准差，当ε(y)为偶数时，σ(y)=σ₁(y)；当ε(y)为奇数时，σ(y)=σ₂(y)。

S950，按照min(seq₁)对应的H’_y对a_n包括的记录进行多线程采集，其中，当min(seq₁)对应的H’_y包括的集合的数量φ为偶数时，使用φ/2个线程对a_n包括的记录进行采集，第η个线程用于对min(seq₁)对应的H’_y中h’_y,η和h’_y,φ-η+1对应的记录进行采集，η的取值范围为1到φ/2；当min(seq₁)对应的H’_y包括的集合的数量φ为奇数时，使用(φ+1)/2个线程对a_n包括的记录进行采集，第1个线程用于对min(seq₂)对应的H’_y中h’_y,1对应的记录进行采集，第f个线程用于对min(seq₂)对应的H’_y中h’_y,f和h’_y,θ-f+2对应的记录进行采集，f的取值范围为2到(φ+1)/2；min( )为取最小值。

本实施例在循环截止时满足的是T>T₀的情况下，根据z次归类得到的归类序列对a_n包括的记录进行多线程采集，具体的，对于z次归类得到的每一归类序列，本实施例按照归类序列中各类别包括的元素的数量由大到小的顺序将归类序列进行重新排列，使得重新排列的归类序列中包括的元素的数量越大的类别的位置越靠前；如果归类序列包括的元素数量为偶数，本实施例将归类序列包括的类别进行两两组合，且将包括的元素的数量越大的类别与包括的元素的数量越小的类别进行组合，由此，组合后得到的分组数量为原来类别数量的一半，且各分组包括的元素的数量能够相对均衡；如果归类序列包括的元素数量为奇数，本实施例将归类序列包括的类别中除包括的元素的数量最大的类别以外的其他类别进行两两组合，且将包括的元素的数量越大的类别与包括的元素的数量越小的类别进行组合，由此，组合后得到的分组数量为原来类别数量的一半加1，且各分组包括的元素的数量能够相对均衡。

在此基础上，本实施例将对应的分组后的元素的数量最为均衡的归类对应的分组结果作为进行多线程采集的依据，能够进一步保证各线程采集的数据量之间的均衡性，避免出现由于各线程采集的数据量之间差异较大导致的线程浪费和数据采集整体时间较长的问题。

对于待传输的a_n，本实施例获取了a_n包括的记录数量，如果a_n包括的记录数量较小，则对a_n包括的字段名的数量进行判断；如果a_n包括的字段名的数量较大，则选择a_n包括的字段名中属于预设字段名类型的字段名；先从属于预设字段名类型的字段名中随机选择1个字段名，对该字段名对应的元素进行归类，并获取进行该次归类的时间，通过该时间获取进行2次归类的时间，如果该时间小于等于预设的截止时间且该次归类对应的标准差大于预设的标准差阈值，则进行第2次归类，以此类推，直至满足预设的循环截止条件；本发明的预设的循环截止条件为T>T₀或σ’_z≤σ’₀，如果循环截止是由于满足了T>T₀的条件，说明归类时间已经相对较长，则根据之前z次归类得到的归类序列对a_n包括的记录进行多线程采集，不再继续归类，以避免出现由于归类时间较长导致的数据采集时间整体较长的情况；如果循环截止是由于满足了σ’_z≤σ’₀的条件，说明第z次归类对应的元素的类别包括的元素数量相对均衡，可直接根据第z次归类对应的元素的类别对a_n包括的记录进行多线程采集，一个线程采集一个类别对应的数据，能够避免由于不同线程对应的数据采集量差别较大导致的数据采集整体时间仍较长的情况。

如果Q>q₀，则对a_n进行随机采样，并根据随机采样的结果对a_n包括的记录进行多线程采集。

应当理解的是，对a_n进行随机采样，得到的采样后的列表与a_n相比，两者包括的字段名相同，采样后的列表包括的记录数量小于a_n包括的记录数量；在此基础上，本实施例将采样后的列表作为新的目标列表，再执行类似于S200-S900的方法，得到最小标准差对应的元素的类别，并按照该类别对a_n包括的记录进行多线程采集。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种多线程数据采集的处理方法，其特征在于，所述处理方法包括以下步骤：

S100，获取目标列表a_n包括的记录数量Q，如果Q≤q₀，则执行S200；q₀为预设的记录数量阈值；

S200，获取a_n的字段名b_n，b_n=(b_n,1,b_n,2,…,b_n,m,…,b_n,M)，b_n,m为a_n包括的第m个字段名，m的取值范围为1到M，M为a_n包括的字段名的数量；

S300，如果M>q₁，则遍历b_n，如果b_n,m为属于预设字段名类型的字段名，则将b_n,m追加至预设的第一字段名集合C₁；C₁的初始化为空集；q₁为预设的第一字段名数量阈值；

S400，设置第一变量z=1；

S500，对a_n中f_z对应的元素进行归类，得到f_z对应的归类序列H_z，H_z=(h_z,1,h_z,2,…,h_z,r,…,h_z,R)，h_z,r为a_n中f_z对应的元素中类别为第r个类别的元素的集合，r的取值范围为1到R，R为对a_n中f_z对应的元素进行归类得到的类别的数量；f_z为随机从C₁中选择的第z个字段名；a_n中f_z对应的元素为a_n中位于f_z所在列且不包括f_z在内的元素；

S600，获取进行第z次归类的时间t_z；

S700，获取第一归类时间T，T=(z+1)×(∑^z _y=1t_y)/z，t_y为进行第y次归类的时间；

S800，如果T≤T₀且σ’_z>σ’₀，则z=z+1，重复执行S500-S700，直至满足预设的循环截止条件，所述预设的截止条件为：T>T₀或σ’_z≤σ’₀；σ’_z为f_z对应的标准差，σ’_z=((∑^R _r=1(p_z,r-p_z)²)/R)^0.5，p_z,r为h_z,r包括的元素数量，p_z为a_n中f_z对应元素中每个类别的元素数量的均值，σ’₀为预设的标准差阈值；T₀为预设的截止时间；

2.根据权利要求1所述的多线程数据采集的处理方法，其特征在于，S900中，所述根据z次归类得到的归类序列对a_n包括的记录进行多线程采集包括以下步骤：

S910，获取z次归类得到的归类序列H，H=(H₁,H₂,…,H_y,…,H_z)，H_y为进行第y次归类得到的归类序列；H_y=(h_y,1,h_y,2,…,h_y,δ,…,h_y,ε(y))，h_y,δ为a_n中f_y对应的元素中类别为第δ个类别的元素的集合，δ的取值范围为1到ε(y)，ε(y)为对a_n中f_y对应的元素进行归类得到的类别的数量；f_y为随机从C₁中选择的第y个字段名；a_n中f_y对应的元素为a_n中位于f_y所在列且不包括f_y在内的元素；

S920，遍历H，根据每一h_y,δ包括的元素数量对H_y进行重新排列，得到对H_y进行重新排列的序列H’_y；H’_y=(h’_y,1,h’_y,2,…,h’_y,δ,…,h’_y,ε(y))，h’_y,δ为H’_y中包括的元素数量为第δ大的集合；

S930，如果ε(y)为偶数，则获取第y次归类对应的第一组合序列L¹ _y的标准差σ₁(y)；如果ε(y)为奇数，则获取第y次归类对应的第二组合序列L⁰ _y的标准差σ₂(y)；L¹ _y=(l _1,y,l _2,y,…,l _ζ,y,…,l _ε(y)/2,y)，l _ζ,y为h’_y,ζ包括的元素数量与h’_y,ε(y)-ζ+1包括的元素数量之和，ζ的取值范围为1到ε(y)/2；L⁰ _y=(l’_1,y,l’_2,y,…,l’_ψ,y,…,l’_ε(y)/2+1,y)，l’_ψ,y为h’_y,ψ包括的元素数量与h’_y,ε(y)-ψ+2包括的元素数量之和，ψ的取值范围为2到(ε(y)+1)/2；l’_1,y为h’_y,1包括的元素数量；

S940，获取z次归类对应的标准差序列seq₁，seq₁=(σ(1),σ(2),…,σ(y),…,σ(z))；σ(y)为第y次归类对应的标准差，当ε(y)为偶数时，σ(y)=σ₁(y)；当ε(y)为奇数时，σ(y)=σ₂(y)；

3.根据权利要求1所述的多线程数据采集的处理方法，其特征在于，S300包括：

S310，对b_n,m进行分词处理，得到b_n,m对应的分词集合FC_n,m，FC_n,m={fc¹ _n,m,fc² _n,m,…,fc^zj _n,m,…,fc^cl _n,m}，fc^zj _n,m为对b_n,m进行分词处理得到的第zj个词，zj的取值范围为1到cl，cl为对b_n,m进行分词处理得到的词的数量；

S320，获取预设的词汇集合CB，CB={cb₁,cb₂,…,cb_qb,…,cb_QB}，cb_qb为CB包括的第qb个预设的词汇，qb的取值范围为1到QB，QB为CB包括的预设的词汇的数量，每一cb_qb为用户输入的词汇或用于表征时间的词汇或用于表征类别的词汇；

S330，遍历FC_n,m和CB，获取fc^zj _n,m与cb_qb的语义相似度xsd^zj _qb；

4.根据权利要求3所述的多线程数据采集的处理方法，其特征在于，所述预设的相似度阈值的取值范围为[0.8,0.9]。

5.根据权利要求1所述的多线程数据采集的处理方法，其特征在于，所述按照f_z对应元素的类别对a_n包括的记录进行多线程采集包括：使用su个线程对a_n包括的记录进行采集，每个线程用于采集f_z对应元素的一个类别对应的记录，su为f_z对应元素的类别数量。

6.根据权利要求1所述的多线程数据采集的处理方法，其特征在于，p_z=(∑^R _r=1p_z,r)/R。

7.根据权利要求1所述的多线程数据采集的处理方法，其特征在于，如果Q>q₀，则对a_n进行随机采样，并根据随机采样的结果对a_n包括的记录进行多线程采集。