CN113806409A - 一种数据配对的方法及其相关设备 - Google Patents

一种数据配对的方法及其相关设备 Download PDF

Info

Publication number
CN113806409A
CN113806409A CN202010467395.1A CN202010467395A CN113806409A CN 113806409 A CN113806409 A CN 113806409A CN 202010467395 A CN202010467395 A CN 202010467395A CN 113806409 A CN113806409 A CN 113806409A
Authority
CN
China
Prior art keywords
populations
pairing
data
population
paired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010467395.1A
Other languages
English (en)
Inventor
胡康兴
段戎
杨钦杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010467395.1A priority Critical patent/CN113806409A/zh
Publication of CN113806409A publication Critical patent/CN113806409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请实施例提供了一种数据配对的方法及装置。本申请实施例中,先通过获取多个种群,每个种群表示多个配对数据与多个待配对数据之间的一个配对关系。然后,通过遗传算法获取每个种群的配对误差,再基于每个种群的配对误差在多个种群中确定出目标种群,即确定多个配对数据与多个待配对数据之间的最终配对关系。最后基于该关系,对多个配对数据与多个待配对数据进行配对。本申请实施例基于遗传算法,可快速准确地完成数据配对,有利于节省时间成本,提高效率。

Description

一种数据配对的方法及其相关设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据配对的方法及其相关设备。
背景技术
随着计算机技术的发展,在众多领域均需要进行数据配对,即将配对数据和待配对数据进行配对,以合理统筹和利用数据。
为了便于理解,以下结合图1对上述数据配对的过程进行介绍。图1为本申请实施例提供的一个应用例示意图。如图1所示,在财经领域的账务对款过程中,收据清单包含多个收据条目(配对数据),发票清单包含多个发票条目(待配对数据),若收据清单中的某些收据条目可与发票清单中的某一个发票条目完成配对,则可视为对款成功。
为了实现数据配对,可通过传统的穷举搜索法在配对数据和待配对数据中,确定所有可能的配对解。然而,当数据量过于庞大时,该方法在数据配对时,所需要的时间过多,效率低下。
发明内容
本申请实施例提供了一种数据配对的方法及其相关设备,可快速准确地完成数据配对,有利于节省时间成本,提高效率。
本申请实施例的第一方面提供了一种数据配对的方法,该方法包括:
获取L个种群,种群包含N个配对数据与M个待配对数据之间的配对关系;
通过遗传算法获取每个种群的配对误差;
基于每个种群的配对误差,在L个种群中确定目标种群;
基于目标种群,将N个配对数据与M个待配对数据中的K个待配对数据进行配对;
其中,L≥2,N≥2,M≥1,K≤M。
从上述方法可以看出:先通过获取多个种群,每个种群表示多个配对数据与多个待配对数据之间的一个配对关系。然后,通过遗传算法获取每个种群的配对误差,再基于每个种群的配对误差在多个种群中确定出目标种群,即确定多个配对数据与多个待配对数据之间的最终配对关系。最后基于该关系,对多个配对数据与多个待配对数据进行配对。本申请实施例基于遗传算法,可快速准确地完成数据配对,有利于节省时间成本,提高效率。
结合第一方面,在本申请实施例的第一方面的第一种实现方式中,通过遗传算法获取每个种群的配对误差包括:
基于预置的适应度函数,从L个种群中选择T个种群;
对T个种群进行交叉,并对交叉后的T个种群进行变异;
基于适应度函数对2T个种群进行计算,得到2T个种群中的每个种群的配对误差;
其中,T≤L,2T个种群包括变异后的T个种群和交叉前的T个种群。
结合第一方面的第一种实现方式,在本申请实施例的第一方面的第二种实现方式中,适应度函数为:
Eu={eu,1,eu,2,...,eu,M}
eu,j=∑xi×Lu,j,i-yj-g
上式中,Eu表示第u个种群的配对误差,u∈(1,2,…,2T);eu,j表示第u个种群中的第j个待配对数据的配对误差,j∈(1,2,…,M);xi表示第i个配对数据,i∈(1,2,…,N);yj表示第j个待配对数据;若Lu,j,i为1,则表示第i个配对数据被配对至第j个待配对数据,若Lu,j,i为0,则表示第i个配对数据未被配对至第j个待配对数据;g为预置的容差值。
结合第一方面的第二种实现方式,在本申请实施例的第一方面的第三种实现方式中,基于每个种群的配对误差,在L个种群中确定目标种群包括:
基于2T个种群中的每个种群的配对误差获取2T个种群中的每个种群的得分,其中,每个种群的得分通过将该种群的配对误差与2T个种群中的其余种群的配对误差进行比较得到;
基于2T个种群中的每个种群的得分,从2T个种群中确定P个种群;
基于P个种群中的每个种群的配对误差,获取P个种群中的每个种群的误差累加值,其中,每个种群的误差累加值通过将该种群中的K个待配对数据的配对误差进行累加得到,K≤M;
基于P个种群中的每个种群的误差累加值,从P个种群中确定目标种群。
本申请实施例的第二方面提供了一种数据配对的装置,该装置包括:
第一获取模块,用于获取L个种群,种群包含N个配对数据与M个待配对数据之间的配对关系;
第二获取模块,用于通过遗传算法获取每个种群的配对误差;
确定模块,用于基于每个种群的配对误差,在L个种群中确定目标种群;
配对模块,用于基于目标种群,将N个配对数据与M个待配对数据中的K个待配对数据进行配对;
其中,L≥2,N≥2,M≥1,K≤M。
结合第二方面,在本申请实施例的第二方面的第一种实现方式中,第二获取模块包括:
第一操作单元,用于基于预置的适应度函数,从L个种群中选择T个种群;
第二操作单元,用于对T个种群进行交叉,并对交叉后的T个种群进行变异;
第三操作单元,用于基于适应度函数对2T个种群进行计算,得到2T个种群中的每个种群的配对误差;
其中,T≤L,2T个种群包括变异后的T个种群和交叉前的T个种群。
结合第二方面的第一种实现方式,在本申请实施例的第二方面的第二种实现方式中,适应度函数为:
Eu={eu,1,eu,2,...,eu,M}
eu,j=∑xi×Lu,j,i-yj-g
上式中,Eu表示第u个种群的配对误差,u∈(1,2,…,2T);eu,j表示第u个种群中的第j个待配对数据的配对误差,j∈(1,2,…,M);xi表示第i个配对数据,i∈(1,2,…,N);yj表示第j个待配对数据;若Lu,j,i为1,则表示第i个配对数据被配对至第j个待配对数据,若Lu,j,i为0,则表示第i个配对数据未被配对至第j个待配对数据;g为预置的容差值。
结合第二方面的第二种实现方式,在本申请实施例的第二方面的第三种实现方式中,确定模块包括:
基于2T个种群中的每个种群的配对误差获取2T个种群中的每个种群的得分,其中,每个种群的得分通过将该种群的配对误差与2T个种群中的其余种群的配对误差进行比较得到;
基于2T个种群中的每个种群的得分,从2T个种群中确定P个种群;
基于P个种群中的每个种群的配对误差,获取P个种群中的每个种群的误差累加值,其中,每个种群的误差累加值通过将该种群中的K个待配对数据的配对误差进行累加得到,K≤M;
基于P个种群中的每个种群的误差累加值,从P个种群中确定目标种群。
本申请实施例的第三方面提供了一种数据配对的装置,该装置包括:
一个或一个以上中央处理器,存储器,输入输出接口,有线或无线网络接口,电源;
存储器为短暂存储存储器或持久存储存储器;
中央处理器配置为与存储器通信,在资源调度的装置上执行存储器中的指令操作以如第一方面任意一项所述的方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,包括指令,当指令在计算机上运行时,使得计算机执行如第一方面任意一项所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种数据配对的方法及装置。本申请实施例中,先通过获取多个种群,每个种群表示多个配对数据与多个待配对数据之间的一个配对关系。然后,通过遗传算法获取每个种群的配对误差,再基于每个种群的配对误差在多个种群中确定出目标种群,即确定多个配对数据与多个待配对数据之间的最终配对关系。最后基于该关系,对多个配对数据与多个待配对数据进行配对。本申请实施例基于遗传算法,可快速准确地完成数据配对,有利于节省时间成本,提高效率。
附图说明
图1为本申请实施例提供的一个应用例示意图;
图2为本申请实施例提供的数据配对的方法的一个流程示意图;
图3为本申请实施例提供的交叉操作的示意图;
图4为本申请实施例提供的数据配对的装置的一个结构示意图;
图5为本申请实施例提供的数据配对的装置的另一结构示意图。
具体实施方式
本申请实施例提供了一种数据配对的方法及其相关设备,可快速准确地完成数据配对,有利于节省时间成本,提高效率。
图2为本申请实施例提供的数据配对的方法的一个流程示意图。如图2所示,该方法包括:
201、获取L个种群。
若需要对N个配对数据与M个待配对数据进行配对,可先获取L个种群。其中,每个种群包含N个配对数据与M个待配对数据之间的一种配对关系。因此,L个种群即代表N个配对数据与M个待配对数据之间的L种配对关系。其中,L≥2,N≥2,M≥1。
为了便于理解,以下将结合表1对种群作详细的介绍。
表1
L(1,1) L(1,2) L(1,M)
x1 0 1 0
x2 0 1 0
x3 1 0 0
xN 0 0 1
y1 y2 yM
表1示出了种群1所包含的配对关系。如表1所示,在种群1中,L(1,j)表示种群1的基因序列,例如,L(1,1)表示N个配对数据中,有多少配对数据个被配对至待配对数据y1。其中,L(1,1)中的L1,1,1取值为0(在表1的第1列中,即与x1相应的取值为0),表示x1未被配对至y1,而L1,1,3取值为1(在表1的第1列中,与x3相应的取值为1),表示x3被配对至y1。同理,可得M个待配对数据中,每个待配对数据被配对的若干个配对数据。需要说明的是,表1中的每一行的取值之和(例如,某个配对数据在所有列中对应的取值之和)等于0或1,因为一个配对数据仅能配对至一个待配对数据。
因此,种群1示出了N个配对数据与M个待配对数据之间的第1种配对关系,通过其余种群,可确定N个配对数据与M个待配对数据之间的其余配对关系。为了基于L种配对关系,确定出一种最优的配对关系,可在获取L个种群后,通过遗传算法获取每个种群的配对误差。
202、基于预置的适应度函数,从L个种群中选择T个种群。
在获取L个种群后,可基于预置的适应度函数从L个种群中选择T个种群。其中,T≤L,适应度函数为:
Eu={eu,1,eu,2,...,eu,M}
eu,j=∑xi×Lu,j,i-yj-g
上式中,Eu表示第u个种群的配对误差,u∈(1,2,…,2T);eu,j表示第u个种群中的第j个待配对数据的配对误差,j∈(1,2,…,M);xi表示第i个配对数据,i∈(1,2,…,N);yj表示第j个待配对数据;若Lu,j,i为1,则表示第i个配对数据被配对至第j个待配对数据,若Lu,j,i为0,则表示第i个配对数据未被配对至第j个待配对数据;g为预置的容差值。
基于适应度函数,可得到L个种群中的每个种群的配对误差。应理解,每个种群的配对误差即为该种群中每个带配对数据的配对误差的集合。因此,可通过比较配对误差,从L个种群中选择较优的T个种群,以实现局部优化。
例如,设L为10,T为5,每个种群包含3个待配对数据y1、y2和y3。先将10个种群进行分组,每组包括2个种群。然后基于适应度函数,计算每个种群的配对误差。在每一组中,比较两个种群之间的配对误差,从而挑选出较优的一个种群。具体的比较方式可为:设第一组包含种群1和种群2,种群1的配对误差为{1,2,3},种群2的配对误差为{2,3,3}。通过将比较可知,在种群1中,待配对数据y1的配对误差较小,y2的配对误差较小,且两个种群的y3的配对误差相等。因此,可从第一组中选择较优的种群1。需要说明的是,若对某一组中的两个种群进行比较后,无法区分哪个种群较优,则随机选择一个种群作为较优的种群。
203、对T个种群进行交叉,并对交叉后的T个种群进行变异。
在得到较优的T个种群后,可先对这T个种群进行交叉操作。为了便于理解,以下结合图3对前述交叉操作进行介绍。图3为本申请实施例提供的交叉操作的示意图,如图3所示,先对T个种群进行分组,每组包含2个种群。设第一组包含种群1和种群7,选择L(1,1)和L(7,1)进行说明,其中,L(1,1)为种群1中的第1个基因序列,L(7,1)为种群7中的第1个基因序列。若L(1,1)和L(7,1)发生交叉,L(1,1)中的序列片段和L(7,1)的序列片段发生交换,构成新的基因序列。同理,种群1和种群7中的其他基因序列也发生交叉操作。更进一步地,其余组的种群之间也可进行如前述的交叉操作,以完成T个种群的交叉操作。
然后,可对交叉后的T个种群进行变异操作。为了便于理解,以下结合表2(表2示意出变异前的种群2)和表3(表3示意出变异后的种群2)对前述变异操作进行介绍。
表2
L(2,1) L(2,2) L(2,M)
x1 1 0 0
x2 1 0 0
x3 0 1 0
xN 0 0 1
y1 y2 yM
表3
L(2,1) L(2,2) L(2,M)
x1 0 1 0
x2 1 0 0
x3 0 1 0
xN 0 0 1
y1 y2 yM
基于表2和表3,对种群2中的某个基因序列进行变异操作,如L(2,2)中的L2,2,1的原值为0,通过变异操作后,可将其值更改为1,且为了保证每一行的取值之和等于0或1,L(1,2)中的L2,1,1也需要进行变异,使得其值从1更改为0。同理,其余种群也可发生如前述的变异操作,以完成T个种群的变异操作。
204、基于适应度函数对2T个种群进行计算,得到2T个种群中的每个种群的配对误差。
执行完变异操作后,可变异后的T个种群(子种群)和交叉前的T个种群(父种群)合并,得到2T个种群。然后,基于前述的适应度函数,计算2T个种群中的每个种群的配对误差。
205、基于2T个种群中的每个种群的配对误差获取2T个种群中的每个种群的得分。
在得到2T个种群中的每个种群的配对误差后,可基于配对误差获取2T个种群中的每个种群的得分,其中,每个种群的得分通过将该种群的配对误差与2T个种群中的其余种群的配对误差进行比较得到。具体地,在得到某个种群的配对误差后,可将该种群的配对误差与2T个种群的其余种群的配对误差进行比较,从而得到该种群的得分。
例如,设种群1的配对误差为{1,2,3},种群2的配对误差为{2,3,3},种群3的配对误差为{2,3,1},种群4的配对误差为{1,1,3}。通过比较种群1与种群2、种群3、种群4之间的配对误差,种群1相较于种群2可得2分(通过将比较可知,在种群1中,待配对数据y1的配对误差较小,y2的配对误差较小,且两个种群的y3的配对误差相等,故种群1相较于种群2可得2分),相较于种群3可得1分,相较于种群4可得-1分,因此,种群1的得分为2分。同理,种群2的得分为-5分,种群3的得分为-1分,种群4的得分为4分。
206、基于2T个种群中的每个种群的得分,从2T个种群中确定P个种群。
在得到2T个种群中的每个种群的得分后,可基于得分的大小,对2T个种群进行排序,从而在2T个种群中确定P个得分较高的种群。需要说明的是,若在2T个种群中,有2T-P+1个种群的得分相同(其余P-1个种群的得分均高于该2T-P+1个种群的得分),则需要从该2T-P+1个种群选择出最后一个种群。选择的方式可有多种,例如,随机进行挑选,又如,设置一个参考点,计算该2T-P+1个种群中的每个种群到参考点之间距离,选择距离最近的种群等等。
207、基于P个种群中的每个种群的配对误差,获取P个种群中的每个种群的误差累加值。
得到P个种群后,则可获取P个种群中的每个种群的误差累加值。其中,每个种群的误差累加值通过将该种群中的K个待配对数据的配对误差进行累加得到,K≤M。需要说明的是,K个待配对数据即为最终选定需要进行配对的待配对数据。
例如,设定P等于4,K等于2。4个种群分别为种群5、种群6、种群7和种群8,种群5的配对误差为{3,1,2},种群6的配对误差为{4,1,3},种群7的配对误差为{1,1,2},种群8的配对误差为{1,1,1}。然后,将每个种群的配对误差集合中的元素按从小到大进行排序,得到种群5的配对误差为{1,2,3},种群6的配对误差为{1,3,4},种群7的配对误差为{1,1,2},种群8的配对误差为{1,1,1}。最后,在每个集合中取前K=2个元素进行累加,得到每个种群的误差累加值,即种群5的误差累加值为3,种群6的误差累加值为4,种群7的误差累加值为2,种群8的误差累加值为2。
208、基于P个种群中的每个种群的误差累加值,从P个种群中确定目标种群。
得到P个种群中的每个种群的误差累加值,按照误差累加值的大小,选择最小误差累加值所对应的种群为目标种群。需要说明的是,若最小误差累加值所对应的种群有多个,可随机从中选择一个目标种群,也可通过参考点的方式选择一个目标种群等等。
209、基于目标种群,将N个配对数据与M个待配对数据中的K个待配对数据进行配对。
由于目标种群包含了N个配对数据与M个待配对数据之间的一种配对关系(即为最终确定的目标配对关系),基于该配对关系,可对N个配对数据与M个待配对数据中的K个配对数据进行配对。具体地,基于步骤207可知,对于目标种群而言,目标种群的配对误差集合包含了M个待配对数据的配对误差,可对M个待配对数据的配对误差进行排序,按配对误差的大小排序,从M个待配对数据中确定出前K个待配对数据,再按照目标种群所包含的N个配对数据与M个待配对数据之间的配对关系,将N个配对数据配对至K个待配对数据。需要说明的是,在配对的过程中,可能是将N个配对数据中的部分配对数据配对至K个待配对数据,也可能是将N个配对数据中的所有配对数据配对至K个待配对数据,此处不做限定。
此外,本申请中还通过预置的容差值,以进一步提高数据配对之间的准确度。针对于该容差值,可以理解为,若干个配对数据与某个待配对数据之间的差值,例如,有4个收据条目构成一个组合,若该组合的金额与配对的某个发票条目的金额存在差值(该差值可为汇款过程中银行收取的手续费等等),此时,则应通过设置一个容差值,使得其完成配对。
在提前设置该容差值时,通常基于空间二分法进行设置。具体地,取定一个容差值g,对其进行划分为[0,g/2],[g/2,g]。然后将前述适应度函数中容差值设定为0和g/2,取一定的配对数据和带配对数据构成样本种群,通过适应度函数对样本种群进行计算,得到两种情况下的种群的配对误差,若容差值为0时配对误差较小,则继续划分为[0,g/4],[g/4,g/2],再继续计算和比较。若容差值为g/2时配对误差较小,则继续划分为[g/2,3g/4],[3g/4,g],再继续计算和比较。直至迭代次数满足条件或样本种群的配对误差满足条件,则停止划分,取当前的容差值为最终设定的容差值。
本实施例中,先通过获取多个种群,每个种群表示多个配对数据与多个待配对数据之间的一个配对关系。然后,通过遗传算法获取每个种群的配对误差,再基于每个种群的配对误差在多个种群中确定出目标种群,即确定多个配对数据与多个待配对数据之间的最终配对关系。最后基于该关系,对多个配对数据与多个待配对数据进行配对。本申请实施例基于遗传算法,可快速准确地完成数据配对,有利于节省时间成本,提高效率。
以上是对本申请实施例提供的数据配对的方法所进行的介绍,以下将对本申请实施例提供的数据配对的装置进行说明。图4为本申请实施例提供的数据配对的装置的一个结构示意图,请参阅图4,该装置包括:
第一获取模块401,用于获取L个种群,种群包含N个配对数据与M个待配对数据之间的配对关系;
第二获取模块402,用于通过遗传算法获取每个种群的配对误差;
确定模块403,用于基于每个种群的配对误差,在L个种群中确定目标种群;
配对模块404,用于基于目标种群,将N个配对数据与M个待配对数据中的K个待配对数据进行配对;
其中,L≥2,N≥2,M≥1,K≤M。
在一种可能实现的方式中,第二获取模块402包括:
第一操作单元,用于基于预置的适应度函数,从L个种群中选择T个种群;
第二操作单元,用于对T个种群进行交叉,并对交叉后的T个种群进行变异;
第三操作单元,用于基于适应度函数对2T个种群进行计算,得到2T个种群中的每个种群的配对误差;
其中,T≤L,2T个种群包括变异后的T个种群和交叉前的T个种群。
在一种可能实现的方式中,适应度函数为:
Eu={eu,1,eu,2,...,eu,M}
eu,j=∑xi×Lu,j,i-yj-g
上式中,Eu表示第u个种群的配对误差,u∈(1,2,…,2T);eu,j表示第u个种群中的第j个待配对数据的配对误差,j∈(1,2,…,M);xi表示第i个配对数据,i∈(1,2,…,N);yj表示第j个待配对数据;若Lu,j,i为1,则表示第i个配对数据被配对至第j个待配对数据,若Lu,j,i为0,则表示第i个配对数据未被配对至第j个待配对数据;g为预置的容差值。
在一种可能实现的方式中,确定模块403包括:
基于2T个种群中的每个种群的配对误差获取2T个种群中的每个种群的得分,其中,每个种群的得分通过将该种群的配对误差与2T个种群中的其余种群的配对误差进行比较得到;
基于2T个种群中的每个种群的得分,从2T个种群中确定P个种群;
基于P个种群中的每个种群的配对误差,获取P个种群中的每个种群的误差累加值,其中,每个种群的误差累加值通过将该种群中的K个待配对数据的配对误差进行累加得到;
基于P个种群中的每个种群的误差累加值,从P个种群中确定目标种群。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
图5为本申请实施例提供的数据配对的装置的另一结构示意图,请参阅图5,该装置可以包括一个或一个以上中央处理器501,存储器502,输入输出接口503,有线或无线网络接口504,电源505。
存储器502可以是短暂存储或持久存储。更进一步地,中央处理器501可以配置为与存储器502通信,在用户面功能实体上执行存储器502中的一系列指令操作。
本实施例中,中央处理器501可以执行前述图2所示实施例中数据配对的装置所执行的操作,具体此处不再赘述。
本实施例中,中央处理器501中的具体功能模块划分可以与前述图4所示实施例中所描述的第一获取模块、第二获取模块、确定模块、配对模块的功能模块划分方式类似,此处不再赘述。
本申请实施例还涉及一种计算机可读存储介质,包括指令,当指令在计算机上运行时,使得计算机执行如图2所示实施例中的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种数据配对的方法,其特征在于,所述方法包括:
获取L个种群,所述种群包含N个配对数据与M个待配对数据之间的配对关系;
通过遗传算法获取每个种群的配对误差;
基于所述每个种群的配对误差,在所述L个种群中确定目标种群;
基于所述目标种群,将所述N个配对数据与M个待配对数据中的K个待配对数据进行配对;
其中,L≥2,N≥2,M≥1,K≤M。
2.根据权利要求1所述的方法,其特征在于,所述通过遗传算法获取每个种群的配对误差包括:
基于预置的适应度函数,从所述L个种群中选择T个种群;
对所述T个种群进行交叉,并对交叉后的T个种群进行变异;
基于所述适应度函数对2T个种群进行计算,得到2T个种群中的每个种群的配对误差;
其中,T≤L,所述2T个种群包括变异后的T个种群和交叉前的T个种群。
3.根据权利要求2所述的方法,其特征在于,所述适应度函数为:
Eu={eu,1,eu,2,...,eu,M}
eu,j=Σxi×Lu,j,i-yj-g
上式中,Eu表示第u个种群的配对误差,u∈(1,2,…,2T);eu,j表示第u个种群中的第j个待配对数据的配对误差,j∈(1,2,…,M);xi表示第i个配对数据,i∈(1,2,…,N);yj表示第j个待配对数据;若Lu,j,i为1,则表示第i个配对数据被配对至第j个待配对数据,若Lu,j,i为0,则表示第i个配对数据未被配对至第j个待配对数据;g为预置的容差值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述每个种群的配对误差,在所述L个种群中确定目标种群包括:
基于所述2T个种群中的每个种群的配对误差获取2T个种群中的每个种群的得分,其中,所述每个种群的得分通过将该种群的配对误差与所述2T个种群中的其余种群的配对误差进行比较得到;
基于所述2T个种群中的每个种群的得分,从所述2T个种群中确定P个种群;
基于所述P个种群中的每个种群的配对误差,获取P个种群中的每个种群的误差累加值,其中,所述每个种群的误差累加值通过将该种群中的K个待配对数据的配对误差进行累加得到;
基于所述P个种群中的每个种群的误差累加值,从所述P个种群中确定目标种群。
5.一种数据配对的装置,其特征在于,所述装置包括:
第一获取模块,用于获取L个种群,所述种群包含N个配对数据与M个待配对数据之间的配对关系;
第二获取模块,用于通过遗传算法获取每个种群的配对误差;
确定模块,用于基于所述每个种群的配对误差,在所述L个种群中确定目标种群;
配对模块,用于基于所述目标种群,将所述N个配对数据与M个待配对数据中的K个待配对数据进行配对;
其中,L≥2,N≥2,M≥1,K≤M。
6.根据权利要求5所述的装置,其特征在于,所述第二获取模块包括:
第一操作单元,用于基于预置的适应度函数,从所述L个种群中选择T个种群;
第二操作单元,用于对所述T个种群进行交叉,并对交叉后的T个种群进行变异;
第三操作单元,用于基于所述适应度函数对2T个种群进行计算,得到2T个种群中的每个种群的配对误差;
其中,T≤L,所述2T个种群包括变异后的T个种群和交叉前的T个种群。
7.根据权利要求6所述的装置,其特征在于,所述适应度函数为:
Eu={eu,1,eu,2,...,eu,M}
eu,j=Σxi×Lu,j,i-yj-g
上式中,Eu表示第u个种群的配对误差,u∈(1,2,…,2T);eu,j表示第u个种群中的第j个待配对数据的配对误差,j∈(1,2,…,M);xi表示第i个配对数据,i∈(1,2,…,N);yj表示第j个待配对数据;若Lu,j,i为1,则表示第i个配对数据被配对至第j个待配对数据,若Lu,j,i为0,则表示第i个配对数据未被配对至第j个待配对数据;g为预置的容差值。
8.根据权利要求7所述的装置,其特征在于,所述确定模块包括:
基于所述2T个种群中的每个种群的配对误差获取2T个种群中的每个种群的得分,其中,所述每个种群的得分通过将该种群的配对误差与所述2T个种群中的其余种群的配对误差进行比较得到;
基于所述2T个种群中的每个种群的得分,从所述2T个种群中确定P个种群;
基于所述P个种群中的每个种群的配对误差,获取P个种群中的每个种群的误差累加值,其中,所述每个种群的误差累加值通过将该种群中的K个待配对数据的配对误差进行累加得到;
基于所述P个种群中的每个种群的误差累加值,从所述P个种群中确定目标种群。
9.一种数据配对的装置,其特征在于,所述装置包括:
一个或一个以上中央处理器,存储器,输入输出接口,有线或无线网络接口,电源;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,在所述资源调度的装置上执行所述存储器中的指令操作以执行权利要求1至4中任意一项所述的方法。
10.一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至4中任意一项所述的方法。
CN202010467395.1A 2020-05-28 2020-05-28 一种数据配对的方法及其相关设备 Pending CN113806409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467395.1A CN113806409A (zh) 2020-05-28 2020-05-28 一种数据配对的方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467395.1A CN113806409A (zh) 2020-05-28 2020-05-28 一种数据配对的方法及其相关设备

Publications (1)

Publication Number Publication Date
CN113806409A true CN113806409A (zh) 2021-12-17

Family

ID=78943628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467395.1A Pending CN113806409A (zh) 2020-05-28 2020-05-28 一种数据配对的方法及其相关设备

Country Status (1)

Country Link
CN (1) CN113806409A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094086A2 (en) * 2002-05-02 2003-11-13 Biotech Research Ventures Pte Limited Analysis of gene expression data for multi-class prediction
CN106845627A (zh) * 2017-01-25 2017-06-13 中国银联股份有限公司 一种数据预测方法及装置
CN109446057A (zh) * 2018-09-12 2019-03-08 合肥工业大学 基于gde3算法的动态系统测试资源分配方法
CN109829544A (zh) * 2019-01-17 2019-05-31 南京邮电大学 一种基于逻辑回归和改进遗传算法的d2d节点配对方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094086A2 (en) * 2002-05-02 2003-11-13 Biotech Research Ventures Pte Limited Analysis of gene expression data for multi-class prediction
CN106845627A (zh) * 2017-01-25 2017-06-13 中国银联股份有限公司 一种数据预测方法及装置
CN109446057A (zh) * 2018-09-12 2019-03-08 合肥工业大学 基于gde3算法的动态系统测试资源分配方法
CN109829544A (zh) * 2019-01-17 2019-05-31 南京邮电大学 一种基于逻辑回归和改进遗传算法的d2d节点配对方法

Similar Documents

Publication Publication Date Title
CN109767150B (zh) 信息推送方法和装置
CN111666304B (zh) 数据处理装置、数据处理方法、存储介质与电子设备
CN106651232B (zh) 运单号数据分析方法及装置
CN113342750A (zh) 一种文件的数据比对方法、装置、设备及存储介质
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN107133289A (zh) 一种确定商圈的方法和装置
CN112765230B (zh) 基于互联网金融的支付大数据分析方法及大数据分析系统
CN112507098B (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN110390014A (zh) 一种主题挖掘方法、装置及存储介质
CN111967521A (zh) 跨境活跃用户识别方法及装置
Jin et al. Imputing dropouts for single-cell RNA sequencing based on multi-objective optimization
CN105359172A (zh) 计算企业存在拖欠的概率
CN114445124A (zh) 一种基于电力零售数据的用户分类方法及系统
CN110909212B (zh) 一种银行标识代码的匹配方法和设备
CN106776757A (zh) 用户完成网银操作的指示方法及装置
CN112016797B (zh) 基于knn的资源配额调整方法、装置和电子设备
CN113806409A (zh) 一种数据配对的方法及其相关设备
CN103136440A (zh) 数据处理方法和装置
CN109857816B (zh) 测试样本的选取方法及装置、存储介质、电子设备
CN110930181A (zh) 一种电力定价的方法及装置
CN114119069A (zh) 资源管理产品推荐方法及装置、电子设备、存储介质
CN115049446A (zh) 商户识别方法、装置、电子设备及计算机可读介质
CN112308583A (zh) 一种基于虚拟积分的医学平台管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination