CN111078959A - 一种数据匹配方法、装置、电子设备和存储介质 - Google Patents
一种数据匹配方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111078959A CN111078959A CN201911299220.8A CN201911299220A CN111078959A CN 111078959 A CN111078959 A CN 111078959A CN 201911299220 A CN201911299220 A CN 201911299220A CN 111078959 A CN111078959 A CN 111078959A
- Authority
- CN
- China
- Prior art keywords
- feature data
- feature
- data set
- data
- identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据匹配方法、装置、电子设备和存储介质,该方法包括获取关于目标用户的查询请求,该查询请求携带有目标用户的身份标识以及查询类别;根据查询类别和身份标识查找目标用户的对应类别的特征数据集合,特征数据集合包括目标用户的多个对应类别的特征数据;根据特征数据集合中每一特征数据的特征信息计算每一特征数据与身份标识的匹配度;将特征数据集合中匹配度最高的特征数据与目标用户的身份标识进行匹配。
Description
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种数据匹配方法、装置、电子设备和存储介质。
背景技术
现实生活中,每个人在办理业务时,都会被要求强制做一下信息登记,比如去银行办理业务,会提交真实的身份证、手机号、银行卡号、联系方式、住宿地址等等;去网吧上网也会登记身份证和手机号;以及路边发传单的,有时都会被随手拦下来,登记下姓名和手机号。这些数据中,有些填的一定是比较真实的信息,比如去银行办理业务,有的可能完全是假的信息,比如路边发传单登记,可能就随手一填;所以就需要一种技术或者是方法来帮助我们找到比较真实的对应关系。
现有的方式一般是通过直接查询的方式,例如,认为银行的数据最准确,直接通过输入用户的身份证号码来查找银行数据中对应的手机号都有哪些,选择一个出现次数最多的手机号作为该用户比较真实的手机号,但这样的方式得到的最终结果也存在着准确度不高的问题。
发明内容
本申请实施例的目的在于提供一种数据匹配方法、装置、电子设备和存储介质,用以解决目前通过直接查询的方式确定用户对应的真实性数据存在的准确度不高的问题。
第一方面,实施例提供一种数据匹配方法,所述方法包括:获取关于目标用户的查询请求,所述查询请求携带有所述目标用户的身份标识以及查询类别;根据查询类别和所述身份标识查找所述目标用户的对应类别的特征数据集合,所述特征数据集合包括所述目标用户的多个对应类别的特征数据;根据所述特征数据集合中每一所述特征数据的特征信息计算每一所述特征数据与所述身份标识的匹配度;将所述特征数据集合中匹配度最高的特征数据与所述目标用户的身份标识进行匹配。
在上述设计的数据匹配方法中,通过目标用户的身份标识和查询类别查找该目标用户对应类别的特征数据集合,进而根据特征数据集合中每个特征数据的特征信息计算每个特征数据与该身份标识的匹配度,进而将匹配度最高的特征数据与该目标用户的身份标识进行匹配,由于对每一特征数据的匹配度进行计算,进而根据匹配度进行特征数据筛选,将匹配度最高也就是真实性比较高的数据与目标用户的身份标识匹配,提高了目标用户特征数据的准确度,解决了目前通过直接查询的方式确定用户对应的真实性数据存在的准确度不高的问题。
在第一方面的可选实施方式中,所述每一所述特征数据的特征信息包括每一所述特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源,所述根据所述特征数据集合中每一所述特征数据的特征信息计算每一所述特征数据与所述身份标识的匹配度,包括:获取每一特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源;根据所述每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据与所述身份标识的匹配度。
在第一方面的可选实施方式中,所述根据所述每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据的匹配度,包括:根据所述每一特征数据的出现频次计算每一特征数据在所述特征数据集合中的出现概率;根据每一特征数据的出现时间计算每一特征数据在所述特征数据集合中的鲜活度;根据每一特征数据的数据来源计算每一特征数据在所述特征数据集合中的置信度;根据每一特征数据的数据来源和出现频次计算每一特征数据在所述特征数据集合中的活跃度;根据每一特征数据在所述特征数据集合中的出现概率、活跃度、置信度以及鲜活度计算每一特征数据与所述身份标识的匹配度。
在第一方面的可选实施方式中,计算匹配度的公式L为:L=a×TF+b×DF+c×FD+d×CL;其中,a、b、c、d为权重,a+b+c+d=1;TF为每一特征数据在所述特征数据集合中的出现概率;DF为活跃度;FD为置信度;CL为鲜活度。
在第一方面的可选实施方式中,在所述获取关于目标用户的查询请求之前,所述方法还包括:获取多个用户中每个用户对应的身份标识以及每个用户对应的多个不同的特征数据;对每个用户对应的特征数据进行数据来源、出现时间以及类别进行标注,将同一类别的特征数据归为一个特征数据集合,并对该特征数据集合的类别进行标注;建立标注后的每个特征数据集合与查询类别以及对应用户的身份标识的映射关系并存储在数据库中。
第二方面,实施例提供一种数据匹配装置,所述装置包括:获取模块,用于获取关于目标用户的查询请求,所述查询请求携带有所述目标用户的身份标识以及查询类别;查找模块,用于根据查询类别和所述身份标识查找所述目标用户的对应类别的特征数据集合,所述特征数据集合包括所述目标用户的多个对应类别的特征数据;计算模块,用于根据所述特征数据集合中每一所述特征数据的特征信息计算每一所述特征数据与所述身份标识的匹配度;匹配模块,用于将所述特征数据集合中匹配度最高的特征数据与所述目标用户的身份标识进行匹配。
在上述设计的数据匹配装置中,通过目标用户的身份标识和查询类别查找该目标用户对应类别的特征数据集合,进而根据特征数据集合中每个特征数据的特征信息计算每个特征数据与该身份标识的匹配度,进而将匹配度最高的特征数据与该目标用户的身份标识进行匹配,由于对每一特征数据的匹配度进行计算,进而根据匹配度进行特征数据筛选,将匹配度最高也就是真实性最高的数据与目标用户的身份标识匹配,提高了目标用户特征数据的准确度,解决了目前通过直接查询的方式确定用户对应的真实性数据存在的准确度不高的问题。
在第二方面的可选实施方式中,所述每一所述特征数据的特征信息包括每一所述特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源,所述计算模块,具体用于获取每一特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源;根据所述每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据与所述身份标识的匹配度。
在第二方面的可选实施方式中,所述计算模块具体用于根据所述每一特征数据的出现频次计算每一特征数据在所述特征数据集合中的出现概率;根据每一特征数据的出现时间计算每一特征数据在所述特征数据集合中的鲜活度;根据每一特征数据的数据来源计算每一特征数据在所述特征数据集合中的置信度;根据每一特征数据的数据来源和出现频次计算每一特征数据在所述特征数据集合中的活跃度;根据每一特征数据在所述特征数据集合中的出现概率、活跃度、置信度以及鲜活度计算每一特征数据与所述身份标识的匹配度。
第三方面,实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行第一方面、第一方面的任一可选的实现方式中的所述方法。
第四方面,实施例提供一种非暂态可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时执行第一方面、第一方面的任一可选的实现方式中的所述方法。
第五方面,实施例提供了一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面、第一方面的任一可选的实现方式中的所述方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请第一实施例提供的数据匹配方法第一流程图;
图2为本申请第一实施例提供的数据匹配方法第二流程图;
图3为本申请第一实施例提供的数据匹配方法第三流程图;
图4为本申请第一实施例提供的数据匹配方法第四流程图;
图5为本申请第二实施例提供的数据匹配装置结构图;
图6为本申请第三实施例提供的电子设备结构图。
图标:200-获取模块;202-查找模块;204-计算模块;206-匹配模块;208-标注模块;210-建立模块;3-电子设备;301-处理器;302-存储器;303-通信总线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
第一实施例
如图1所示,本申请提供一种数据匹配方法,该方法可应用于服务器,该方法具体包括如下步骤:
步骤S100:获取关于目标用户的查询请求,该查询请求携带有该目标用户的身份标识以及查询类别。
步骤S102:根据查询类别和身份标识查找该目标用户的对应类别的特征数据集合,该特征数据集合包括目标用户的多个对应类别的特征数据。
步骤S104:根据特征数据集合中每一特征数据的特征信息计算每一特征数据与该身份标识的匹配度。
步骤S106:将特征数据集合中匹配度最高的特征数据与目标用户进行匹配。
在步骤S100中,该目标用户的身份标识可为该目标用户的身份证号码或该目标用户的驾驶证号码;该查询类别可为需要查找的该目标用户的特征数据的类别,例如,查询该目标用户的手机号、银行卡号、车牌号以及公交卡号等,其中,手机号、银行卡号、车牌号以及公交卡号就表示为该查询类别;查询人可通过终端设备(例如电脑或手机)输入该目标用户的身份标识和查询类别进而向本服务器发送查询请求,服务器获取到关于该目标用户的查询请求之后,执行步骤S102根据查询类别和身份标识查找该目标用户的对应类别的特征数据集合。
在步骤S102中服务器首先可根据该目标用户的身份标识查找到该目标用户的多种类别的特征数据集合,进而根据查询的类别来查找到对应类别的特征数据集合,其中,特征数据集合中包含该目标用户的多个对应类别的特征数据,每个特征数据表示为具有相同特征的数据,例如同一手机号码或同一车牌号码等;每一类别的特征数据可提前采集并收集在一个特征数据集合中,进而将得到的多个特征数据集合存储在服务器对应的数据库中,以便在步骤S102查询时进行数据调用。例如,获取到的查询请求中的身份标识为目标用户A的身份证号码,查询请求中的查询类别为手机号,在此基础上服务器首先根据该目标用户A的身份证号码查找到该目标用户A对应的多种类别的特征数据集合(如手机号码集合、银行卡号集合等),进而根据查询类别-手机号码,查找到该目标用户A对应的手机号码集合,其中,该手机号码集合中包含了多个手机号码,该多个手机号码表示该目标用户A曾经使用过或在一些信息登记或采集时留下的手机号码。另外,这里需要说明的是,该查询请求中的查询类别可不止于一种查询类别,同时查询多种查询类别的方式也在本方案限定的范围内。在步骤S102服务器查找获得目标用户对应类别的特征数据集合中的多个特征数据之后,执行步骤S104根据特征数据集合中每一特征数据的特征信息计算每一特征数据与身份标识的匹配度。
在步骤S104中,由于每个特征数据表示为具有相同特征的数据,因此该特征数据集合中的每一特征数据的特征信息表示为该特征数据集合中相同特征的数据的特征信息,例如,该手机号码集合中包含了多个手机号码,每一特征数据的特征信息即表示为同一手机号码的特征信息。该特征信息包括该相同特征的数据的出现频次、出现时间以及数据来源。计算每一特征数据与该目标用户的身份标识的匹配度表示为计算出每个特征数据与该目标用户的身份标识的匹配度,进而执行步骤S106将该特征数据集合中匹配度最高的特征数据与该目标用户的身份标识进行匹配表示该匹配度最高的特征数据为该目标用户真实性比较高的特征数据。例如,在手机号码集合中计算出某一手机号码与该目标用户的身份标识的匹配度最高,那么则表示该手机号码为该目标用户真实性比较高的手机号码。
在上述设计的数据匹配方法中,通过目标用户的身份标识和查询类别查找该目标用户对应类别的特征数据集合,进而根据特征数据集合中每个特征数据的特征信息计算每个特征数据与该身份标识的匹配度,进而将匹配度最高的特征数据与该目标用户的身份标识进行匹配,由于对每一特征数据的匹配度进行计算,进而根据匹配度进行特征数据筛选,将匹配度最高也就是真实性比较高的数据与目标用户的身份标识匹配,提高了目标用户特征数据的准确度,解决了目前通过直接查询的方式确定用户对应的真实性数据存在的准确度不高的问题。
在本实施例的可选实施方式中,前述对特征数据的特征信息已经描述了该特征信息包含每一特征数据在特征数据集合中的出现频次、出现时间以及数据来源,而特征数据表示为具有相同特征的数据,在此基础上,步骤S104根据特征数据集合中每一特征数据的特征信息计算每一特征数据与身份标识的匹配度,如图2所示,具体包括如下步骤:
步骤S1040:获取每一特征数据在特征数据集合中的出现频次、出现时间以及数据来源。
步骤S1042:根据每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据与身份标识的匹配度。
在步骤S1040中,每一具有相同特征的数据也就是特征数据在该特征数据集合中的出现频次可通过服务器在该特征数据集合中统计每一具有相同特征的数据的出现次数获得。例如,在手机号码集合中统计每一相同手机号码在该手机号码集合中出现的次数,进而获得每一相同手机号码出现的频次。数据来源表示为每一特征数据的来源,其中,来源可为驾驶证信息表、快递物品投递信息表、流动人口登记表、电子监控信息表、机动车信息表、常住人口信息表、在押人员信息表、旅馆信息表、涉案人员表、接警单表、财产保险投保信息表、电力用户信息表、住房公积金信息表、公交车刷卡信息表、房屋权属信息表等等;并且可在特征数据集合中获取到每一个数据(不管是否具有相同特征)的出现时间,例如,以前述的数据来源的例子为例,出现时间可谓前述这些信息表中填写的登记时间。在得到上述所说的出现频次、出现时间以及数据来源之后,进而执行步骤S1042根据每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据与身份标识的匹配度。
如图3所示,步骤S1042具体可以包括如下步骤:
步骤S10420:根据每一特征数据的出现频次计算每一特征数据在特征数据集合中的出现概率。
步骤S10422:根据每一特征数据的出现时间计算每一特征数据在特征数据集合中的鲜活度。
步骤S10424:根据每一特征数据的数据来源计算每一特征数据在特征数据集合中的置信度。
步骤S10426:根据每一特征数据的数据来源和出现频次计算每一特征数据在特征数据集合中的活跃度。
步骤S10428:根据每一特征数据在特征数据集合中的出现概率、活跃度、置信度以及鲜活度计算每一特征数据与身份标识的匹配度。
在步骤S10420中每一特征数据在特征数据集合中的出现概率可以理解为每一特征数据的实体频次,也就是说具有相同特征的数据在该特征数据集合中的出现频次越高也就是其出现概率越高,那么该特征数据就越有可能为比较真实的特征数据。例如,同一手机号码在该手机号码集合中的出现次数越多,那么说明该手机号码为该目标用户的真实手机号码的概率越高。因此可以基于特征数据的出现频次来确定该特征数据的出现概率。
在步骤S10422中特征数据集合中的每一数据都有出现时间,而出现时间的先后代表了这个数据的鲜活度值的高低,出现时间离目前越近代表鲜活度越高,出现时间离目前越远代表鲜活度越低。例如,一个是最近时间的数据,一个是十年前的数据,那么肯定最近的数据最接近事实,鲜活度高。因此,可以基于特征数据的出现时间来确定该特征数据的鲜活度高低。
在步骤S10424中特征数据集合中的每个特征数据都来自于各种来源,而不同的来源置信度的高低也不同。例如,一条数据从银行业务中拿到的数据,另一个是路边发传单采集到的信息,那么肯定是银行业务数据比较可信,进而来源于银行业务的数据的置信度高。通过上述方式可确定出每一特征数据的置信度。
在步骤S10426中,活跃度是从跨表种类上来表明来源是多个表,比如这个特征数据来源于银行业务,同时手机业务也是其来源,新常住人口登记也是该特征数据的来源,说明该特征数据在多个来源信息间活跃,因此活跃度高。通过上述方式可确定出每一特征数据的活跃度。
在上述步骤的基础上执行步骤S10428根据每一特征数据在特征数据集合中的出现概率、活跃度、置信度以及鲜活度计算每一特征数据与身份标识的匹配度,其中,其具体的计算方式可为给出现概率、活跃度、置信度以及鲜活度分别分配一个权重,进而将出现概率、活跃度、置信度以及鲜活度与对应权重的乘积相加得到最终的匹配度。具体的,计算匹配度的公式L为:
L=a×TF+b×DF+c×FD+d×CL;
其中,a、b、c、d为权重,a+b+c+d=1;TF为每一特征数据在所述特征数据集合中的出现概率;DF为活跃度;FD为置信度;CL为鲜活度。
在本实施例的可选实施方式中,在步骤S100获取关于目标用户的查询请求之前,如图4所示,该方法还包括:
步骤S90:获取多个用户中每个用户对应的身份标识以及每个用户对应的多个不同的特征数据。
步骤S92:对每个用户对应的特征数据进行数据来源、出现时间以及类别进行标注,将同一类别的特征数据归为一个特征数据集合,并对该特征数据集合的类别进行标注。
步骤S94:建立标注后的每个特征数据集合与查询类别以及对应用户的身份标识的映射关系并存储在数据库中。
在步骤S90中获取多个用户中每个用户对应的身份标识以及每个用户对应的多个不同的特征数据的方式可通过用户收集多个用户的信息采集表,进而每个用户信息采集表中的特征数据一一录入服务器中,也可以通过文本提取的方式来对信息采集表中的特征数据进行数据提取,进而获得每个用户对应的多个不同的特征数据,进而执行步骤S92。
在步骤S92中,可对服务器获取到的多个特征数据进行一一标注,标注每个特征数据的来源、每个特征数据的出现时间以及类别,将同一类别的特征数据归为一个特征数据集合,并基于该类别对该特征数据集合进行类别标注,例如,将所有的手机号码归为一个手机号码集合,进而对该集合打上标注“手机号码”,在上述操作的基础上执行步骤S94。
在步骤S94中,在将同类的特征数据归为特征数据集合并对该特征数据集合进行类别标注之后,将标注后的每个特征数据集合与对应的查询类别相关联,也就是说通过查询类别即可查找到对应的特征数据集合,例如,在对手机号码集合打上标注“手机号码”之后,还需要将“手机号码”与查询类别手机号码关联,进而通过输入查询类别即可查找到对应的特征数据集合,并且需要将同一用户的所有特征数据集合与该用户的身份标识相关联,使得通过该用户的身份标识可以查找到该用户对应得到所有特征数据集合。
第二实施例
图5出示了本申请提供的数据匹配装置的示意性结构框图,应理解,该装置与上述图1至图4中的方法实施例对应,能够执行第一实施例中服务器执行的方法涉及的步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。具体地,该装置包括:获取模块200,用于获取关于目标用户的查询请求,该查询请求携带有目标用户的身份标识以及查询类别;查找模块202,用于根据查询类别和身份标识查找目标用户的对应类别的特征数据集合,该特征数据集合包括目标用户的多个对应类别的特征数据;计算模块204,用于根据特征数据集合中每一特征数据的特征信息计算每一特征数据与身份标识的匹配度;匹配模块206,用于将特征数据集合中匹配度最高的特征数据与目标用户的身份标识进行匹配。
在上述设计的数据匹配装置中,通过目标用户的身份标识和查询类别查找该目标用户对应类别的特征数据集合,进而根据特征数据集合中每个特征数据的特征信息计算每个特征数据与该身份标识的匹配度,进而将匹配度最高的特征数据与该目标用户的身份标识进行匹配,由于对每一特征数据的匹配度进行计算,进而根据匹配度进行特征数据筛选,将匹配度最高也就是真实性比较高的数据与目标用户的身份标识匹配,提高了目标用户特征数据的准确度,解决了目前通过直接查询的方式确定用户对应的真实性数据存在的准确度不高的问题。
在本实施例的可选实施方式中,每一特征数据的特征信息包括每一特征数据在特征数据集合中的出现频次、出现时间以及数据来源,计算模块204,具体用于获取每一特征数据在特征数据集合中的出现频次、出现时间以及数据来源;根据每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据与身份标识的匹配度。
在本实施例的可选实施方式中,计算模块204具体用于根据每一特征数据的出现频次计算每一特征数据在特征数据集合中的出现概率;根据每一特征数据的出现时间计算每一特征数据在特征数据集合中的鲜活度;根据每一特征数据的数据来源计算每一特征数据在特征数据集合中的置信度;根据每一特征数据的数据来源和出现频次计算每一特征数据在特征数据集合中的活跃度;根据每一特征数据在特征数据集合中的出现概率、活跃度、置信度以及鲜活度计算每一特征数据与身份标识的匹配度。
在本实施例的可选实施方式中,获取模块200,还用于获取多个用户中每个用户对应的身份标识以及每个用户对应的多个不同的特征数据;标注模块208,用于对每个用户对应的特征数据进行数据来源、出现时间以及类别进行标注,将同一类别的特征数据归为一个特征数据集合,并对该特征数据集合的类别进行标注;建立模块210,用于建立标注后的每个特征数据集合与查询类别以及对应用户的身份标识的映射关系并存储在数据库中。
第三实施例
如图6所示,本申请提供一种电子设备3,包括:处理器301和存储器302,处理器301和存储器302通过通信总线303和/或其他形式的连接机构(未标出)互连并相互通讯,存储器302存储有处理器301可执行的计算机程序,当计算设备运行时,处理器301执行该计算机程序,以执行时执行第一实施例、第一实施例的任一可选的实现方式中的方法,例如步骤S100~步骤S106:获取关于目标用户的查询请求,该查询请求携带有该目标用户的身份标识以及查询类别;根据查询类别和身份标识查找该目标用户的对应类别的特征数据集合,该特征数据集合包括目标用户的多个对应类别的特征数据;根据特征数据集合中每一特征数据的特征信息计算每一特征数据与该身份标识的匹配度;将特征数据集合中匹配度最高的特征数据与目标用户进行匹配。
本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一实施例、第一实施例的任一可选的实现方式中的方法。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行第一实施例、第一实施例的任一可选的实现方式中的所述方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据匹配方法,其特征在于,所述方法包括:
获取关于目标用户的查询请求,所述查询请求携带有所述目标用户的身份标识以及查询类别;
根据查询类别和所述身份标识查找所述目标用户的对应类别的特征数据集合,所述特征数据集合包括所述目标用户的多个对应类别的特征数据;
根据所述特征数据集合中每一所述特征数据的特征信息计算每一所述特征数据与所述身份标识的匹配度;
将所述特征数据集合中匹配度最高的特征数据与所述目标用户的身份标识进行匹配。
2.根据权利要求1所述方法,其特征在于,所述每一所述特征数据的特征信息包括每一所述特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源,所述根据所述特征数据集合中每一所述特征数据的特征信息计算每一所述特征数据与所述身份标识的匹配度,包括:
获取每一特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源;
根据所述每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据与所述身份标识的匹配度。
3.根据权利要求2所述方法,其特征在于,所述根据所述每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据的匹配度,包括:
根据所述每一特征数据的出现频次计算每一特征数据在所述特征数据集合中的出现概率;
根据每一特征数据的出现时间计算每一特征数据在所述特征数据集合中的鲜活度;
根据每一特征数据的数据来源计算每一特征数据在所述特征数据集合中的置信度;
根据每一特征数据的数据来源和出现频次计算每一特征数据在所述特征数据集合中的活跃度;
根据每一特征数据在所述特征数据集合中的出现概率、活跃度、置信度以及鲜活度计算每一特征数据与所述身份标识的匹配度。
4.根据权利要求3所述方法,其特征在于,计算匹配度的公式L为:
L=a×TF+b×DF+c×FD+d×CL;
其中,a、b、c、d为权重,a+b+c+d=1;TF为每一特征数据在所述特征数据集合中的出现概率;DF为活跃度;FD为置信度;CL为鲜活度。
5.根据权利要求1所述方法,其特征在于,在所述获取关于目标用户的查询请求之前,所述方法还包括:
获取多个用户中每个用户对应的身份标识以及每个用户对应的多个不同的特征数据;
对每个用户对应的特征数据进行数据来源、出现时间以及类别进行标注,将同一类别的特征数据归为一个特征数据集合,并对该特征数据集合的类别进行标注;
建立标注后的每个特征数据集合与查询类别以及对应用户的身份标识的映射关系并存储在数据库中。
6.一种数据匹配装置,其特征在于,所述装置包括:
获取模块,用于获取关于目标用户的查询请求,所述查询请求携带有所述目标用户的身份标识以及查询类别;
查找模块,用于根据查询类别和所述身份标识查找所述目标用户的对应类别的特征数据集合,所述特征数据集合包括所述目标用户的多个对应类别的特征数据;
计算模块,用于根据所述特征数据集合中每一所述特征数据的特征信息计算每一所述特征数据与所述身份标识的匹配度;
匹配模块,用于将所述特征数据集合中匹配度最高的特征数据与所述目标用户的身份标识进行匹配。
7.根据权利要求6所述装置,其特征在于,所述每一所述特征数据的特征信息包括每一所述特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源,所述计算模块,具体用于获取每一特征数据在所述特征数据集合中的出现频次、出现时间以及数据来源;根据所述每一特征数据的出现频次、出现时间以及数据来源计算每一特征数据与所述身份标识的匹配度。
8.根据权利要求7所述装置,其特征在于,所述计算模块具体用于根据所述每一特征数据的出现频次计算每一特征数据在所述特征数据集合中的出现概率;
根据每一特征数据的出现时间计算每一特征数据在所述特征数据集合中的鲜活度;
根据每一特征数据的数据来源计算每一特征数据在所述特征数据集合中的置信度;
根据每一特征数据的数据来源和出现频次计算每一特征数据在所述特征数据集合中的活跃度;
根据每一特征数据在所述特征数据集合中的出现概率、活跃度、置信度以及鲜活度计算每一特征数据与所述身份标识的匹配度。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299220.8A CN111078959A (zh) | 2019-12-16 | 2019-12-16 | 一种数据匹配方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299220.8A CN111078959A (zh) | 2019-12-16 | 2019-12-16 | 一种数据匹配方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111078959A true CN111078959A (zh) | 2020-04-28 |
Family
ID=70314926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911299220.8A Pending CN111078959A (zh) | 2019-12-16 | 2019-12-16 | 一种数据匹配方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078959A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014106310A1 (de) * | 2014-05-06 | 2015-11-12 | Bundesdruckerei Gmbh | Vertrauensniveauberechnung mit attributspezifischen Funktionen |
CN107784111A (zh) * | 2017-11-06 | 2018-03-09 | 北京锐安科技有限公司 | 数据挖掘方法、装置、设备及存储介质 |
CN109582906A (zh) * | 2018-11-30 | 2019-04-05 | 北京锐安科技有限公司 | 数据可靠度的确定方法、装置、设备和存储介质 |
CN110557466A (zh) * | 2019-09-11 | 2019-12-10 | 北京明略软件系统有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
-
2019
- 2019-12-16 CN CN201911299220.8A patent/CN111078959A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014106310A1 (de) * | 2014-05-06 | 2015-11-12 | Bundesdruckerei Gmbh | Vertrauensniveauberechnung mit attributspezifischen Funktionen |
CN107784111A (zh) * | 2017-11-06 | 2018-03-09 | 北京锐安科技有限公司 | 数据挖掘方法、装置、设备及存储介质 |
CN109582906A (zh) * | 2018-11-30 | 2019-04-05 | 北京锐安科技有限公司 | 数据可靠度的确定方法、装置、设备和存储介质 |
CN110557466A (zh) * | 2019-09-11 | 2019-12-10 | 北京明略软件系统有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106384273B (zh) | 恶意刷单检测系统及方法 | |
CN106503006B (zh) | 应用App中子应用的排序方法及装置 | |
CN109063108B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
US7627550B1 (en) | Method and system for comparing attributes such as personal names | |
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
CN103064838B (zh) | 数据搜索方法和装置 | |
CN107330752B (zh) | 识别品牌词的方法和装置 | |
CN110795584B (zh) | 一种用户标识生成方法、装置及终端设备 | |
CN106997431B (zh) | 一种数据处理方法及装置 | |
CN108304426B (zh) | 标识的获取方法及装置 | |
US20080147588A1 (en) | Method for discovering data artifacts in an on-line data object | |
CN110442791B (zh) | 数据推送方法和系统 | |
CN109064343B (zh) | 风险模型建立方法、风险匹配方法、装置、设备及介质 | |
CN111899822A (zh) | 医疗机构数据库构建方法、查询方法、装置、设备和介质 | |
CN111367956A (zh) | 数据统计方法及装置 | |
CN111078959A (zh) | 一种数据匹配方法、装置、电子设备和存储介质 | |
CN110688463A (zh) | 企业名单的处理方法及其装置 | |
CN115905885A (zh) | 数据识别方法、设备、存储介质及程序产品 | |
CN113434770B (zh) | 电子商务与大数据结合的业务画像分析方法及系统 | |
CN114648010A (zh) | 数据表标准化方法、装置、设备及计算机存储介质 | |
CN114610955A (zh) | 一种智能检索方法、装置、电子设备及存储介质 | |
CN111143545A (zh) | 保险数据获取方法及装置、电子设备、计算机存储介质 | |
US20170083607A1 (en) | Extending a classification database by user interactions | |
CN108268545A (zh) | 一种分级的用户标签库的创建的方法和装置 | |
CN113868373A (zh) | 一种词云生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |