CN116860890A - 一种通过联系方式构建数据库的方法及装置 - Google Patents
一种通过联系方式构建数据库的方法及装置 Download PDFInfo
- Publication number
- CN116860890A CN116860890A CN202310835647.5A CN202310835647A CN116860890A CN 116860890 A CN116860890 A CN 116860890A CN 202310835647 A CN202310835647 A CN 202310835647A CN 116860890 A CN116860890 A CN 116860890A
- Authority
- CN
- China
- Prior art keywords
- contact
- data
- time
- reliability
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 abstract description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及数据处理领域,具体提供了一种通过联系方式构建数据库的方法及装置,具有如下步骤:S1、主题库数据存储;S2、数据可信度计算;S3、数据更新和查询。与现有技术相比,本发明可以快速整合多种数据来源的联系方式,构建一个方便、高效的联系方式查询分析库,同时提供了一种合理的数据可信度计算方法,可以较好的标识数据是否可信,具有很好的参考价值。
Description
技术领域
本发明涉及数据处理领域,具体提供一种通过联系方式构建数据库的方法及装置。
背景技术
随着社会信息化的发展,联系方式数据不再局限于少数几种来源,而是拥有多种数据来源,这导致数据分布在多个数据表中,而且数据结构各异,对数据的查询和分析非常不便,比如快递、会员卡、租房、燃气缴费等等来源均存在联系方式。对于这种情况,如果要查询一个人的所有联系方式,需要去多个数据表进行查询,而且各个数据来源的可信度是不一样的,对于最终查询结果也没有一个可度量的值去判断数据的真实性。
因此构建联系方式主题库,将多种数据来源整合到一起,提供数据可信度的计算,对于本领域的技术人员进行查询分析是非常有帮助的。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强通过联系方式构建数据库的方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的通过联系方式构建数据库的装置。
本发明解决其技术问题所采用的技术方案是:
一种通过联系方式构建数据库的方法,具有如下步骤:
S1、主题库数据存储;
S2、数据可信度计算;
S3、数据更新和查询。
进一步的,在步骤S1中,使用列式存储数据库对主题库数据进行存储,以列的形式保存联系方式使用记录,一个人的某个联系方式的所有数据记录均存在一行数据中。
进一步的,在步骤S2中,进一步包括:
S201、对联系方式涉及到的资源进行可信度打分;
S202、在联系方式可信度的计算中需要加入时间因素;
S203、计算联系方式可信度方法。
进一步的,在步骤S201中,对联系方式涉及到的资源进行可信度打分,按照不同的类别,同一资源具有不同的可信度,需要按照类别进行资源可信度设置。
进一步的,在步骤S202中,在联系方式可信度的计算中需要加入时间因素,采用资源权重和时间系数相乘的方式进行计算,时间系数采用公式如下:
其中,t为联系方式记录业务时间距离当前时间的天数,参数T可以根据业务情况调整时间系数随时间变化的速度。
进一步的,在步骤S203中,设第i次记录对应的资源可信度为Si,业务时间对应的时间系数为yi,那么该次记录联系方式为不可信的概率为1-Siyi,由此得到对于联系方式可信概率,即可信度为:
其中,n为联系方式记录总数;
存在历史数据多次出现,而近期没有出现导致可信度偏高,需要对最终可信度进行修正,使用如下公式:
PF=Pyt;
其中,P为上述可信度计算结果,yt为联系方式最新使用时间的时间系数。
进一步的,在步骤S3中,根据步骤S2中可信度计算,定时对数据可信度进行全量更新,并提供数据的实时查询,使用最新数据对可信度进行计算。
一种通过联系方式构建数据库的装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种通过联系方式构建数据库的方法。
本发明的一种通过联系方式构建数据库的方法及装置和现有技术相比,具有以下突出的有益效果:
本发明可以快速整合多种数据来源的联系方式,构建一个方便、高效的联系方式查询分析库,同时提供了一种合理的数据可信度计算方法,可以较好的标识数据是否可信,具有很好的参考价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种通过联系方式构建数据库的方法中时间系数的变化曲线示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
本实施例中的一种通过联系方式构建数据库的方法,具有如下步骤:
S1、主题库数据存储;
使用列式存储数据库对主题库数据进行存储,以列的形式保存联系方式使用记录,一个人的某个联系方式的所有数据记录均存在一行数据中。
以HBASE为例设计如下表结构:
其中,[表名]@[原表主键]列记录联系方式来源库的业务记录,多条记录指多少列,一个人的某个联系方式的所有数据记录均存在一行数据中,ROWKEY使用身份证号作为前缀,方便HBASE检索,对于数据进行MD5编码,是为了避免某些特殊字符作为ROWKEY,比如中文地址。
S2、数据可信度计算;
进一步包括:
S201、对联系方式涉及到的资源进行可信度打分,按照不同的类别,同一资源具有不同的可信度,需要按照类别进行资源可信度设置。
S202、由于联系方式是具有时效性的,在联系方式可信度的计算中需要加入时间因素,本方法采用资源权重和时间系数相乘的方式进行计算,时间系数采用公式如下:
其中,t为联系方式使用记录业务时间距离当前时间的天数,参数T可以根据业务情况调整时间系数随时间变化的速度。
如图1所示,为T=10时的变化曲线,根据实际经验,对于联系方式可信度时效性来说,开始一段时间时效性不会有太大变化,超过一定时间后时效性会快速下降,直到最后趋于0,基本忽略。
S203、计算联系方式可信度方法;
设第i次记录对应的资源可信度为Si,其业务时间对应的时间系数为yi,那么该次记录联系方式为不可信的概率为1-Siyi,由此得到对于该联系方式可信概率,即可信度为:
其中,n为联系方式记录总数;
因为存在历史数据多次出现,而近期没有出现导致可信度偏高,需要对最终可信度进行修正,使用如下公式:
PF=Pyt
其中,P为上述可信度计算结果,yt为该联系方式最新使用时间的时间系数。
S3、数据更新和查询;
可信度计算会通过UPDATETIME或者存储库自身提供的更新时间戳进行增量更新,同时由于可信度计算依托于计算时间以及资源可信度配置,因此主题库除了根据业务需要定时对可信度进行全量更新外,同时提供实时查询,使用最新的配置和数据以及时间重新计算。通过该方法也可以自定义多种可信度计算公式,根据不同情况使用不同方法,以供用户参考。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明权利要求书记载的技术方案且任何所属技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种通过联系方式构建数据库的方法,其特征在于,具有如下步骤:
S1、主题库数据存储;
S2、数据可信度计算;
S3、数据更新和查询。
2.根据权利要求1所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S1中,使用列式存储数据库对主题库数据进行存储,以列的形式保存联系方式使用记录,一个人的某个联系方式的所有数据记录均存在一行数据中。
3.根据权利要求2所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S2中,进一步包括:
S201、对联系方式涉及到的资源进行可信度打分;
S202、在联系方式可信度的计算中需要加入时间因素;
S203、计算联系方式可信度方法。
4.根据权利要求3所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S201中,对联系方式涉及到的资源进行可信度打分,按照不同的类别,同一资源具有不同的可信度,需要按照类别进行资源可信度设置。
5.根据权利要求4所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S202中,在联系方式可信度的计算中需要加入时间因素,采用资源权重和时间系数相乘的方式进行计算,时间系数采用公式如下:
其中,t为联系方式记录业务时间距离当前时间的天数,参数T可以根据业务情况调整时间系数随时间变化的速度。
6.根据权利要求5所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S203中,设第i次记录对应的资源可信度为Si,业务时间对应的时间系数为yi,那么该次记录联系方式为不可信的概率为1-Siyi,由此得到对于联系方式可信概率,即可信度为:
其中,n为联系方式记录总数;
存在历史数据多次出现,而近期没有出现导致可信度偏高,需要对最终可信度进行修正,使用如下公式:
PF=Pyt;
其中,P为上述可信度计算结果,yt为联系方式最新使用时间的时间系数。
7.根据权利要求6所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S3中,根据步骤S2中可信度计算,定时对数据可信度进行全量更新,并提供数据的实时查询,使用最新数据对可信度进行计算。
8.一种通过联系方式构建数据库的装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310835647.5A CN116860890A (zh) | 2023-07-10 | 2023-07-10 | 一种通过联系方式构建数据库的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310835647.5A CN116860890A (zh) | 2023-07-10 | 2023-07-10 | 一种通过联系方式构建数据库的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116860890A true CN116860890A (zh) | 2023-10-10 |
Family
ID=88226492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310835647.5A Pending CN116860890A (zh) | 2023-07-10 | 2023-07-10 | 一种通过联系方式构建数据库的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860890A (zh) |
-
2023
- 2023-07-10 CN CN202310835647.5A patent/CN116860890A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8370366B2 (en) | Method and system for comparing attributes such as business names | |
US8332366B2 (en) | System and method for automatic weight generation for probabilistic matching | |
CA2701043C (en) | Method and system for associating data records in multiple languages | |
JP4866421B2 (ja) | ユーザの自己修正する検索動作の分析により検索文字列の代替スペルを特定する方法 | |
CN105117396B (zh) | 协同操作数据的方法和系统 | |
US20120303627A1 (en) | Responding to a query in a data processing system | |
CN109657074B (zh) | 基于地址树的新闻知识图谱构建方法 | |
US20080243832A1 (en) | Method and System for Parsing Languages | |
US20220171753A1 (en) | Matching Non-exact Addresses | |
WO2010003061A1 (en) | Database systems and methods | |
US8700654B2 (en) | Dynamic spelling correction of search queries | |
CN106407360B (zh) | 一种数据的处理方法及装置 | |
US20230061746A1 (en) | Managing hierarchical data structures for entity matching | |
WO2017091519A1 (en) | Identifying query patterns and associated aggregate statistics among search queries | |
CN106897340A (zh) | 一种数据表更新方法及装置 | |
EP3304347A1 (en) | Joining semantically-related data using big table corpora | |
US20230145179A1 (en) | User connection degree measurement | |
US20210279290A1 (en) | Tochenized cache | |
US20220358178A1 (en) | Data query method, electronic device, and storage medium | |
US20080005077A1 (en) | Encoded version columns optimized for current version access | |
CN111950267B (zh) | 文本三元组的抽取方法及装置、电子设备及存储介质 | |
CN102915313A (zh) | 网络搜索中的纠错关系生成方法及系统 | |
WO2014191719A1 (en) | Datasets profiling tools, methods, and systems | |
CN116860890A (zh) | 一种通过联系方式构建数据库的方法及装置 | |
Zheng et al. | INSPIRE: A framework for incremental spatial prefix query relaxation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |