CN111125102B - 一种基于索引数据的数据查询方法及装置 - Google Patents

一种基于索引数据的数据查询方法及装置 Download PDF

Info

Publication number
CN111125102B
CN111125102B CN201911299898.6A CN201911299898A CN111125102B CN 111125102 B CN111125102 B CN 111125102B CN 201911299898 A CN201911299898 A CN 201911299898A CN 111125102 B CN111125102 B CN 111125102B
Authority
CN
China
Prior art keywords
data
confidence
data query
fusion
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911299898.6A
Other languages
English (en)
Other versions
CN111125102A (zh
Inventor
于春蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911299898.6A priority Critical patent/CN111125102B/zh
Publication of CN111125102A publication Critical patent/CN111125102A/zh
Application granted granted Critical
Publication of CN111125102B publication Critical patent/CN111125102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于索引数据的数据查询方法及装置,涉及数据处理技术领域,该方法包括:根据接收到的数据查询请求确定索引数据;匹配索引数据对应的融合记录集合;根据融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合;根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果。可见,实施这种实施方式,能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。

Description

一种基于索引数据的数据查询方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种基于索引数据的数据查询方法及装置。
背景技术
随着经济的高速发展,城市化的进程也越来越快,这也使得城市人员流动量随之变大,从而导致了越来越多的人员管理问题出现在大众的眼前。而对于目前的这种人员管理问题,相关部门通常会派遣大量的人力对每个人员进行数据排查,以保证人员管理不会出现任何偏差。然而,在实践中发现,目前的这种人员管理问题的解决方式会耗费大量的人力物力,同时还具有较高的解决复杂度和较低的稳定性,从而导致该方式并不利于长久使用。
发明内容
本申请实施例的目的在于提供一种基于索引数据的数据查询方法及装置,能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。
本申请实施例第一方面提供了一种基于索引数据的数据查询方法,包括:
根据接收到的数据查询请求确定索引数据;
匹配所述索引数据对应的融合记录集合;
根据所述融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合;
根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果。
在上述实现过程中,该方法可以优先根据用户输入的数据查询请求来确定索引数据,如身份证号等用于检索的索引数据;然后根据该索引数据在数据库中匹配与索引数据相对应的融合记录集合,该融合记录集合可以包括多个与索引数据对应的关联数据,以及关联数据相关的所有记录,其中,每个关联数据的相关及记录的集合可以称之为一个融合记录;然后,再根据融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合,其中,该置信度集合对应多个融合记录,具体的对应多个关联数据;并在最后,根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果。可见,实施这种实施方式,能够根据数据查询请求来进行一系列的查询辅助工作,以使数据查询结果可以根据索引数据进行简洁、准确地获取,从而能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。
进一步地,所述根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果的步骤之后,所述方法包括:
获取所述数据查询结果对应的溯源信息;
添加所述溯源信息至所述数据查询结果中,得到新的数据查询结果。
在上述实现过程中,该方法可以在获取到数据查询结果的步骤之后,获取数据查询结果对应的溯源信息;然后,添加溯源信息至数据查询结果中,得到新的数据查询结果。可见,实施这种实施方式,能够在原有的数据查询结果中添加溯源结果,以使数据查询结果可以被溯源查询得到,从而保证的数据查询结果的有效性。
进一步地,所述匹配所述索引数据对应的融合记录集合的步骤包括:
匹配所述索引数据对应的关联数据集合;
获取所述关联数据集合中每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息;
融合所述每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息,得到融合记录集合。
在上述实现过程中,该方法在获取融合记录集合的过程中,可以优先匹配索引数据对应的关联数据集合;然后再获取关联数据集合中每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息;最后,再融合每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息,得到融合记录集合。可见,实施这种实施方式,融合记录集合的获取可以根据单表频率信息、跨表频率信息以及间隔时间信息三个方面进行获取,从而保证关联数据的数据丰富度,有利于后续的数据查询,从而通过大量数据的佐证提高数据的查询精度。
进一步地,所述根据所述融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合的步骤包括:
根据所述融合记录集合和预设的融合权重集合进行加权计算,得到融合分数集合;
根据所述融合分数集合和预设的置信度计算公式进行置信度计算,得到置信度集合。
在上述实现过程中,该方法获取置信度集合的过程中,可以优先根据融合记录集合和预设的融合权重集合进行加权计算,得到融合分数集合;然后再根据融合分数集合和预设的置信度计算公式进行置信度计算,得到置信度集合。可见,实施这种实施方式,能够通过加权和再计算的方式确定每个关联数据对应索引数据的置信度,从而形成一个置信度集合,进而便于对数据查询结果进行高精度获取。
进一步地,所述置信度集合包括多个置信度数据,所述多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值;所述滤除算法为保高滤低的算法,用于滤除相同关联数据中低置信度数值对应的置信度数据。
在上述实现过程中,置信度集合包括多个置信度数据,多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值,即身份证号对应的手机号,以及该手机号对应该身份证号的置信度数值,可见,实施这种实施方式,能够将索引数据和关联数据之间的关系数值化,从而便于对关联数据进行取舍;而使用的滤除算法为保高滤低的算法,能够用于滤除相同关联数据中低置信度数值对应的置信度数据,从而保证置信度数值高的置信度数据保留,从而获取到置信度最高的多个关联数据相关结果,从而便于用户进行查看与选择。
本申请实施例第二方面提供了一种基于索引数据的数据查询装置,所述基于索引数据的数据查询装置包括:
确定单元,用于根据接收到的数据查询请求确定索引数据;
匹配单元,用于匹配所述索引数据对应的融合记录集合;
计算单元,用于根据所述融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合;
滤除单元,用于根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果。
在上述实现过程中,该数据查询装置可以通过多个单元的协同工作来完成对数据查询请求的确定、融合记录集合的匹配、置信度集合的加权计算以及对置信度集合的滤除处理操作,从而实现完整的数据查询工作。可见,实施这种实施方式,能够通过多个单元的协同工作实现简单、快捷的数据查询,从而能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。
进一步地,所述基于索引数据的数据查询装置还包括:
获取单元,用于在根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果的步骤之后,获取所述数据查询结果对应的溯源信息;
添加单元,用于添加所述溯源信息至所述数据查询结果中,得到新的数据查询结果。
在上述实现过程中,该数据查询装置还可以包括获取单元来获取数据查询结果对应的溯源信息,还可以包括添加单元来丰富数据查询信息,以使输出的数据查询信息具有更多的数据内容和更高的数据丰富度。可见,实施这种实施方式,能够提高输出的数据查询结果的效果,从而提高输出结果的可视化程度和数据丰富度。
进一步地,所述匹配单元包括:
匹配子单元,用于匹配所述索引数据对应的关联数据集合;
获取子单元,用于获取所述关联数据集合中每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息;
融合子单元,用于融合所述每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息,得到融合记录集合。
在上述实现过程中,匹配单元可以通过匹配子单元来进行关联数据集合的匹配,然后再通过获取子单元进行单表频率信息、跨表频率信息以及间隔时间信息的获取,并促使融合子单元对单表频率信息、跨表频率信息以及间隔时间信息进行融合,得到融合记录集合,其中单表频率信息、跨表频率信息以及间隔时间信息皆是与关联数据相对应的。可见,实施这种实施方式,匹配单元可以通过各个子单元的工作获取到更准确的融合记录集合,从而便于数据查询,也能够提高数据查询的精度。
进一步地,计算单元包括:
加权子单元,用于根据所述融合记录集合和预设的融合权重集合进行加权计算,得到融合分数集合;
计算子单元,用于根据所述融合分数集合和预设的置信度计算公式进行置信度计算,得到置信度集合。
在上述实现过程中,该数据查询装置,可以通过加权子单元优先根据融合记录集合和预设的融合权重集合进行加权计算,得到融合分数集合;然后再通过计算子单元根据融合分数集合和预设的置信度计算公式进行置信度计算,得到置信度集合。可见,实施这种实施方式,该数据查询装置能够通过加权和再计算的方式确定每个关联数据对应索引数据的置信度,从而形成一个置信度集合,进而便于对数据查询结果进行高精度获取。
进一步地,所述置信度集合包括多个置信度数据,所述多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值;所述滤除算法为保高滤低的算法,用于滤除相同关联数据中低置信度数值对应的置信度数据。
在上述实现过程中,置信度集合包括多个置信度数据,多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值,即身份证号对应的手机号,以及该手机号对应该身份证号的置信度数值,可见,实施这种实施方式,能够将索引数据和关联数据之间的关系数值化,从而便于对关联数据进行取舍;而使用的滤除算法为保高滤低的算法,能够用于滤除相同关联数据中低置信度数值对应的置信度数据,从而保证置信度数值高的置信度数据保留,从而获取到置信度最高的多个关联数据相关结果,从而便于用户进行查看与选择。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的基于索引数据的数据查询方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的基于索引数据的数据查询方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于索引数据的数据查询方法的流程示意图;
图2为本申请实施例提供的另一种基于索引数据的数据查询方法的流程示意图;
图3为本申请实施例提供的一种基于索引数据的数据查询装置的结构示意图;
图4为本申请实施例提供的另一种基于索引数据的数据查询装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种基于索引数据的数据查询方法的流程示意图。该方法可以应用于基于一种信息查询另一种关联信息的场景当中,具体的,该方法可以应用于根据用户的身份证号查询其对应的手机号的场景当中。其中,该基于索引数据的数据查询方法包括:
S101、根据接收到的数据查询请求确定索引数据。
本实施例中,数据查询请求包括用于指示查询的指令,以及数据查询的相关信息。
在本实施例中,数据查询的相关信息可以包括用户手机号、用户身份证号、手机MAC、IMEI、IMSI、车牌号、微信、QQ等多类实体和虚拟身份ID等等。
在本实施例中,索引数据可以为上述的数据查询的相关信息。
S102、匹配索引数据对应的融合记录集合。
本实施例中,融合记录集合包括多个融合记录,每个融合记录对应一个关联数据和该关联数据对应的相关记录。
在本实施例中,索引数据对应大量的融合记录,即可以理解为对应大量的关联数据。
在本实施例中,匹配的过程是基于数据库的,而该数据库可以分为多个数据库表,在这其中,每个融合记录是对应到每个数据库表的。
在本实施例中,同一个关联数据可以对应不同的数据库表生成多个融合记录,对此本实施例中不再多加赘述。
S103、根据融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合。
本实施例中,置信度用于表示融合记录的可信程度。
S104、根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果。
本实施例中,置信度集合包括多个置信度数据,多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值;滤除算法为保高滤低的算法,用于滤除相同关联数据中低置信度数值对应的置信度数据。
本实施例中,该方法可以使用ElasticSearch引擎,其中,ElasticSearch是一个高可扩展的开源全文搜索和分析引擎,它允许存储、搜索和分析大量的数据,并且这个过程是近实时的。在此我们将来自于不同数据源的ID数据整理存储到ElasticSearch数据库,为复杂的搜索功能和ID融合计算提供引擎支持。
在本实施例中,该方法预先存储ID至数据库,而常见的ID数据源有关系型数据库(如mysql和oracle),数据仓库hive,消息中间件kafka等。可以借助jdbc,sqoop,flume,logstash工具将源数据增量或全量导入到ElasticSearch数据库中。其中,ID数据源的单条数据要求须至少有两个ID关联一起在此称之为实体对,根据数据的性质以及业务需求,选取需要的字段。至少有两个ID字段和数据生成时间的字段,时间字段用来计算数据的鲜活度,时间距离当前时间越近鲜活度越高,置信度也就越高,基于这些考虑设计相应的ElasticSearch的Mapping,然后选取合适的导入工具和方式将数据导入到ElasticSearch的Index中。
本实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。
在本实施例中,该方法的执行主体还可以为智能手机和平板等智能设备,对此本实施例中不作任何限定。
可见,实施图1所描述的基于索引数据的数据查询方法,能够优先根据用户输入的数据查询请求来确定索引数据,如身份证号等用于检索的索引数据;然后根据该索引数据在数据库中匹配与索引数据相对应的融合记录集合,该融合记录集合可以包括多个与索引数据对应的关联数据,以及关联数据相关的所有记录,其中,每个关联数据的相关及记录的集合可以称之为一个融合记录;然后,再根据融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合,其中,该置信度集合对应多个融合记录,具体的对应多个关联数据;并在最后,根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果。可见,实施这种实施方式,能够根据数据查询请求来进行一系列的查询辅助工作,以使数据查询结果可以根据索引数据进行简洁、准确地获取,从而能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。
实施例2
请参看图2,图2为本申请实施例提供的另一种基于索引数据的数据查询方法的流程示意图。图2所描述的基于索引数据的数据查询方法的流程示意图是根据图1所描述的基于索引数据的数据查询方法的流程示意图进行改进得到的。其中,该基于索引数据的数据查询方法包括:
S201、根据接收到的数据查询请求确定索引数据。
本实施例中,数据查询请求包括用于指示查询的指令,以及数据查询的相关信息。
在本实施例中,数据查询的相关信息可以包括用户手机号、用户身份证号、手机MAC、IMEI、IMSI、车牌号、微信、QQ等多类实体和虚拟身份ID等等。
在本实施例中,索引数据可以为上述的数据查询的相关信息。
S202、匹配索引数据对应的关联数据集合。
本实施例中,关联数据对应后续举例中的ID,对此本实施例中不再多加赘述。
在本实施例中,关联数据集合包括关联数据和相应的附加信息,该附加信息包括与关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息。
在本实施例中,关联数据集合中的关联数据可以存在相同,但是关联数据的附加信息基本不存在相同。
在本实施例中,关联数据可以理解为身份证号(即索引数据)对应的手机号。
S203、获取关联数据集合中每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息。
本实施例中,该获取过程是在数据库中进行的。
在本实施例中,数据库包括多个数据库表,每个数据表可以独立进行查询检索。
在本实施例中,单表频率信息对应单个数据库表而言,跨表频率信息对应多个数据库表而言,间隔时间信息则是指每个数据库表中的关联数据距离现在的时间差值,即记录该数据是多久前产生的。
S204、融合每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息,得到融合记录集合。
本实施例中,融合记录集合为上述单表频率信息、跨表频率信息以及间隔时间信息的融合记录,具体可以参阅举例说明。
举例来说,步骤S202~S204的过程中,索引数据为身份证,关联数据为手机号,其中,对有身份证和手机号关联的ElasticSearh一个或多个索引查询,结果整理为查询出的手机号以及对应的出现次数和记录的最新时间。结果数据格式
{"sfz_sjh_index1":{"record":{"183xxxxxxxx":{"num":1,"timestamp":1563864806701},"134yyyyyyyy":{"num":2,"timestamp":1563864806701}},"count":3},
"sfz_sjh_index2":{"record":{"134yyyyyyyy":{"num":3,"timestamp":1563864806701}},"count":3}}。
其中,183xxxxxxxx,134yyyyyyyy皆为电话号码。具体的,返回有两个索引名称sfz_sjh_index1和sfz_sjh_index2,说明在两个表都能查到融合记录,在索引sfz_sjh_index1查到183xxxxxxxx出现1次和134yyyyyyyy出现2次,在索引sfz_sjh_index2查到134yyyyyyyy出现3次。
可见,该过程中可以检索到关联数据在数据库中出现的次数结果。
进一步举例,183xxxxxxxx在sfz_sjh_index1出现过,1563864806701在sfz_sjh_index1和sfz_sjh_index2两个表出现过。结果数据格式记录为
{"183xxxxxxxx":1,"134yyyyyyyy":2}。
可见,该过程可以获取融合出的关联数据跨表出现的次数。
进一步举例,该过程还可以计算出每个关联数据在每个数据库表中的TF和DF分数,其中,TF是指表示词条在文本中出现的频率,这里指手机号在每个索引中出现的频率,公式为num/count。所以183xxxxxxxx在sfz_sjh_index1出现的频率为1/3,
134yyyyyyyy在sfz_sjh_index1出现的频率为2/3,134yyyyyyyy在sfz_sjh_index2出现的频率为1。
DF是指每个ID在整个ElasticSearch索引表出现的频率,假设我们整理了10个含有身份证和手机号关联的索引表,183xxxxxxxx在1个索引表出现过,所以df为1/10,134yyyyyyyy在2个索引表出现过,所以df为2/10
最终结果数据格式记录为如下
{"sfz_sjh_index1":{"record":{"183xxxxxxxx":{"tf":0.33,"df":0.1,"num":1,"timestamp":1563864806701},"134yyyyyyyy":{"tf":0.66,"df":0.2,"num":2,"timestamp":1563864806701}},"count":3},
"sfz_sjh_index2":{"record":{"134yyyyyyyy":{"tf":1,"df":0.2,"num":3,"timestamp":1563864806701}},"count":3}}
相当于在上述举例的基础上增加了tf和df的值。
进一步举例,该过程中还可以计算出融合出的每个ID在每个索引中距离当前的天数,其中,
当前时间的毫秒数减去timestamp值为距离毫秒数,再换算成天数,最终结果数据格式记录为如下
{"sfz_sjh_index1":{"record":{"183xxxxxxxx":{"tf":0.33,"df":0.1,"num":1,"day":9,"timestamp":1563864806701},"134yyyyyyyy":{"tf":0.66,"df":0.2,"num":2,"day":9,"timestamp":1563864806701}},"count":3},
"sfz_sjh_index2":{"record":{"134yyyyyyyy":{"tf":1,"df":0.2,"num":3,"day":9,"timestamp":1563864806701}},"count":3}}
相当于在上述举例的基础上增加了day的值。
进一步举例,该过程还可以根据上述举例计算融合出的每个关联数据在每个数据库表中的时间热度(鲜活度分数)其中,设定距离当前天数越近,鲜活度越高,选择一个单调递减的反函数且值在0到1之间来计算,这里我们选择e^(-0.0.1*day),e为数学上常用的自然常数。最终结果数据格式记录为如下:
{"sfz_sjh_index1":{"record":{"183xxxxxxxx":{"tf":0.33,"df":0.1,"num":1,"fresh":0.91,"day":9,"timestamp":1563864806701},"134yyyyyyyy":{"tf":0.66,"df":0.2,"num":2,"fresh":0.91,"day":9,"timestamp":1563864806701}},"count":3},"sfz_sjh_index2":{"record":{"134yyyyyyyy":{"tf":1,"df":0.2,"num":3,"fresh":0.91,"day":9,"timestamp":1563864806701}},"count":3}}
相当于在上述举例的基础上增加了fresh的值。
S205、根据融合记录集合和预设的融合权重集合进行加权计算,得到融合分数集合。
举例来说,该过程为计算关联数据对应的融合分数的过程,其中,该过程可以先引入四个值,
TFW:实体值单表出现频次的权重
DFW:实体值跨表出现频次的权重
TW:实体值与时间的权重
CW:实体值所在表的权重
其中,以上四个权重的取值范围均在[0,1]之间,但要保证四个权重的和为1。
另外,这里预设上述四个数值为
TFW=0.2
DFW=0.3
TW=0.3
CW=0.2
再引入一个值C:每张表的置信度,表比较活跃,值高点,在[0,1]之间就行。
这里设置为0.7
分数计算公式为TFW*tf+DFW*df+TW*fresh+CW*C;
最终结果数据格式记录为如下
{"sfz_sjh_index1":{"record":{"183xxxxxxxx":{"score":0.509,"tf":0.33,"df":0.1,"num":1,"fresh":0.91,"day":9,"timestamp":1563864806701},"134yyyyyyyy":{"score":0.61,"tf":0.66,"df":0.2,"num":2,"fresh":0.91,"day":9,"timestamp":1563864806701}},"count":3},"sfz_sjh_index2":{"record":{"134yyyyyyyy":{"score":0.67,"tf":1,"df":0.2,"num":3,"fresh":0.91,"day":9,"timestamp":1563864806701}},"count":3}}
可见,该过程相当于在上述举例的基础上增加了score的值。
S206、根据融合分数集合和预设的置信度计算公式进行置信度计算,得到置信度集合。
举例来说,预设的置信度计算公式可以为1/(1+e^(-6*score+3));
而对应的上述举例进行计算得到的最终结果数据格式记录如下:
{"sfz_sjh_index1":{"record":{"183xxxxxxxx":{"score":0.509,"tf":0.33,"df":0.1,"num":1,"sigmoid_score":0.51,"fresh":0.91,"day":9,"timestamp":1563864806701},"134yyyyyyyy":{"score":0.61,"tf":0.66,"df":0.2,"num":2,"sigmoid_score":0.65,"fresh":0.91,"day":9,"timestamp":1563864806701}},"count":3},"sfz_sjh_index2":{"record":{"134yyyyyyyy":{"score":0.67,"tf":1,"df":0.2,"num":3,"sigmoid_score":0.74,"fresh":0.91,"day":9,"timestamp":1563864806701}},"count":3}}
可见,该过程相当于在上述举例的基础上增加了sigmoid_score的值。
S207、根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果。
本实施例中,置信度集合包括多个置信度数据,多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值;滤除算法为保高滤低的算法,用于滤除相同关联数据中低置信度数值对应的置信度数据。
举例来说,该过程为如果出现多个一样的关联数据而进行的置信度合并操作,该操作中保留置信度值最高的那一个。其中,结果数据格式为:
{"183xxxxxxxx":0.51,"134yyyyyyyy":0.67}。
S208、获取数据查询结果对应的溯源信息。
本实施例中,溯源信息用于对数据查询结果进行溯源。
举例来说,该过程可以将上述举例的结果数据整理成:
{"183xxxxxxxx":{"sfz_sjh_index1":{"num":1,"sigmoid_score":0.51,"timestamp":1563864806701}},"134yyyyyyyy":{"sfz_sjh_index1":{"num":2,"sigmoid_score":0.65,"timestamp":1563864806701},"sfz_sjh_index2":{"num":3,"sigmoid_score":0.67,"timestamp":1563864806701}}}。
S209、添加溯源信息至数据查询结果中,得到新的数据查询结果。
举例来说,该过程可以将上述举例的结果合并成json格式如下:
{"confidence":8的结果,"back":9的结果}。
并促使最终结果数据格式为:
{"confidence":{"183xxxxxxxx":0.51,"134yyyyyyyy":0.67},"back":{"183xxxxxxxx":{"sfz_sjh_index1":{"num":1,"sigmoid_score":0.51,"timestamp":1563864806701}},"134yyyyyyyy":{"sfz_sjh_index1":{"num":2,"sigmoid_score":0.65,"timestamp":1563864806701},"sfz_sjh_index2":{"num":3,"sigmoid_score":0.67,"timestamp":1563864806701}}}}。
可见,实施这种实施方式,能够根据一种类型的ID查询另一种类型的ID,并给出融合结果的置信度以及溯源结果,对每个融合出来的ID都能追溯到源头数据,方便用户决策。
可见,实施图2所描述的基于索引数据的数据查询方法,能够优先根据用户输入的数据查询请求来确定索引数据,如身份证号等用于检索的索引数据;然后根据该索引数据在数据库中匹配与索引数据相对应的融合记录集合,该融合记录集合可以包括多个与索引数据对应的关联数据,以及关联数据相关的所有记录,其中,每个关联数据的相关及记录的集合可以称之为一个融合记录;然后,再根据融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合,其中,该置信度集合对应多个融合记录,具体的对应多个关联数据;并在最后,根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果。可见,实施这种实施方式,能够根据数据查询请求来进行一系列的查询辅助工作,以使数据查询结果可以根据索引数据进行简洁、准确地获取,从而能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。
实施例3
请参看图3,图3为本申请实施例提供的一种基于索引数据的数据查询装置的结构示意图。其中,该基于索引数据的数据查询装置包括:
确定单元310,用于根据接收到的数据查询请求确定索引数据;
匹配单元320,用于匹配索引数据对应的融合记录集合;
计算单元330,用于根据融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合;
滤除单元340,用于根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果。
本实施例中,对于基于索引数据的数据查询装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施图3所描述的基于索引数据的数据查询装置,能够通过多个单元的协同工作来完成对数据查询请求的确定、融合记录集合的匹配、置信度集合的加权计算以及对置信度集合的滤除处理操作,从而实现完整的数据查询工作。可见,实施这种实施方式,能够通过多个单元的协同工作实现简单、快捷的数据查询,从而能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。
实施例4
请参看图4,图4为本申请实施例提供的另一种基于索引数据的数据查询装置的结构示意图。图4所描述的基于索引数据的数据查询装置的结构示意图是根据图3所描述的基于索引数据的数据查询装置的结构示意图进行改进得到的。其中,该基于索引数据的数据查询装置还包括:
获取单元350,用于在根据预设的滤除算法对置信度集合进行滤除处理,得到数据查询结果的步骤之后,获取数据查询结果对应的溯源信息;
添加单元360,用于添加溯源信息至数据查询结果中,得到新的数据查询结果。
作为一种可选的实施方式,匹配单元320包括:
匹配子单元321,用于匹配索引数据对应的关联数据集合;
获取子单元322,用于获取关联数据集合中每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息;
融合子单元323,用于融合每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息,得到融合记录集合。
作为一种可选的实施方式,计算单元330包括:
加权子单元331,用于根据融合记录集合和预设的融合权重集合进行加权计算,得到融合分数集合;
计算子单元332,用于根据融合分数集合和预设的置信度计算公式进行置信度计算,得到置信度集合。
作为一种可选的实施方式,置信度集合包括多个置信度数据,多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值;滤除算法为保高滤低的算法,用于滤除相同关联数据中低置信度数值对应的置信度数据。
本实施例中,对于基于索引数据的数据查询装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施图4所描述的基于索引数据的数据查询装置,能够通过多个单元的协同工作来完成对数据查询请求的确定、融合记录集合的匹配、置信度集合的加权计算以及对置信度集合的滤除处理操作,从而实现完整的数据查询工作。可见,实施这种实施方式,能够通过多个单元的协同工作实现简单、快捷的数据查询,从而能够避免消耗大量的人力物力,同时具有较低的解决复杂度和较高的稳定性,有利于人员管理方式的长久使用。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中任一项基于索引数据的数据查询方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项基于索引数据的数据查询方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (7)

1.一种基于索引数据的数据查询方法,其特征在于,包括:
根据接收到的数据查询请求确定索引数据;
匹配所述索引数据对应的融合记录集合;
根据所述融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合;
根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果;
其中,所述匹配所述索引数据对应的融合记录集合的步骤包括:
匹配所述索引数据对应的关联数据集合;
获取所述关联数据集合中每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息;
融合所述每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息,得到融合记录集合;
其中,所述置信度集合包括多个置信度数据,所述多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值;所述滤除算法为保高滤低的算法,用于滤除相同关联数据中低置信度数值对应的置信度数据。
2.根据权利要求1所述的基于索引数据的数据查询方法,其特征在于,所述根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果的步骤之后,所述方法包括:
获取所述数据查询结果对应的溯源信息;
添加所述溯源信息至所述数据查询结果中,得到新的数据查询结果。
3.根据权利要求1所述的基于索引数据的数据查询方法,其特征在于,所述根据所述融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合的步骤包括:
根据所述融合记录集合和预设的融合权重集合进行加权计算,得到融合分数集合;
根据所述融合分数集合和预设的置信度计算公式进行置信度计算,得到置信度集合。
4.一种基于索引数据的数据查询装置,其特征在于,所述基于索引数据的数据查询装置包括:
确定单元,用于根据接收到的数据查询请求确定索引数据;
匹配单元,用于匹配所述索引数据对应的融合记录集合;
计算单元,用于根据所述融合记录集合和预设的融合权重集合进行加权计算,得到置信度集合;
滤除单元,用于根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果;
其中,所述匹配单元包括:
匹配子单元,用于匹配所述索引数据对应的关联数据集合;
获取子单元,用于获取所述关联数据集合中每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息;
融合子单元,用于融合所述每个关联数据对应的单表频率信息、跨表频率信息以及间隔时间信息,得到融合记录集合;
其中,所述置信度集合包括多个置信度数据,所述多个置信度数据中每个置信度数据对应一个关联数据和一个置信度数值;所述滤除算法为保高滤低的算法,用于滤除相同关联数据中低置信度数值对应的置信度数据。
5.根据权利要求4所述的基于索引数据的数据查询装置,其特征在于,所述基于索引数据的数据查询装置还包括:
获取单元,用于在根据预设的滤除算法对所述置信度集合进行滤除处理,得到数据查询结果的步骤之后,获取所述数据查询结果对应的溯源信息;
添加单元,用于添加所述溯源信息至所述数据查询结果中,得到新的数据查询结果。
6.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至3中任一项所述的基于索引数据的数据查询方法。
7.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至3任一项所述的基于索引数据的数据查询方法。
CN201911299898.6A 2019-12-16 2019-12-16 一种基于索引数据的数据查询方法及装置 Active CN111125102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911299898.6A CN111125102B (zh) 2019-12-16 2019-12-16 一种基于索引数据的数据查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911299898.6A CN111125102B (zh) 2019-12-16 2019-12-16 一种基于索引数据的数据查询方法及装置

Publications (2)

Publication Number Publication Date
CN111125102A CN111125102A (zh) 2020-05-08
CN111125102B true CN111125102B (zh) 2023-03-21

Family

ID=70498258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911299898.6A Active CN111125102B (zh) 2019-12-16 2019-12-16 一种基于索引数据的数据查询方法及装置

Country Status (1)

Country Link
CN (1) CN111125102B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636336A (zh) * 2013-11-06 2015-05-20 百度在线网络技术(北京)有限公司 一种视频搜索的方法和装置
CN106484781A (zh) * 2016-09-18 2017-03-08 广西财经学院 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统
CN108664509A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 一种即席查询的方法、装置及服务器
CN110532371A (zh) * 2019-07-08 2019-12-03 北京中亦安图科技股份有限公司 基于配置管理数据库的全文检索方法、装置与电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445376B2 (en) * 2015-09-11 2019-10-15 Microsoft Technology Licensing, Llc Rewriting keyword information using search engine results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636336A (zh) * 2013-11-06 2015-05-20 百度在线网络技术(北京)有限公司 一种视频搜索的方法和装置
CN106484781A (zh) * 2016-09-18 2017-03-08 广西财经学院 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统
CN108664509A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 一种即席查询的方法、装置及服务器
CN110532371A (zh) * 2019-07-08 2019-12-03 北京中亦安图科技股份有限公司 基于配置管理数据库的全文检索方法、装置与电子设备

Also Published As

Publication number Publication date
CN111125102A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
US11977541B2 (en) Systems and methods for rapid data analysis
AU2019200055B2 (en) Automated secure identification of personal information
WO2019024496A1 (zh) 企业推荐方法及应用服务器
US20150234883A1 (en) Method and system for retrieving real-time information
CN105630934A (zh) 一种数据统计方法及系统
CN110929109A (zh) 用于数据中台的数据查询方法及装置
CN109739992A (zh) 一种获取关联信息的方法及终端
US20220245103A1 (en) Maintaining a dataset based on periodic cleansing of raw source data
CN114022188A (zh) 目标人群圈选方法、装置、设备以及存储介质
CN111125102B (zh) 一种基于索引数据的数据查询方法及装置
CN111737488B (zh) 基于领域实体提取和关联分析的信息溯源方法及装置
CN111367942B (zh) 通讯录检索方法及装置
CN111428037B (zh) 一种分析行为政策匹配性的方法
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN110851431A (zh) 用于数据中台的数据处理方法及装置
CN111597212B (zh) 一种数据检索方法及装置
CN105224567B (zh) 一种关键字的搜索方法及装置
CN112836063B (zh) 一种实现特征溯源的方法
CN111310477B (zh) 文档查询方法及装置
CN113836136A (zh) 防贫预警方法、装置、电子设备及存储介质
CN117149753A (zh) 数据检查方法及系统
CN113268681A (zh) 一种用户归属地识别方法及装置
CN116450754A (zh) 一种法人和其他组织信用信息关联方法及装置
CN116645189A (zh) 企业风险预警方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant