CN118132555A - 数据索引生成方法、电子设备及存储介质 - Google Patents
数据索引生成方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118132555A CN118132555A CN202410163468.6A CN202410163468A CN118132555A CN 118132555 A CN118132555 A CN 118132555A CN 202410163468 A CN202410163468 A CN 202410163468A CN 118132555 A CN118132555 A CN 118132555A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- target
- computing
- computing nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000003860 storage Methods 0.000 title claims abstract description 31
- 238000013507 mapping Methods 0.000 claims abstract description 95
- 238000013145 classification model Methods 0.000 claims abstract description 79
- 238000010276 construction Methods 0.000 claims abstract description 65
- 238000013506 data mapping Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 76
- 230000011218 segmentation Effects 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 239000012634 fragment Substances 0.000 description 9
- 238000010606 normalization Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据索引生成方法、电子设备及存储介质。其中,该方法包括:获取待构建索引的目标数据;对目标数据进行数据映射,得到映射结果;利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据。本申请解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种数据索引生成方法、电子设备及存储介质。
背景技术
大规模数据索引构建是指针对海量数据进行索引和组织,以便快速地检索和访问数据,也是当前信息化时代对海量数据管理和处理的重要需求,能够提高数据处理效率、支持复杂的查询和分析需求,同时也能够满足对实时数据处理的需求,对于提升数据管理和利用效率具有重要的意义。然而在搜索领域内的不同的服务场景中,同样面临着不同规模的索引数据构建需求,实际应用中所涉及的数据量甚至高达千亿级别,在利用有限的计算资源构建数据索引时的难度较大、效率较低,因此如何利用有限的计算资源完成大规模的向量索引数据的构建,以供线上搜索服务的快速召回成为亟需解决的关键问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据索引生成方法、电子设备及存储介质,以至少解决相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
根据本申请实施例的一个方面,提供了一种数据索引生成方法,包括:获取待构建索引的目标数据;对目标数据进行数据映射,得到映射结果,其中,映射结果用于将目标数据分配至多个计算节点,多个计算节点之间共享计算状态信息;利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示目标数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示目标数据的全局索引。
根据本申请实施例的另一方面,还提供了一种数据索引生成方法,包括:获取待构建索引的文档数据;对文档数据进行数据映射,得到映射结果,其中,映射结果用于将文档数据分配至多个计算节点,多个计算节点之间共享计算状态信息;基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示文档数据的局部索引;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示文档数据的全局索引。
根据本申请实施例的另一方面,还提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行本申请实施例中任意一项的数据索引生成方法。
根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的可执行程序,其中,在可执行程序运行时控制存储介质所在设备执行本申请实施例中任意一项的数据索引生成方法。
在本申请实施例中,通过获取待构建索引的目标数据,进而对目标数据进行数据映射,得到映射结果,随后利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,最后对多个计算节点对应的第一索引数据进行合并处理,得到目标数据的全局索引。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建目标数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例1的一种数据索引生成方法的应用场景的示意图;
图2是根据本申请实施例1的一种计算环境的结构框图;
图3是根据本申请实施例1的一种数据索引生成方法的流程图;
图4是根据本申请实施例1的一种数据索引生成方法的示意图;
图5是根据本申请实施例2的一种数据索引生成方法的流程图;
图6是根据本申请实施例3的一种数据索引生成装置的结构框图;
图7是根据本申请实施例3的又一种数据索引生成装置的结构框图;
图8是根据本申请实施例1的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例的一个方面,提供了一种数据索引生成方法。作为一种可选的实施方式,上述数据索引生成方法可以但不限于应用于如图1所示的应用场景。图1是根据本申请实施例1的一种数据索引生成方法的应用场景的示意图,如图1所示,在应用场景中,终端设备102可以但不限于通过网络104与服务器106进行通信,服务器106可以但不限于对数据库108执行操作,例如,写数据操作或读数据操作。上述终端设备102可以但不限包括人机交互屏幕、处理器及存储器。上述人机交互屏幕可以但不限于用于显示在终端设备102上显示通信信息、网络内容等。上述处理器可以但不限于用于响应上述人机交互操作,执行对应的操作,或者,生成对应的指令,并将生成的指令发送给服务器106。上述存储器用于存储相关处理数据,如身份令牌,标识信息、通信模板等。
作为一种可选的方式,可以在服务器106上执行数据索引生成方法中的以下步骤:步骤S102,获取待构建索引的目标数据;步骤S104,对目标数据进行数据映射,得到映射结果;步骤S106,利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据;步骤S108,对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建目标数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
图2是根据本申请实施例1的一种计算环境的结构框图,如图2所示,计算环境201包括运行在分布式网络上的多个(图中采用210-1,210-2,…,来示出)计算节点(如服务器)。计算节点都包含本地处理和内存资源,终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境201中的多个服务220-1,220-2,220-3和220-4进行提供,分别代表服务“A”,“D”,“E”和“H”。
终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务,在一些实施例中,可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。
服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中,可以根据基于虚拟机(Virtual Machine,简称VM)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机,在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时,根据基于容器的虚拟化,可以启动容器来虚拟化整个操作系统(Operating System,简称OS),以便多个工作负载可以在单个操作系统实例上运行。
在基于容器虚拟化的一个实施例中,服务的若干容器可以被组装成一个计算单元(例如,Kubernetes Pod)。举例说明来说,如图2所示,服务220-2可以配备一个或多个计算单元(Pod)Pod240-1,240-2,…,240-N(统称为Pod)。Pod可以包括代理245和一个或多个容器242-1,242-2,…,242-M(统称为容器)。Pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求,代理245通常控制与服务相关的网络功能,如路由、负载均衡等。其他服务也可以配备类似于Pod的Pod。
在操作过程中,执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务,执行一个服务的一个或多个功能可能需要调用另一个服务的一个或多个功能。如图2所示,服务“A”220-1从入口网关230接收终端用户202的用户请求,服务“A”220-1可以调用服务“D”220-2,服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。
上述的计算环境可以是云计算环境,资源的分配由云服务提供上管理,允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能,而不是扩展单个硬件设备来处理潜在的负载。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
在上述运行环境下,本申请提供了如图3所示的数据索引生成方法。图3是根据本申请实施例1的一种数据索引生成方法的流程图,如图3所示,该方法包括以下步骤:
步骤S31,获取待构建索引的目标数据;
步骤S32,对目标数据进行数据映射,得到映射结果,其中,映射结果用于将目标数据分配至多个计算节点,多个计算节点之间共享计算状态信息;
步骤S33,利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示目标数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;
步骤S34,对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示目标数据的全局索引。
上述待构建索引的目标数据可以是各种类型的信息,包括但不限于文档、网页、数据库记录、日志文件、电子邮件等,这些数据中可以包含文本、数字、日期、图像、音频或视频等内容。待构建索引的目标数据通常是需要被快速搜索和检索的信息,以便用户能够方便地找到所需的内容。目标数据可以是利用应用程序接口(Application ProgrammingInterface,API)、数据库查询等方式获取的大规模数据,大规模数据通常包含海量的数据,通常是多种类型的数据混合在一起,例如,结构化数据、半结构化数据和非结构化数据,并且大规模数据通常是分布在不同的位置和系统中,需要采用分布式系统和数据连通性技术来进行处理和管理。
在获取目标数据后,对目标数据进行数据映射(Map),数据映射过程是将目标数据按照一定的规则和算法分配到多个计算节点(worker)上,以实现并行计算和资源利用的优化。上述多个计算节点用于处理大规模数据,具体地,在大数据处理框架中,通常会使用分布式计算技术,将大规模数据分布到集群中的多个计算节点上进行并行处理。每个计算节点负责执行具体的数据处理任务,如数据的分片、映射、归约等操作。通过并行化和分布式计算,多个计算节点能够高效地处理大规模数据,提高数据处理的速度和效率。
上述映射结果是一个数据分配方案,能够表明每个目标数据应该被分配到哪个计算节点上进行处理,由此可以让多个计算节点之间共享计算状态信息,实现数据的高效处理和计算的协同。
示例性地,在实际应用中,数据映射可以根据目标数据的特点和计算节点的资源情况,采用不同的映射策略,如负载均衡、数据局部性等,以保证数据的平衡分配和计算的高效执行。映射结果可以通过算法计算得出,也可以根据实际情况进行动态调整和优化,以适应不同的计算需求和系统环境,进而有效提高计算效率和资源利用率,实现大规模数据处理和分布式计算的需求。
通过映射结果进行索引构建(build)后,可以得到多个计算节点对应的第一索引数据,从而用于表示目标数据的局部索引。第一索引数据可以包括计算节点的标识符和对应的数据块索引信息,由此可以在需要访问目标数据时,根据计算节点的标识符快速定位到对应的第一索引数据,然后再根据数据块索引信息进行具体的数据访问操作。局部索引的设计可以提高数据访问的效率,减少数据传输和计算节点之间的通信开销,同时也能够更好地支持分布式数据处理和计算任务的并行执行。
在对多个计算节点对应的第一索引数据进行合并(reduce)处理时,可以根据具体情况选择对应的合并处理方式,例如可以对第一索引数据进行排序、去重、聚合等操作,从而得到目标数据的全局索引。
上述第一索引数据用于表示目标数据的局部索引,即针对特定数据集合的索引,用于快速定位和访问数据集合中的特定数据。局部索引通常只包含特定数据集合的索引信息,而不包含其他数据集合的索引。上述第二索引数据用于表示目标数据的全局索引,即针对整个数据存储系统的索引,用于跨数据集合进行数据定位和访问。全局索引通常包含所有数据集合的索引信息,可以用于跨数据集合进行查询和分析。在数据库系统中,局部索引和全局索引都有各自的优势和适用场景。例如,局部索引适用于对特定数据集合的频繁查询和访问,能够提高数据访问速度和查询效率;而全局索引适用于跨数据集合的查询和分析,能够提供更全面的数据定位和访问功能。
基于上述步骤S31至步骤S34,通过获取待构建索引的目标数据,进而对目标数据进行数据映射,得到映射结果,随后利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,最后对多个计算节点对应的第一索引数据进行合并处理,得到目标数据的全局索引。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建目标数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
下面对本申请实施例中的数据索引生成方法进行进一步介绍。
在一种可选的实施例中,在步骤S32,对目标数据进行数据映射,得到映射结果包括:
步骤S321,按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设节点数量根据多个计算节点的数量确定;
步骤S322,基于切分结果进行数据采样,得到映射结果。
以获取到的100w目标数据为例,利用10个worker对其进行处理,按照预设节点数量10对目标数据进行切分处理,即将100w数据切分成10个任务,从而交给10个worker去处理,每个worker处理10W数据。基于切分结果进行数据采样时,可以针对每个任务采样1k数据进行后续的索引构建计算。
基于上述可选实施例,通过按照预设节点数量对目标数据进行切分处理,得到切分结果,进而基于切分结果进行数据采样,得到映射结果,由此提高了数据处理的效率和速度,减少了数据处理的复杂度和成本,同时获取了代表性的样本数据,为后续的数据分析和处理提供了更准确的基础。
在一种可选的实施例中,在步骤S321,按照预设节点数量对目标数据进行切分处理,得到切分结果包括:利用预设切分方式按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设切分方式包括以下之一:随机切分方式、哈希切分方式。
具体地,随机切分方式可以确保数据在各个计算节点上均匀分布,减少数据倾斜的可能性;哈希切分方式可以根据目标数据的哈希值将目标数据分配到不同的计算节点上,实现数据的均匀分布和快速查找。
基于上述可选实施例,通过利用预设切分方式按照预设节点数量对目标数据进行切分处理,得到切分结果,能够提高数据处理的效率和并行性,同时能够提高系统的容错性和可扩展性,从而提高整体的技术效果。
在一种可选的实施例中,在步骤S33,基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据包括:
步骤S331,对映射结果进行特征转换处理,得到目标特征数据,其中,特征转换处理包括以下至少之一:量化处理、降维处理;
步骤S332,利用目标分类模型对目标特征数据进行索引构建,得到第一索引数据。
具体地,对映射结果进行特征转换(Transform)的过程中,通常涉及数据清洗、格式转换、特征提取等操作,以确保数据适合后续的处理和分析。Transform过程通常是通过使用各种数据处理工具和编程语言来实现的,从而将映射结果中的目标数据转换为可用于分析和建模的数据集。
通过机器学习方法,将多组预设特征数据和预设索引数据输入目标分类模型中,模型将学习预设特征数据与预设索引数据之间的关系,并构建出一个能够将目标特征数据映射到索引数据的目标分类模型。在得到第一索引数据后,可以利用该索引数据进行快速检索和相似度匹配,由此可以提高检索效率和准确性,同时也可以节约计算资源和存储空间。通过不断优化目标分类模型和更新索引数据,可以不断提升检索效率和准确性,满足不同应用场景的需求。
基于上述可选实施例,通过对映射结果进行特征转换处理,得到目标特征数据,进而利用目标分类模型对目标特征数据进行索引构建,得到第一索引数据,可以快速定位和检索目标数据,从而进一步提高索引构建速度。
在一种可选的实施例中,本申请实施例中的数据索引生成方法还包括:利用初始分类模型对应的模型训练参数确定目标损失函数;基于目标损失函数对初始分类模型进行迭代训练,得到目标分类模型。
上述模型训练参数的确定可以通过交叉验证、网格搜索等方法来找到较优的参数组合。目标损失函数的能够衡量模型预测结果与实际值之间的差异,通过优化目标损失函数来使模型能够更好地拟合数据,提高预测准确性。
示例性地,在利用初始分类模型进行迭代训练(train)时,可以通过梯度下降等优化算法来优化目标损失函数,不断调整模型参数,直到达到满足条件的训练效果。目标损失函数的选择通常取决于具体的问题和数据特点,常见的损失函数包括均方误差、交叉熵等。根据具体的问题和数据特点选择合适的目标损失函数能够更好地指导模型的训练,提高模型的泛化能力。
基于上述可选实施例,通过利用初始分类模型对应的模型训练参数确定目标损失函数,进而基于目标损失函数对初始分类模型进行迭代训练,得到目标分类模型,由此可以提高模型的性能和准确性,使得模型在处理数据时更加有效和高效。同时,通过迭代训练可以不断优化模型,使其更加适应实际数据的特点,从而提高模型的泛化能力。
在一种可选的实施例中,在步骤S332,利用目标分类模型对目标特征数据进行索引构建,得到第一索引数据包括:
步骤S3321,对目标特征数据多轮聚类处理,得到目标簇中心数据;
步骤S3322,利用目标分类模型对目标簇中心数据进行分类处理,得到第一索引数据。
具体地,数据聚类处理可以将目标特征数据按照相似性分成多个簇,从而更好地理解和描述数据的分布特征,有助于发现数据的内在结构和规律。目标簇中心数据可以帮助用户更好地理解每个簇的特征和代表性,从而更好地理解和分析不同簇的特点和差异。利用目标分类模型对目标簇中心数据进行分类处理,可以更好地理解和分析不同簇的类别和属性。
基于上述可选实施例,通过对目标特征数据多轮聚类处理,得到目标簇中心数据,进而利用目标分类模型对目标簇中心数据进行分类处理,从而快速获得目标数据的全局索引,进一步提升索引生成效率。
在一种可选的实施例中,本申请实施例中的数据索引生成方法还包括:利用分布式协同计算框架在多个计算节点之间同步计算状态信息,其中,计算状态信息包括以下至少之一:计算进度信息、计算结果信息、计算资源信息。
上述分布式协同计算框架(ps_worker)能够将计算任务分配到多个worker上并行处理,从而大大缩短计算时间,提高计算效率。通过分布式协同计算框架,不同worker之间可以实现实时的状态信息同步和共享,保证计算过程中数据的一致性和准确性。由于分布式协同计算框架能够自动监控和管理各个worker的计算状态信息,因此可以提高系统的可靠性,保证计算过程的稳定性和可靠性。分布式协同计算框架还可以动态地添加或删除计算节点,从而实现对计算能力的灵活扩展和管理。
基于上述可选实施例,通过利用分布式协同计算框架在多个计算节点之间同步计算状态信息,由此进一步提升多个计算节点的计算效率,进而提升索引生成效率。
在一种可选的实施例中,在步骤S34,对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据包括:
步骤S341,对多个计算节点对应的第一索引数据进行标准化处理,得到标准化结果;
步骤S342,对标准化结果进行合并处理,得到第二索引数据。
具体地,对多个计算节点对应的第一索引数据进行标准化处理包括但不限于去重、排序和格式标准化等操作,以确保数据的一致性和可比性,进而将标准化结果合并为一个新的索引文件,从而得到第二索引数据。
基于上述可选实施例,通过对多个计算节点对应的第一索引数据进行标准化处理,得到标准化结果,进而对标准化结果进行合并处理,得到第二索引数据,提高了计算效率和数据处理的精度,进一步提升索引数据的准确性。
在一种可选的实施例中,本申请实施例中的数据索引生成方法还包括:采用资源调度组件识别多个计算节点中的空闲计算资源;利用空闲计算资源构建目标数据对应的第二索引数据。
上述资源调度组件为计算资源的管理者,在构建索引的过程在可以向该资源调度组件申请计算资源。上述空闲计算资源为多个worker中的碎片资源,例如,当一台计算机具有100cpu,但已经被使用了90cpu了,剩余10cpu则为空闲计算资源,利用空闲计算资源可以进行离线索引构建。
基于上述可选实施例,通过采用资源调度组件识别多个计算节点中的空闲计算资源,进而利用空闲计算资源构建目标数据对应的第二索引数据,由此可以充分利用计算节点的空闲资源,有效提高计算资源利用率。
图4是根据本申请实施例1的一种数据索引生成方法的示意图,如图4所示,以获取到的100w目标数据为例,利用10个worker对其进行处理,数据索引生成过程包括多个阶段,多个阶段从先到后分别为:map阶段,将数据进行拆分和采样,即完成100w数据到单worker10w数据采样1k的过程;Transform阶段,将目标数据进行特征变换的阶段,可因使用场景而异;train阶段,完成10个worker之间目标分类模型的训练过程;build阶段,利用目标分类模型完成单worker内1w数据的索引构建,得到第一索引数据;reduce阶段,将10个部分的第一索引数据进行合并,形成100w目标数据的全局索引,即得到第二索引数据。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
图5是根据本申请实施例2的一种数据索引生成方法的流程图,如图5所示,该方法包括以下步骤:
步骤S51,获取待构建索引的文档数据;
步骤S52,对文档数据进行数据映射,得到映射结果,其中,映射结果用于将文档数据分配至多个计算节点,多个计算节点之间共享计算状态信息;
步骤S53,利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示文档数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;
步骤S54,对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示文档数据的全局索引。
上述待构建索引的文档数据可以是各种类型的文件,例如文本文档、电子表格、演示文稿、图像文件等。文档谁该用户用可以通过多种方式获取,例如,通过搜索引擎或特定网站来查找并下载需要的文档数据;许多文件共享平台提供文件共享和下载服务,用户可以在这些平台上找到并下载所需的文档数据;一些网站和组织提供在线数据库,用户可以通过查询来获取文档数据;文档数据可能会通过电子邮件或即时通讯应用程序发送给用户;一些网站和组织提供订阅服务,用户可以通过订阅来获取所需的文档数据;用户也可以通过手动创建文档或录入数据来获取所需的文档数据。
在获取文档数据后,对文档数据进行数据映射,数据映射过程是将文档数据按照一定的规则和算法分配到多个计算节点上,以实现并行计算和资源利用的优化。上述多个计算节点用于处理大规模数据,具体地,在大数据处理框架中,通常会使用分布式计算技术,将大规模数据分布到集群中的多个计算节点上进行并行处理。每个计算节点负责执行具体的数据处理任务,如数据的分片、映射、归约等操作。通过并行化和分布式计算,多个计算节点能够高效地处理大规模数据,提高数据处理的速度和效率。
上述映射结果是一个数据分配方案,能够表明每个文档数据应该被分配到哪个计算节点上进行处理,由此可以让多个计算节点之间共享计算状态信息,实现数据的高效处理和计算的协同。
示例性地,在实际应用中,数据映射可以根据文档数据的特点和计算节点的资源情况,采用不同的映射策略,如负载均衡、数据局部性等,以保证数据的平衡分配和计算的高效执行。映射结果可以通过算法计算得出,也可以根据实际情况进行动态调整和优化,以适应不同的计算需求和系统环境,进而有效提高计算效率和资源利用率,实现大规模数据处理和分布式计算的需求。
通过映射结果进行索引构建后,可以得到多个计算节点对应的第一索引数据,从而用于表示文档数据的局部索引。第一索引数据可以包括计算节点的标识符和对应的数据块索引信息,由此可以在需要访问文档数据时,根据计算节点的标识符快速定位到对应的第一索引数据,然后再根据数据块索引信息进行具体的数据访问操作。局部索引的设计可以提高数据访问的效率,减少数据传输和计算节点之间的通信开销,同时也能够更好地支持分布式数据处理和计算任务的并行执行。
在对多个计算节点对应的第一索引数据进行合并(reduce)处理时,可以根据具体情况选择对应的合并处理方式,例如可以对第一索引数据进行排序、去重、聚合等操作,从而得到文档数据的全局索引。
上述第一索引数据用于表示文档数据的局部索引,即针对特定数据集合的索引,用于快速定位和访问数据集合中的特定数据。局部索引通常只包含特定数据集合的索引信息,而不包含其他数据集合的索引。上述第二索引数据用于表示文档数据的全局索引,即针对整个数据存储系统的索引,用于跨数据集合进行数据定位和访问。全局索引通常包含所有数据集合的索引信息,可以用于跨数据集合进行查询和分析。在数据库系统中,局部索引和全局索引都有各自的优势和适用场景。例如,局部索引适用于对特定数据集合的频繁查询和访问,能够提高数据访问速度和查询效率;而全局索引适用于跨数据集合的查询和分析,能够提供更全面的数据定位和访问功能。
基于上述步骤S51至步骤S54,通过获取待构建索引的文档数据,进而对文档数据进行数据映射,得到映射结果,随后利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,最后对多个计算节点对应的第一索引数据进行合并处理,得到文档数据的全局索引。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建文档数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
在本申请的上述实施例中没有详述的部分,可以参见实施例1的相关描述,不予赘述。
实施例3
根据本申请实施例,还提供了一种用于实施上述数据索引生成方法的数据索引生成方法装置,图6是根据本申请实施例3的一种数据索引生成装置的结构框图,如图6所示,该装置包括:
获取模块601,用于获取待构建索引的目标数据;
映射模块602,用于对目标数据进行数据映射,得到映射结果,其中,映射结果用于将目标数据分配至多个计算节点,多个计算节点之间共享计算状态信息;
构建模块603,用于利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示目标数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;
合并模块604,用于对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示目标数据的全局索引。
可选地,映射模块602还用于:按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设节点数量根据多个计算节点的数量确定;基于切分结果进行数据采样,得到映射结果。
可选地,映射模块602还用于:利用预设切分方式按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设切分方式包括以下之一:随机切分方式、哈希切分方式。
可选地,构建模块603还用于:对映射结果进行特征转换处理,得到目标特征数据,其中,特征转换处理包括以下至少之一:量化处理、降维处理;利用目标分类模型对目标特征数据进行索引构建,得到第一索引数据。
可选地,数据索引生成装置还包括:确定模块605,用于利用初始分类模型对应的模型训练参数确定目标损失函数;训练模块606,用于基于目标损失函数对初始分类模型进行迭代训练,得到目标分类模型。
可选地,构建模块603还用于:对目标特征数据多轮聚类处理,得到目标簇中心数据;利用目标分类模型对目标簇中心数据进行分类处理,得到第一索引数据。
可选地,数据索引生成装置还包括:同步模块607,用于利用分布式协同计算框架在多个计算节点之间同步计算状态信息,其中,计算状态信息包括以下至少之一:计算进度信息、计算结果信息、计算资源信息。
可选地,合并模块604,还用于:对多个计算节点对应的第一索引数据进行标准化处理,得到标准化结果;对标准化结果进行合并处理,得到第二索引数据。
可选地,数据索引生成装置还包括:识别模块608,用于采用资源调度组件识别多个计算节点中的空闲计算资源;构建模块603还用于利用空闲计算资源构建目标数据对应的第二索引数据。
此处需要说明的是,上述获取模块601、映射模块602、构建模块603和合并模块604对应于实施例1中的步骤S31至步骤S34,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在计算机终端中。
在本申请实施例中,通过获取待构建索引的目标数据,进而对目标数据进行数据映射,得到映射结果,随后利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,最后对多个计算节点对应的第一索引数据进行合并处理,得到目标数据的全局索引。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建目标数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
根据本申请实施例,还提供了一种用于实施上述数据索引生成方法的数据索引生成方法装置,图7是根据本申请实施例3的又一种数据索引生成装置的结构框图,如图7所示,该装置包括:
获取模块701,用于获取待构建索引的文档数据;
映射模块702,用于对文档数据进行数据映射,得到映射结果,其中,映射结果用于将文档数据分配至多个计算节点,多个计算节点之间共享计算状态信息;
构建模块703,用于利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示文档数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;
合并模块704,用于对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示文档数据的全局索引。
此处需要说明的是,上述获取模块701、映射模块702、构建模块703和合并模块704对应于实施例2中的步骤S51至步骤S54,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在计算机终端中。
在本申请实施例中,通过获取待构建索引的文档数据,进而对文档数据进行数据映射,得到映射结果,随后利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,最后对多个计算节点对应的第一索引数据进行合并处理,得到文档数据的全局索引。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建文档数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
在本申请的上述实施例中没有详述的部分,可以参见实施例1的相关描述,不予赘述。
实施例4
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行数据索引生成方法中以下步骤的程序代码:获取待构建索引的目标数据;对目标数据进行数据映射,得到映射结果,其中,映射结果用于将目标数据分配至多个计算节点,多个计算节点之间共享计算状态信息;利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示目标数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示目标数据的全局索引。
在本实施例中,上述计算机终端可以执行数据索引生成方法中以下步骤的程序代码:获取待构建索引的文档数据;对文档数据进行数据映射,得到映射结果,其中,映射结果用于将文档数据分配至多个计算节点,多个计算节点之间共享计算状态信息;基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示文档数据的局部索引;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示文档数据的全局索引。
可选地,图8是根据本申请实施例1的一种计算机终端的结构框图。如图8所示,该计算机终端可以包括:一个或多个(图中仅示出一个)处理器82、存储器84、存储控制器、以及外设接口,其中,外设接口与射频模块、音频模块和显示器连接。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的数据索引生成方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据索引生成方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待构建索引的目标数据;对目标数据进行数据映射,得到映射结果,其中,映射结果用于将目标数据分配至多个计算节点,多个计算节点之间共享计算状态信息;利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示目标数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示目标数据的全局索引。
可选的,上述处理器还可以执行如下步骤的程序代码:按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设节点数量根据多个计算节点的数量确定;基于切分结果进行数据采样,得到映射结果。
可选的,上述处理器还可以执行如下步骤的程序代码:利用预设切分方式按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设切分方式包括以下之一:随机切分方式、哈希切分方式。
可选的,上述处理器还可以执行如下步骤的程序代码:对映射结果进行特征转换处理,得到目标特征数据,其中,特征转换处理包括以下至少之一:量化处理、降维处理;利用目标分类模型对目标特征数据进行索引构建,得到第一索引数据。
可选的,上述处理器还可以执行如下步骤的程序代码:利用初始分类模型对应的模型训练参数确定目标损失函数;基于目标损失函数对初始分类模型进行迭代训练,得到目标分类模型。
可选的,上述处理器还可以执行如下步骤的程序代码:对目标特征数据多轮聚类处理,得到目标簇中心数据;利用目标分类模型对目标簇中心数据进行分类处理,得到第一索引数据。
可选的,上述处理器还可以执行如下步骤的程序代码:利用分布式协同计算框架在多个计算节点之间同步计算状态信息,其中,计算状态信息包括以下至少之一:计算进度信息、计算结果信息、计算资源信息。
可选的,上述处理器还可以执行如下步骤的程序代码:对多个计算节点对应的第一索引数据进行标准化处理,得到标准化结果;对标准化结果进行合并处理,得到第二索引数据。
可选的,上述处理器还可以执行如下步骤的程序代码:采用资源调度组件识别多个计算节点中的空闲计算资源;利用空闲计算资源构建目标数据对应的第二索引数据。
可选的,上述处理器还可以执行如下步骤的程序代码:获取待构建索引的文档数据;对文档数据进行数据映射,得到映射结果,其中,映射结果用于将文档数据分配至多个计算节点,多个计算节点之间共享计算状态信息;基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示文档数据的局部索引;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示文档数据的全局索引。
在本申请实施例中,通过获取待构建索引的目标数据,进而对目标数据进行数据映射,得到映射结果,随后利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,最后对多个计算节点对应的第一索引数据进行合并处理,得到目标数据的全局索引。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建目标数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
本领域普通技术人员可以理解,图8所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)等终端设备。图8其并不对上述电子装置的结构造成限定。例如,计算机终端还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
本申请的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1或实施例2所提供的数据索引生成方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待构建索引的目标数据;对目标数据进行数据映射,得到映射结果,其中,映射结果用于将目标数据分配至多个计算节点,多个计算节点之间共享计算状态信息;利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示目标数据的局部索引,目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,多组数据中的每组数据包括:预设特征数据和预设索引数据;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示目标数据的全局索引。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设节点数量根据多个计算节点的数量确定;基于切分结果进行数据采样,得到映射结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:利用预设切分方式按照预设节点数量对目标数据进行切分处理,得到切分结果,其中,预设切分方式包括以下之一:随机切分方式、哈希切分方式。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对映射结果进行特征转换处理,得到目标特征数据,其中,特征转换处理包括以下至少之一:量化处理、降维处理;利用目标分类模型对目标特征数据进行索引构建,得到第一索引数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:利用初始分类模型对应的模型训练参数确定目标损失函数;基于目标损失函数对初始分类模型进行迭代训练,得到目标分类模型。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对目标特征数据多轮聚类处理,得到目标簇中心数据;利用目标分类模型对目标簇中心数据进行分类处理,得到第一索引数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:利用分布式协同计算框架在多个计算节点之间同步计算状态信息,其中,计算状态信息包括以下至少之一:计算进度信息、计算结果信息、计算资源信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对多个计算节点对应的第一索引数据进行标准化处理,得到标准化结果;对标准化结果进行合并处理,得到第二索引数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:采用资源调度组件识别多个计算节点中的空闲计算资源;利用空闲计算资源构建目标数据对应的第二索引数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待构建索引的文档数据;对文档数据进行数据映射,得到映射结果,其中,映射结果用于将文档数据分配至多个计算节点,多个计算节点之间共享计算状态信息;基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,其中,第一索引数据用于表示文档数据的局部索引;对多个计算节点对应的第一索引数据进行合并处理,得到第二索引数据,其中,第二索引数据用于表示文档数据的全局索引。
在本申请实施例中,通过获取待构建索引的目标数据,进而对目标数据进行数据映射,得到映射结果,随后利用目标分类模型基于映射结果进行索引构建,得到多个计算节点对应的第一索引数据,最后对多个计算节点对应的第一索引数据进行合并处理,得到目标数据的全局索引。
容易注意到的是,本申请实施例中,基于分布式协同计算,在多个计算节点间共享计算状态,并使用集群碎片资源,完成大规模数据的聚类和处理,加速海量数据索引构建,达到了高效快速地构建目标数据的全局索引的目的,从而实现了降低大规模数据的索引构建难度、提升索引生成效率的技术效果,进而解决了相关技术中对于大规模数据进行索引构建时的索引构建难度大、索引生成效率低的技术问题。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种数据索引生成方法,其特征在于,包括:
获取待构建索引的目标数据;
对所述目标数据进行数据映射,得到映射结果,其中,所述映射结果用于将所述目标数据分配至多个计算节点,所述多个计算节点之间共享计算状态信息;
利用目标分类模型基于所述映射结果进行索引构建,得到所述多个计算节点对应的第一索引数据,其中,所述第一索引数据用于表示所述目标数据的局部索引,所述目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,所述多组数据中的每组数据包括:预设特征数据和预设索引数据;
对所述多个计算节点对应的所述第一索引数据进行合并处理,得到第二索引数据,其中,所述第二索引数据用于表示所述目标数据的全局索引。
2.根据权利要求1所述的数据索引生成方法,其特征在于,对所述目标数据进行数据映射,得到映射结果包括:
按照预设节点数量对所述目标数据进行切分处理,得到切分结果,其中,所述预设节点数量根据所述多个计算节点的数量确定;
基于所述切分结果进行数据采样,得到所述映射结果。
3.根据权利要求2所述的数据索引生成方法,其特征在于,按照所述预设节点数量对所述目标数据进行切分处理,得到所述切分结果包括:
利用预设切分方式按照所述预设节点数量对所述目标数据进行切分处理,得到所述切分结果,其中,所述预设切分方式包括以下之一:随机切分方式、哈希切分方式。
4.根据权利要求1所述的数据索引生成方法,其特征在于,利用目标分类模型基于所述映射结果进行索引构建,得到所述多个计算节点对应的所述第一索引数据包括:
对所述映射结果进行特征转换处理,得到目标特征数据,其中,所述特征转换处理包括以下至少之一:量化处理、降维处理;
利用所述目标分类模型对所述目标特征数据进行索引构建,得到所述第一索引数据。
5.根据权利要求4所述的数据索引生成方法,其特征在于,所述方法还包括:
利用所述初始分类模型对应的模型训练参数确定目标损失函数;
基于目标损失函数对所述初始分类模型进行迭代训练,得到所述目标分类模型。
6.根据权利要求4所述的数据索引生成方法,其特征在于,利用所述目标分类模型对所述目标特征数据进行索引构建,得到所述第一索引数据包括:
对所述目标特征数据多轮聚类处理,得到目标簇中心数据;
利用所述目标分类模型对目标簇中心数据进行分类处理,得到所述第一索引数据。
7.根据权利要求1所述的数据索引生成方法,其特征在于,所述方法还包括:
利用分布式协同计算框架在所述多个计算节点之间同步所述计算状态信息,其中,所述计算状态信息包括以下至少之一:计算进度信息、计算结果信息、计算资源信息。
8.根据权利要求1所述的数据索引生成方法,其特征在于,对所述多个计算节点对应的所述第一索引数据进行合并处理,得到所述第二索引数据包括:
对所述多个计算节点对应的所述第一索引数据进行标准化处理,得到标准化结果;
对所述标准化结果进行合并处理,得到所述第二索引数据。
9.根据权利要求1所述的数据索引生成方法,其特征在于,所述方法还包括:
采用资源调度组件识别所述多个计算节点中的空闲计算资源;
利用所述空闲计算资源构建所述目标数据对应的所述第二索引数据。
10.一种数据索引生成方法,其特征在于,包括:
获取待构建索引的文档数据;
对所述文档数据进行数据映射,得到映射结果,其中,所述映射结果用于将所述文档数据分配至多个计算节点,所述多个计算节点之间共享计算状态信息;
利用目标分类模型基于所述映射结果进行索引构建,得到所述多个计算节点对应的第一索引数据,其中,所述第一索引数据用于表示所述文档数据的局部索引,所述目标分类模型通过采用多组数据对初始分类模型进行机器学习训练得到,所述多组数据中的每组数据包括:预设特征数据和预设索引数据;
对所述多个计算节点对应的所述第一索引数据进行合并处理,得到第二索引数据,其中,所述第二索引数据用于表示所述文档数据的全局索引。
11.一种电子设备,其特征在于,包括:
存储器,存储有可执行程序;
处理器,用于运行所述程序,其中,所述程序运行时执行权利要求1至10中任意一项所述的数据索引生成方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的数据索引生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410163468.6A CN118132555A (zh) | 2024-02-04 | 2024-02-04 | 数据索引生成方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410163468.6A CN118132555A (zh) | 2024-02-04 | 2024-02-04 | 数据索引生成方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118132555A true CN118132555A (zh) | 2024-06-04 |
Family
ID=91231851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410163468.6A Pending CN118132555A (zh) | 2024-02-04 | 2024-02-04 | 数据索引生成方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118132555A (zh) |
-
2024
- 2024-02-04 CN CN202410163468.6A patent/CN118132555A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11163739B2 (en) | Database table format conversion based on user data access patterns in a networked computing environment | |
US11544623B2 (en) | Consistent filtering of machine learning data | |
US11068439B2 (en) | Unsupervised method for enriching RDF data sources from denormalized data | |
US8832130B2 (en) | System and method for implementing on demand cloud database | |
US9626411B1 (en) | Self-described query execution in a massively parallel SQL execution engine | |
JP2019194882A (ja) | ファーストクラスデータベース要素としての半構造データの実装 | |
US8468120B2 (en) | Systems and methods for tracking and reporting provenance of data used in a massively distributed analytics cloud | |
CN110431545A (zh) | 针对结构化数据和非结构化数据执行查询 | |
CN104331477A (zh) | 基于联邦式检索的云平台并发性能测试方法 | |
KR20130049111A (ko) | 분산 처리를 이용한 포렌식 인덱스 방법 및 장치 | |
CN111881326A (zh) | 一种图数据存储方法、装置、设备及可读存储介质 | |
US9330372B2 (en) | Generating an improved development infrastructure | |
CN115918110A (zh) | 使用键值存储库的空间搜索 | |
CN110442614B (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
US11586598B2 (en) | Data deduplication in data platforms | |
CN115455006A (zh) | 数据处理方法、数据处理装置、电子设备及存储介质 | |
US11727022B2 (en) | Generating a global delta in distributed databases | |
CN118132555A (zh) | 数据索引生成方法、电子设备及存储介质 | |
CN118093582A (zh) | 数据处理方法、电子设备及存储介质 | |
CN116578395B (zh) | 事务处理方法、系统、装置、电子设备及存储介质 | |
Ouchaou et al. | Semantic networks based approach for saas management in cloud computing | |
Nagireddy | Job recommendation system with NoSQL databases: Neo4j, MongoDB, DynamoDB, Cassandra and their critical comparison | |
CN118093581A (zh) | 索引构建方法、电子设备及存储介质 | |
Omidipour et al. | New Generation of Geospatial Clearinghouse Networks | |
CN116541482A (zh) | 文本对象索引方法、对象存储系统及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |