CN113568956B - 一种近似产品查询方法、装置及计算机可读存储介质 - Google Patents
一种近似产品查询方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113568956B CN113568956B CN202110898200.3A CN202110898200A CN113568956B CN 113568956 B CN113568956 B CN 113568956B CN 202110898200 A CN202110898200 A CN 202110898200A CN 113568956 B CN113568956 B CN 113568956B
- Authority
- CN
- China
- Prior art keywords
- initial
- product
- node
- products
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims description 52
- 238000005070 sampling Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 239000002537 cosmetic Substances 0.000 description 5
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种近似产品查询方法、装置及计算机可读存储介质,所述方法包括:获取待查询的初始产品集及各所述初始产品集包含的初始成分;根据所述初始产品集和所述初始成分构建至少两棵限长二分树,其中,所述限长二分树包括根节点、子节点和叶子结点,各个节点存储部分初始产品集和所述初始成分;获取目标产品包含的目标成分,并基于所述目标成分遍历各所述限长二分树并得到对应的产品候选集;将各所述产品候选集包含的初始产品作为与所述目标产品关联的近似产品,极大程度上节省了查询到近似产品所消耗的时间,并且能够精准查询到与目标产品相关联的近似产品。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种近似产品查询方法、装置及计算机可读存储介质。
背景技术
科技的创新,社会的进步让人们能够接触到种类繁多、数量庞大的产品,但随着各个领域产品的种类、数量均以指数的形式上升,如何根据用户需求快速查询到目标产品也逐渐成为一个亟待解决的难题。以美妆领域成千上万的产品为例,想要快速查询到用户需求的产品更是不得不花费大量的时间和精力,但美妆产品含有众多的成分,根据这些美妆成分查到相似产品或者竞品信息,对分析产品的市场行情以及把控行业的动向而言,意义重大。
目前,在海量产品全集内查询到N个成分相同或相近的商品集合属于最近邻(NearNeighbor,NN)问题,而求解NN问题的时间复杂度随着受检集的增大呈线性增长,为了应对过大的时间开销,通常会将NN问题转化为近似最近邻(Approximate Near Neighbor,ANN)问题,牺牲一定的精确性,近似地给出最近邻求解结果,以大幅度节省求解过程中在时间上的开销,但目前基于树的方法在完成ANN处理方案以快速查询到近似产品的效果均不理想。
发明内容
有鉴于此,本申请的目的之一在于提供一种近似产品查询方法、装置及计算机可读存储介质,至少解决上述部分技术问题。
第一方面,本申请实施例提供了一种近似产品查询方法,包括:
获取待查询的初始产品集及各所述初始产品集包含的初始成分;
根据所述初始产品集和所述初始成分构建至少两棵限长二分树,其中,所述限长二分树包括根节点、子节点和叶子结点,各个节点存储部分初始产品集和所述初始成分;
获取目标产品包含的目标成分,并基于所述目标成分遍历各所述限长二分树并得到对应的产品候选集;
将各所述产品候选集包含的初始产品作为与所述目标产品关联的近似产品。
在一种可能的实现方式中,所述限长二分树的获取步骤,包括:
创建与所述限长二分树对应的根节点,并为所述根节点分配对应的子产品集,其中,所述子产品集包含所述初始产品集中的部分初始产品;
针对所述根节点执行预设切分方案,得到左侧的子节点和右侧的子节点;
针对各所述子节点执行所述预设切分方案,直至获得不满足预设切分条件的叶子节点,得到所述限长二分树。
在一种可能的实现方式中,各节点的切分方案包括:
确定当前节点的切分维度,所述切分维度包括与所述当前节点包含的初始产品所对应的全部初始成分中的任一初始成分;
根据各切分维度切分各当前节点,得到下一层的左侧的子节点和右侧的子节点。
在一种可能的实现方式中,所述确定当前节点的切分维度的步骤,包括:
统计所述当前节点的子产品集中全部初始产品的第一数量;
识别并统计所述当前节点中包含任一所述初始成分的初始产品的第二数量;
计算在所述当前节点各初始成分的产品占比,其中,所述初始成分的产品占比为包含任一初始成分的初始产品的第二数量与所述第一数量的比值;
将产品占比满足预设比例范围的所述初始成分作为所述当前节点的切分维度;
若全部所述比值均不满足所述预设比例范围,则从与所述当前节点所包含的初始产品对应的全部初始成分中随机选取一个初始成分作为所述当前节点的切分维度。
在一种可能的实现方式中,不满足预设切分条件的叶子节点包括以下任一种:
叶子节点在对应的所述限长二分树中的长度小于预设长度;
叶子节点在对应的所述限长二分树中的深度小于预设深度;
叶子节点内存储的所述初始产品集中未包含与全部所述初始成分相关联的全部近似产品。
在一种可能的实现方式中,在所述基于所述目标成分遍历全部所述限长二分树,得到全部产品候选集的步骤后,所述方法还包括:
将全部所述产品候选集进行去重。
在一种可能的实现方式中,所述为所述根节点分配对应的子产品集的步骤,包括:
根据预设抽样比例从所述初始产品集中抽取部分所述初始产品,并将包含部分所述初始产品的产品集作为所述子产品集;
将所述子产品集分配至所述根节点。
第二方面,本申请实施例提供了一种近似产品查询装置,所述装置包括:
获取模块,用于获取待查询的初始产品集及各所述初始产品集包含的初始成分;
构建模块,用于根据所述初始产品集和所述初始成分构建至少两棵限长二分树,其中,所述限长二分树包括根节点、子节点和叶子结点,各个节点存储部分初始产品集和所述初始成分;
第一查询模块,用于获取目标产品包含的目标成分,并基于所述目标成分遍历各所述限长二分树并得到对应的产品候选集;
第二查询模块,用于将各所述产品候选集包含的初始产品作为与所述目标产品关联的近似产品。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括计算机可读存储介质及处理器,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被所述处理器执行时,实现第一方面提供的近似产品查询方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被一个或多个处理器执行时,实现本申请提供的信息查询方法。
本申请实施例提供的信息查询方法,根据获取待查询的初始产品集及各所述初始产品集包含的初始成分,构建出限长二分树,并根据目标产品所包含的成分对全部限长二分树进行遍历,得到与目标产品相关联的近似产品。极大程度上节省了查询到近似产品所消耗的时间,并且能够精准查询到与目标产品相关联的近似产品。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的一种计算机设备的结构示意图;
图2示出了本申请实施例提供的一种近似产品查询方法流程图;
图3示出了本申请实施例提供的一种近似产品查询方法所涉及的成分向量表达示意图;
图4示出了本申请实施例提供的一种近似产品查询方法所涉及的一棵限长二分树的结构示意图;
图5示出了本申请实施例提供的一种近似产品查询装置的功能模块示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
请参照图1,图1为本申请实施例提供的一种计算机设备的结构示意图,该计算机设备可以为具有数据处理能的计算机设备,例如,个人电脑、服务器等。存储器120及处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述计算机设备100包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器120中或固化在所述计算机设备100的操作系统(Operating System,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述近似产品查询装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Process,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,图2为本申请实施例提供的一种近似产品查询方法流程图,以下将对该方法包括的各个步骤进行详细阐述。
S210,获取待查询的初始产品集及各所述初始产品集包含的初始成分。
本实施例提供的近似产品查询方法,用于在已知成分的多个初始产品中,查找与某一产品近似的多个产品。此处,将查询得到近似产品所根据的一款产品定义为目标产品,或者将查询得到近似产品所依据的一些成分所对应的产品定义为目标产品,将获取到的、作为被查询多数产品定义为初始产品。各初始产品均包含多种初始成分,在此不一一列举,另外,将包含全部初始产品的集合定义为初始产品集。并且,以美妆产品为例,通过合法渠道在各大美妆网站进行爬虫,或在权威的搜索平台进行信息识别等方式获取初始产品集及各初始产品集包含的全部初始产品的初始成分,可作为后续目标产品的近似产品的查询依据。
其中,初始产品集包含待查询的初始产品,初始成分为解析全部初始产品的成分表所得到的,或者通过互联网查询初始产品的属性、功效等信息得到的。
具体地,计算机设备获取到初始产品及对应初始成分等信息,可根据这些信息查询与目标产品相关联的近似产品。
S220,根据所述初始产品集和所述初始成分构建至少两棵限长二分树,其中,所述限长二分树包括根节点、子节点和叶子结点,各个节点存储部分初始产品集和所述初始成分。
其中,限长二分树是一种数据存储结构,在本实施中,限长二分树至少包括根节点、子节点和叶子节点并且各个节点可存储多个初始产品信息及与多个初始产品对应的初始成分信息,多个初始产品可构成初始产品集。
具体地,限长二分树构建完成后,可用来查询与目标产品相关联的近似产品。
S230,获取目标产品包含的目标成分,并基于所述目标成分遍历各所述限长二分树并得到对应的产品候选集。
在本实施例中,可直接获取用户输入的目标成分,并根据该目标成分遍历已经构建完成的限长二分树,在各限长二分树的叶子节点中获取包括与目标产品相关联的近似产品的产品候选集,针对得到的产品候选集可根据用户需求进行筛选,得到近似产品。
可选地,计算机设备也可以直接获取用户输入的目标产品的名称信息,这种情形下,计算机设备可根据内置的产品信息库识别到目标产品并解析其成分列表,得到目标成分,计算机设备还可以连接到互联网,根据目标产品的名称信息进行联网查询,获得目标产品对应的目标成分。之后,便可根据目标成分查询到与目标产品相关联的近似产品。
S240,将各所述产品候选集包含的初始产品作为与所述目标产品关联的近似产品。
在查询近似产品的过程中,所依赖的限长二分树有多棵,根据目标产品的目标成分遍历每一棵限长二分树,均可在其某一个或者几个叶子节点上获取与目标产品近似的产品候选集,遍历全部限长二分树后即可得到多个产品候选集,每个产品候选集均包含了一定数量的初始产品。
在得到多个产品候选集后,可以直接将全部产品候选集中的初始产品作为与目标产品相关联的近似产品。
进一步地,为了提高目标产品与近似产品间的近似度,也即提高查询产品的准确率,还可以将全部产品候选集所包含的初始产品中满足一定筛选条件的初始产品作为近似产品。
其中,筛选条件可以有多种,例如可以根据成分近似度将对应的产品进行降序排列,选取排序靠前的部分产品作为近似产品,本申请实施例具体不作限定。
产品候选集包含多个初始产品,是在对已构建完成的限长二分树进行遍历后得到的。
可选地,针对产品候选集,识别产品候选集内的全部产品信息,可将全部产品按照含有目标成分数量的多少进行降序排列。
另外,包含部分初始产品的子产品集的抽样的方式是有放回的,经过多次有放回的抽样后,遍历各棵限长二分树得到的多个产品候选集中难以避免会出现重复产品的情形,需要在获取每棵限长二分树的叶子结点中的全部初始产品并作为产品候选集后,对全部产品候选集进行去重,避免出现重复的产品。
综上所述,在本实施例中,根据获取待查询的初始产品集及各所述初始产品集包含的初始成分,构建出限长二分树,并根据目标产品所包含的成分对全部限长二分树进行遍历,得到与目标产品相关联的近似产品。极大程度上节省了查询到近似产品所消耗的时间,并且能够精准查询到与目标产品相关联的近似产品。
涉及到具体关于限长二分树的构建,在一种可能的实施方式中,所述限长二分树的获取步骤,包括:
创建与所述限长二分树对应的根节点,并为所述根节点分配对应的子产品集,其中,所述子产品集包含所述初始产品集中的部分初始产品;
针对所述根节点执行预设切分方案,得到左侧的子节点和右侧的子节点;
针对各所述子节点执行所述预设切分方案,直至获得不满足预设切分条件的叶子节点,得到所述限长二分树。
其中,根节点是构建出一棵限长二分树所必不可少的节点,子产品集包含部分初始产品,在对一个根节点进行切分后,可得到下一层的左侧的子节点和右侧的子节点。具体地,在对各子节点执行切分方案至获得不满足预设切分条件的叶子结点,可停止切分,至此,得到一棵限长二分树,有效节省了后续查询近似产品所需要的时间。
同理,获得多棵限长二分树,需创建多个根节点并执行上述的预设切分方案,直至针对每个根节点均获得不满足预设切分条件的叶子结点,停止切分,可得到多棵限长二分树。
示例性地,请参照图3,图3为申请实施例提供的一种近似产品查询方法所涉及的一棵限长二分树的结构示意图,创建根节点,各个圆圈表示一个节点,顶部第一个Len=0对应的节点为根节点,其中,Len表示长度,Len=0表示当前节点的长度为0。成分18、3298、590、2016等id均存在与其对应的初始成分,初始成分的地址列表如图3中的L,在构建限长二分树的过程中,各个初始成分id又会被重新编码,编码为1表示存在对应的初始成分,编码为0则表示不存在对应的初始成分,而其中,成分id分别为18、3298、590、2016均存在,各个数字1对应的可能就是其中一个成分,如在成分向量表V中,数字1上面会出现id=18,就代表这个位置的数字1对应有成分且成分id为18。
请参照图4,图4是本申请实施例提供的一种近似产品查询方法所涉及的一棵限长二分树的结构示意图,在对节点选择切分维度进行切分的时候,v[i]=0表示上一节点的切分维度选择为第i个成分,且分配到下一层的左侧子节点中的初始产品均不含第i个初始成分,v[i]=1表示上一节点的切分维度选择为第i个成分,且分配到下一层的右侧子节点中的初始产品均含第i个成分,以此类推,k表示第k个初始成分,m表示第m个初始成分,n表示第n个初始成分。再根据预设切分条件,便可完成对多棵限长二分树的创建。
可选地,子产品集可以是按照预设的抽样比例在初始产品集中进行有放回的抽样,一次抽样可获得一个包含部分初始产品的子产品集。进一步地,在构建多棵限长二分树的过程中,需要进行多次有放回的随机抽样,在这种情形下,预设抽样比例可均设为相同,保证分配到多个根节点的子产品集中的部分初始产品的数量一致。示例性地,初始产品集包含的全部初始产品的数量为1000万,设置预设抽样比例数值为0.01并应用到每一次的随机抽样中,也即,每次抽样可获得10万个初始产品。
其中,在一种可能的实施方式中,各节点的切分方案包括:
确定当前节点的切分维度,所述切分维度包括与所述当前节点包含的初始产品所对应的全部初始成分中的任一初始成分;
根据各切分维度切分各当前节点,得到下一层的左侧的子节点和右侧的子节点。
具体地,节点的切分维度是根据当前节点中所存储的初始产品信息确定的,当前节点的切分维度可以是当前节点中全部初始产品所包含的任一初始成分。
可选地,各节点切分维度的选取,还可以是在计算机设备获取到与全部初始产品对应的初始成分后,按预设成分抽样比例从计算机设备获取的全部初始成分中进行有放回的随机抽样,得到一定数量的初始成分,针对各节点的切分维度,则从随机抽样获得的一定数量的初始成分中进行选取。
针对一棵限长二分树的构建,各节点切分维度的确认直接影响对初始产品数据的存储,具体地,会导致左右两侧子节点中的初始产品的数量分配失衡,使左侧或右侧这种单侧方向切分次数过多,更重要的是,这将直接提升后续针对目标成分对近似产品查询的时间复杂度,显著降低针对近似产品的查询效率。
示例性地,针对一个节点确定一个切分维度,导致该节点在切分后获得的左侧子节点和右侧子节点中的初始产品数量分配差异过大,如切分前的节点中存储有10万个初始产品,而切分后得到左侧子节点中存储1万个初始产品,右侧子节点中存储9万个初始产品,针对右侧子节点又出现切分维度选取不当,导致右侧子节点经切分后得到的下一层的右侧子节点中存储8万个初始产品,以此类推,每一层中的右侧子节点中存储的初始产品数量总是过多。可见,各节点切分维度的选取不当,将直接影响后续查询近似产品的时间复杂度,并且查询得到的近似产品与目标产品的匹配准确性也较低。
针对上述情况,在一种可能的实施方式中,确定当前节点的切分维度的步骤,包括:
统计所述当前节点的子产品集中全部初始产品的第一数量;
识别并统计所述当前节点中包含任一所述初始成分的初始产品的第二数量;
计算在所述当前节点各初始成分的产品占比,其中,所述初始成分的产品占比为包含任一初始成分的初始产品的第二数量与所述第一数量的比值;
将产品占比满足预设比例范围的所述初始成分作为所述当前节点的切分维度;
若全部所述比值均不满足所述预设比例范围,则从与所述当前节点所包含的初始产品对应的全部初始成分中随机选取一个初始成分作为所述当前节点的切分维度。
其中,以在当前节点中选取任一初始成分作为当前节点的切分维度为例,若当前节点中存在一种初始成分A,使得当前节点中含有初始成分A的初始产品的数量与当前节点中存储全部初始产品的数量的比值满足预设比例范围,则将该成分A作为当前节点的切分维度,并对当前节点进行切分。
若当前节点中存在三种初始成分A、B、C,使得当前节点中分别含有初始成分A、B、C的初始产品的数量与当前节点中存储全部初始产品的数量的3个比值满足预设比例范围,则将最接近比例值为0.5的成分作为当前节点的切分维度;若3个比值均满足预设比例范围,且同比例值为0.5的差值的绝对值均相同,如初始成分A对应的比例值为0.3,初始成分B对应的比例值为0.3,初始成分C对应的比例值为0.7,可见,3个比例值同比例值0.5的差值的绝对值均为0.2,则在A、B、C中随机选取一个初始成分作为当前节点的切分维度,并对当前节点进行切分。进一步地,若存在多种初始成分满足上述情况,处理方式同上,在此不一一赘述。
另外,若当前节点中并不存在一种初始成分A,使得当前节点中含有初始成分A的初始产品的数量与当前节点中存储全部初始产品的数量的比值满足预设比例范围,则在当前节点所包含的初始成分中找到一个初始成分对应的比例值最接近比例值为0.5的成分作为切分维度;若当前节点中的全部初始成分对应的比例值均不满足预设比例范围,且存在多个初始成分对应的比例值同比例值0.5作差后的绝对值均相同,则在这多个初始成分中随机选取一个初始成分作为当前节点的切分维度。
可选地,预设比例范围可根据用户需要分为多组。示例性地,第一组预设比例范围为[0.45,0.55],第二组预设比例范围为[0.4,0.6],第三组比例范围为[0.3,0.7],具体的预设比例范围可根据用户需要进行设置,本申请在此不做限制。
以在计算机设备直接获取到的全部初始成分,并按预设成分抽样比例对全部初始成分进行抽样,获得的部门初始成分中选取任一初始成分作为当前节点的切分维度为例,具体的实施过程适用于上述以在当前节点中选取任一初始成分作为当前节点的切分维度为例的情形,本申请在此不一一赘述。
其中,不满足预设切分条件的叶子节点包括以下任一种:
叶子节点在对应的所述限长二分树中的长度小于预设长度;
叶子节点在对应的所述限长二分树中的深度小于预设深度;
叶子节点内存储的所述初始产品集中未包含与全部所述初始成分相关联的全部近似产品。
具体地,以当前节点为例,若当前节点中存储的初始产品为首次经过预设切分维度进行切分,且均是包含与切分维度对应的初始成分的初始产品,则当前节点的长度为1,预设长度可根据用户的需要进行设置,可选地,预设长度还可以根据与产品对应行业的先验知识进行设定。根节点在一棵限长二分树对应的深度为1,预设深度也可根据用户的需要进行设置。
综上,本申请实施例提供的信息查询方法,根据获取待查询的初始产品集及各所述初始产品集包含的初始成分,并根据预设长度和预设深度构建出限长二分树,并根据目标产品所包含的成分对全部限长二分树进行遍历,得到与目标产品相关联的近似产品。极大程度上节省了查询到近似产品所消耗的时间,并且能够精准查询到与目标产品相关联的近似产品。
与上述方法实施例相对应,本申请还提供一种近似产品查询装置。
请参照图5,图5为本申请实施例提供的一种近似产品查询装置的功能模块示意图,所述近似产品查询装置500包括:
获取模块510,用于获取待查询的初始产品集及各所述初始产品集包含的初始成分;
构建模块520,用于根据所述初始产品集和所述初始成分构建至少两棵限长二分树,其中,所述限长二分树包括根节点、子节点和叶子结点,各个节点存储部分初始产品集和所述初始成分;
第一查询模块530,用于获取目标产品包含的目标成分,并基于所述目标成分遍历各所述限长二分树并得到对应的产品候选集;
第二查询模块540,用于将各所述产品候选集包含的初始产品作为与所述目标产品关联的近似产品。
其中,近似产品查询装置500可以为上述计算机设备100中的近似产品查询装置110。
本实施例提供的信息查询装置、计算机设备及计算机可读存储介质,根据获取待查询的初始产品集及各所述初始产品集包含的初始成分,构建出限长二分树,并根据目标产品所包含的成分对全部限长二分树进行遍历,得到与目标产品相关联的近似产品。极大程度上节省了查询到近似产品所消耗的时间,并且能够精准查询到与目标产品相关联的近似产品。
本实施例提供的信息查询装置、计算机设备及计算机可读存储介质的具体实施过程,可以参见上述信息查询方法的具体实施过程,在此不再一一赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种近似产品查询方法,其特征在于,所述方法包括:
获取待查询的初始产品集及各所述初始产品集包含的初始成分;
根据所述初始产品集和所述初始成分构建至少两棵限长二分树,其中,所述限长二分树包括根节点、子节点和叶子结点,各个节点存储部分初始产品集和所述初始成分;
获取目标产品包含的目标成分,并基于所述目标成分遍历各所述限长二分树并得到对应的产品候选集;
将各所述产品候选集包含的初始产品作为与所述目标产品关联的近似产品;所述限长二分树的获取步骤,包括:
创建与所述限长二分树对应的根节点,并为所述根节点分配对应的子产品集,其中,所述子产品集包含所述初始产品集中的部分初始产品;
针对所述根节点执行预设切分方案,得到左侧的子节点和右侧的子节点;
针对各所述子节点执行所述预设切分方案,直至获得不满足预设切分条件的叶子节点,得到所述限长二分树;
各节点的切分方案包括:
确定当前节点的切分维度,所述切分维度包括与所述当前节点包含的初始产品所对应的全部初始成分中的任一初始成分;
根据各切分维度切分各当前节点,得到下一层的左侧的子节点和右侧的子节点;
各节点切分维度的选取,是在计算机设备获取到与全部初始产品对应的初始成分后,按预设成分抽样比例从计算机设备获取的全部初始成分中进行有放回的随机抽样,得到一定数量的初始成分,针对各节点的切分维度,则从随机抽样获得的一定数量的初始成分中进行选取;
所述确定当前节点的切分维度的步骤,包括:
统计所述当前节点的子产品集中全部初始产品的第一数量;
识别并统计所述当前节点中包含任一所述初始成分的初始产品的第二数量;
计算在所述当前节点各初始成分的产品占比,其中,所述初始成分的产品占比为包含任一初始成分的初始产品的第二数量与所述第一数量的比值;
将产品占比满足预设比例范围的所述初始成分作为所述当前节点的切分维度;
若全部所述比值均不满足所述预设比例范围,则从与所述当前节点所包含的初始产品对应的全部初始成分中随机选取一个初始成分作为所述当前节点的切分维度。
2.根据权利要求1所述的近似产品查询方法,其特征在于,不满足预设切分条件的叶子节点包括以下任一种:
叶子节点在对应的所述限长二分树中的长度小于预设长度;
叶子节点在对应的所述限长二分树中的深度小于预设深度;
叶子节点内存储的所述初始产品集中未包含与全部所述初始成分相关联的全部近似产品。
3.根据权利要求1所述的近似产品查询方法,其特征在于,在所述基于所述目标成分遍历全部所述限长二分树,得到全部产品候选集的步骤后,所述方法还包括:
将全部所述产品候选集进行去重。
4.根据权利要求1所述的近似产品查询方法,其特征在于,所述为所述根节点分配对应的子产品集的步骤,包括:
根据预设抽样比例从所述初始产品集中抽取部分所述初始产品,并将包含部分所述初始产品的产品集作为所述子产品集;
将所述子产品集分配至所述根节点。
5.一种近似产品查询装置,其特征在于,所述装置包括:
获取模块,用于获取待查询的初始产品集及各所述初始产品集包含的初始成分;
构建模块,用于根据所述初始产品集和所述初始成分构建至少两棵限长二分树,其中,所述限长二分树包括根节点、子节点和叶子结点,各个节点存储部分初始产品集和所述初始成分;
第一查询模块,用于获取目标产品包含的目标成分,并基于所述目标成分遍历各所述限长二分树并得到对应的产品候选集;
第二查询模块,用于将各所述产品候选集包含的初始产品作为与所述目标产品关联的近似产品;
所述限长二分树的获取步骤,包括:
创建与所述限长二分树对应的根节点,并为所述根节点分配对应的子产品集,其中,所述子产品集包含所述初始产品集中的部分初始产品;
针对所述根节点执行预设切分方案,得到左侧的子节点和右侧的子节点;
针对各所述子节点执行所述预设切分方案,直至获得不满足预设切分条件的叶子节点,得到所述限长二分树;
各节点的切分方案包括:
确定当前节点的切分维度,所述切分维度包括与所述当前节点包含的初始产品所对应的全部初始成分中的任一初始成分;
根据各切分维度切分各当前节点,得到下一层的左侧的子节点和右侧的子节点;
各节点切分维度的选取,是在计算机设备获取到与全部初始产品对应的初始成分后,按预设成分抽样比例从计算机设备获取的全部初始成分中进行有放回的随机抽样,得到一定数量的初始成分,针对各节点的切分维度,则从随机抽样获得的一定数量的初始成分中进行选取;
所述确定当前节点的切分维度的步骤,包括:
统计所述当前节点的子产品集中全部初始产品的第一数量;
识别并统计所述当前节点中包含任一所述初始成分的初始产品的第二数量;
计算在所述当前节点各初始成分的产品占比,其中,所述初始成分的产品占比为包含任一初始成分的初始产品的第二数量与所述第一数量的比值;
将产品占比满足预设比例范围的所述初始成分作为所述当前节点的切分维度;
若全部所述比值均不满足所述预设比例范围,则从与所述当前节点所包含的初始产品对应的全部初始成分中随机选取一个初始成分作为所述当前节点的切分维度。
6.一种计算机设备,其特征在于,所述计算机设备包括计算机可读存储介质及处理器,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被所述处理器执行时实现权利要求1-4中任一项所述的近似产品查询方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序在被一个或多个处理器执行时,实现权利要求1-4中任一项所述的近似产品查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110898200.3A CN113568956B (zh) | 2021-08-05 | 2021-08-05 | 一种近似产品查询方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110898200.3A CN113568956B (zh) | 2021-08-05 | 2021-08-05 | 一种近似产品查询方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568956A CN113568956A (zh) | 2021-10-29 |
CN113568956B true CN113568956B (zh) | 2024-06-18 |
Family
ID=78170535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110898200.3A Active CN113568956B (zh) | 2021-08-05 | 2021-08-05 | 一种近似产品查询方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568956B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829804A (zh) * | 2018-06-05 | 2018-11-16 | 洛阳师范学院 | 基于距离划分树的高维数据相似性连接查询方法及装置 |
CN110019876A (zh) * | 2017-12-25 | 2019-07-16 | 深圳云天励飞技术有限公司 | 数据查询方法、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1304993C (zh) * | 2003-08-04 | 2007-03-14 | 中国科学院自动化研究所 | 商标检索方法 |
CN109522436A (zh) * | 2018-11-29 | 2019-03-26 | 厦门美图之家科技有限公司 | 相似图像查找方法及装置 |
CN111159187A (zh) * | 2019-12-27 | 2020-05-15 | 北京奇艺世纪科技有限公司 | 二维查询方法、装置、终端设备及计算机可读存储介质 |
CN113157960A (zh) * | 2021-02-25 | 2021-07-23 | 北京金堤科技有限公司 | 相似数据获取的方法及装置、电子设备和计算机可读存储介质 |
-
2021
- 2021-08-05 CN CN202110898200.3A patent/CN113568956B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019876A (zh) * | 2017-12-25 | 2019-07-16 | 深圳云天励飞技术有限公司 | 数据查询方法、电子设备及存储介质 |
CN108829804A (zh) * | 2018-06-05 | 2018-11-16 | 洛阳师范学院 | 基于距离划分树的高维数据相似性连接查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113568956A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200057958A1 (en) | Identification and application of hyperparameters for machine learning | |
US20230267523A1 (en) | Systems and methods of multicolor search of images | |
CN108390788B (zh) | 用户识别方法、装置及电子设备 | |
CN111291024A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
WO2002071273A2 (en) | Categorization based on record linkage theory | |
CN109460386B (zh) | 基于多维模糊哈希匹配的恶意文件同源性分析方法及装置 | |
EP3217296A1 (en) | Data query method and apparatus | |
CN112364014B (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN113255370A (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
US20210049664A1 (en) | Systems and methods of ontological machine learning for labeling products in an electronic product catalog | |
CN110807487B (zh) | 一种基于域名系统流量记录数据识别用户的方法及装置 | |
CN110928957A (zh) | 数据聚类方法及装置 | |
CN109460398B (zh) | 时间序列数据的补全方法、装置及电子设备 | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
US11010393B2 (en) | Library search apparatus, library search system, and library search method | |
CN116126864A (zh) | 索引构建方法、数据查询方法及相关设备 | |
CN109101562B (zh) | 寻找目标群体的方法、装置、计算机设备及存储介质 | |
CN113568956B (zh) | 一种近似产品查询方法、装置及计算机可读存储介质 | |
CN109189840B (zh) | 一种流式在线日志解析方法 | |
CN110019341B (zh) | 一种数据查询方法及装置 | |
CN107844536B (zh) | 应用程序选择的方法、装置和系统 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN115147020B (zh) | 装修数据处理方法、装置、设备及存储介质 | |
CN112069175A (zh) | 数据查询的方法、装置及电子设备 | |
CN109828902B (zh) | 接口参数确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |