CN116522014A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN116522014A CN116522014A CN202310805600.4A CN202310805600A CN116522014A CN 116522014 A CN116522014 A CN 116522014A CN 202310805600 A CN202310805600 A CN 202310805600A CN 116522014 A CN116522014 A CN 116522014A
- Authority
- CN
- China
- Prior art keywords
- service
- group
- data
- service data
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 27
- 238000004891 communication Methods 0.000 description 12
- 238000005406 washing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000002453 shampoo Substances 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供数据处理方法及装置,其中所述数据处理方法包括:获取待检索业务数据;基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。通过本方法在检索数据时,先确定待检索业务数据对应的初始群组,再确定初始群组对应的参考群组,再与参考群组中的业务数据进行比对,减少了检索数据量,提升了检索效率。
Description
技术领域
本申请涉及计算机技术领域,特别涉及数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的业务发展到线上,其中,检索业务是众多业务中的一个重要课题,例如搜索商品、搜索多媒体信息、搜索服务等等。目前的搜索大多是基于关键词匹配或者语义分析,基于关键词匹配的方法搜索速度较快,但是其严格匹配的方式使得搜索出来的内容较少,基于语义分析的搜索通过自然语言处理技术进行语义匹配,其需要与所有结果进行匹配,当数据内容量较大时,就会出现搜索速度慢的问题。
因此,亟需一种新的目标搜索方法,来提升搜索内容的丰富度和搜索效率。
发明内容
有鉴于此,本申请实施例提供了数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的上述问题。
根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
获取待检索业务数据;
基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;
根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;
根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
根据本申请实施例的第二方面,提供了一种数据处理方法,包括:
接收用户发送的业务数据检索任务,其中,所述业务数据检索任务中携带有待检索业务数据;
基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;
根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;
根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据;
将所述至少一个目标业务数据发送至所述用户。
根据本申请实施例的第三方面,提供了一种数据处理方法,包括:
接收商品检索任务,其中,所述商品检索任务中携带有待检索商品标识;
基于所述待检索商品标识在尼斯分类表中确定初始商品群组,其中,所述尼斯分类表包括多个商品群组,各商品群组包括多个商品标识;
根据所述初始商品群组在所述尼斯分类表中选取至少一个参考商品群组,并基于所述初始商品群组和各参考商品群组确定多个参考商品标识;
根据所述待检索商品标识和各参考商品标识,确定所述待检索商品标识对应的至少一个目标商品标识。
根据本申请实施例的第四方面,提供了一种数据处理装置,包括:
获取模块,被配置为获取待检索业务数据;
第一确定模块,被配置为基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;
选取模块,被配置为根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;
第二确定模块,被配置为根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据处理方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述数据处理方法的步骤。
本申请提供的数据处理方法,获取待检索业务数据;基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
本申请一实施例实现了在在预设业务数据库中检索待检索业务数据的情况下,由于预设业务数据库的数据量庞大,可以先确定待检索业务数据对应的初始业务群组,再从预设业务数据库中确定与初始业务群组相关度较高的参考业务群组,最后从参考业务群组中的业务数据中检索该待检索业务数据,避免了在全部的业务数据库中检索,提升了检索效率,同时由于是在相关度较高的参考业务群组中进行检索,也丰富了检索结果,为用户提供更多的选择,通过本申请提供的方法,提升了检索结果的丰富度,也提升了检索效率,为用户带来较好的搜索体验。
附图说明
图1是本申请一实施例提供的一种数据处理系统的架构图;
图2是本申请一实施例提供的一种数据处理方法的流程图;
图3是本申请另一实施例提供的一种数据处理方法的流程图;
图4是本申请一实施例提供的一种应用于商品搜索场景的数据处理方法的处理流程图;
图5是本申请一实施例提供的一种数据处理装置的结构示意图;
图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
尼斯分类表:根据《商标注册用商品和服务国际分类尼斯协定》指定的商标类目分类表,尼斯分类表定期修订,一是增加新的商品,二是将已列入分类表的商品按照新的观点进行调整,以求商品更具有内在的统一性。
在本申请中,提供了数据处理方法,本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本申请一个实施例提供的一种数据处理系统的架构图,数据处理系统可以包括客户端100和服务端200;
客户端100,用于向服务端200发送待检索业务数据;
服务端200,用于基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据;向客户端100发送目标业务数据;
客户端100,还用于接收服务端200发送的目标业务数据。
数据处理系统可以包括多个客户端100以及服务端200,其中,客户端100可以称为端侧设备,服务端200可以称为云侧设备。多个客户端100之间通过服务端200可以建立通信连接,在商品检索场景中,服务端200即用来在多个客户端100之间提供商品检索服务,多个客户端100可以分别作为发送端或接收端,通过服务端200实现通信。
用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据,或将数据发送至其它客户端100等。在商品检索场景中,可以是用户通过客户端100向服务端200发布数据流,服务端200根据该数据流生成目标商品标识,并将目标商品标识推送至其他建立通信的客户端中。
其中,客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。
客户端100可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端100可以基于服务端200提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real TimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端200可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端200可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content DeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本申请实施例中提供的数据处理方法一般由服务端执行,但是,在本申请的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本申请实施例所提供的数据处理方法。在其它实施例中,本申请实施例所提供的数据处理方法还可以是由客户端与服务端共同执行。
图2示出了根据本申请一实施例提供的一种数据处理方法的流程图,具体包括以下步骤:
步骤202:获取待检索业务数据。
其中,待检索业务数据具体是指需要在业务数据库中进行检索的业务数据,在本申请提供的方法中,待检索业务数据可以是文本内容,也可以是语音内容,或者其他方式,只需提取到其中的待检索业务数据即可。
在本申请提供的一具体实施方式中,待检索业务数据是用户输入的文字,例如“洗发水”,即用户想搜索关于“洗发水”的相关内容。用户可以在可视化界面中的文本框中输入待检索业务数据,并点击搜索按钮,终端即可获取到该待检索业务数据。
在本申请提供的另一具体实施方式中,待检索业务数据也可以是用户输入的语音信息,例如用户打开终端的收声设备,采集到用户输入的“搜索可乐”的语音信息,通过抽取语音信息中的关键实体“可乐”,并将“可乐”作为待检索业务数据进行后续的处理,在本申请提供的方法中,抽取关键实体的方法可以参照现有的实体抽取方法,在本申请中对此不做限定。
在本申请提供的方法中,获取待检索业务数据,可以是直接获取文本内容,也可以是直接获取语音内容,也可以是在获取到语音内容后,对其进行语音识别,获得语音内容对应的文本内容,在本申请中,对获取待检索业务数据的具体形式不做限定。以实际应用为准。
步骤204:基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据。
其中,本申请实施例提供的预设业务数据库具有特定的数据结构,即在业务数据库中包括有多个业务群组,每个业务群组中包括有多个业务数据。例如,当预设业务数据库为部门管理数据库的情况下,部门管理数据库包括有多个部门,每个部门包括有多个员工;又例如当预设业务数据库为商标领域的尼斯分类表的情况下,尼斯分表中包括多个商品群组,每个商品群组中包括有多个商品名称。
本申请提供的方法,适用于上述包括有多个业务群组,每个业务群组中包括有多个业务数据的业务数据库。在目前的检索方法中,需要根据语义信息,将待检索业务数据与预设业务数据库中的所有业务数据进行数据匹配,找到相近语义信息的业务数据并进行反馈,由于语音信息匹配的计算开销和计算耗时较大,若待检索业务数据与各业务数据进行全部匹配的情况下,检索速度会很慢。
基于此,在本申请提供的方法中,使用了通过找到与该待检索业务数据对应的业务群组作为过渡,业务群组的数量相对于业务数据的数量要少很多,通过业务群组来进行后续的数据检索,可以极大的减少计算开销,提升检索效率。
如上述,在预设业务数据库中,每个业务数据都会对应有一个业务群组,因此,在获得待检索业务数据之后,即可先根据待检索业务数据在预设业务数据库中确定与其对应的初始业务群组。具体的,基于所述待检索业务数据在预设业务数据库中确定初始业务群组,包括:
基于所述待检索业务数据和关键词检索策略在预设业务数据库中执行检索;
在所述预设业务数据库中检索到所述待检索业务数据的情况下,确定所述待检索业务数据对应的业务群组为初始业务群组;
在所述预设业务数据库中未检索到所述待检索业务数据的情况下,基于所述待检索业务数据和各业务群组确定初始业务群组。
在根据待检索业务数据在预设业务数据库中确定初始业务群组的过程中,优先根据待检索业务数据和关键词检索策略在预设业务数据库中进行检索,关键词检索策略为精准匹配策略,可以理解为数据库查询语句,当有精确的待检索业务数据内容时,通过关键词检索策略可以快速的在预设业务数据库中执行检索,并获得检索结果。更进一步,检索结果具体包括在预设业务数据库中检索到该待检索业务数据,或者检索结果为在预设业务数据库中未检索到该待检索业务数据。
在本申请提供的方法中,对于在预设业务数据库中是否检索到该待检索业务数据分为两种不同的处理方式,下面依次对两种情况分别进行解释说明。
在预设业务数据库中检索到该待检索业务数据的情况下,说明待检索业务数据已经保存在该预设业务数据库中的,此时,可以直接确定该待检索业务数据在预设业务数据库中对应的业务群组,并将该业务群组作为初始业务群组。
在预设业务数据库中未检索到该待检索业务数据的情况下,即需要根据该待检索业务数据和预设业务数据库中的各业务群组进行比对,从中选取初始业务群组。
具体的,基于所述待检索业务数据和各业务群组确定初始业务群组,包括:
确定所述待检索业务数据与各业务群组的业务群组相似度;
基于各业务群组的业务群组相似度确定初始业务群组。
在本申请提供的方法中,在预设业务数据库中有海量的业务数据,但是每个业务数据都对应有业务群组,在预设业务数据库中的业务群组的数量相对于业务数据的数量就会少很多,因此,如果在预设业务数据库中没有找到待检索业务数据的情况下,可以计算待检索业务数据与各业务群组之间的业务群组相似度,并选取业务群组相似度最高的业务群组为初始业务群组。
在本申请提供的一具体实施方式中,待检索业务数据为“业务数据a”,在预设业务数据库中包括有m个业务群组,分别为“业务群组1”、“业务群组2”、……、“业务群组m”,可以依次计算业务数据a与各业务群组的业务群组相似度,例如业务数据a与业务群组1的业务群组相似度为a-1,业务数据a与业务群组2的业务群组相似度为a-2……业务数据a与业务群组m的业务群组相似度为a-m。在计算完成之后,发现业务群组相似度a-2最高,则可以确定业务群组2为待检索业务数据对应的初始业务群组。
更进一步,确定所述待检索业务数据与各业务群组的业务群组相似度,包括:
将所述待检索业务数据转换为待检索业务数据向量,将各业务群组转换为各业务群组对应的业务群组向量;
计算所述待检索业务数据向量与各业务群组向量的向量相似度;
将各业务群组向量对应的向量相似度确定为各业务群组对应的业务群组相似度。
在确定待检索业务数据和各业务群组的业务群组相似度的过程中,在本申请中使用的是语义匹配策略,具体的,先将待检索业务数据进行向量化处理,获得待检索业务数据向量,再分别将各业务群组进行向量化处理,获得各业务群组对应的业务群组向量。
分别计算待检索业务数据向量与各业务群组向量之间的向量相似度,将各业务群组向量对应的向量相似度,作为各业务群组对应的业务群组相似度。
在本申请提供的一具体实施方式中,基于所述待检索业务数据和各业务群组确定初始业务群组还可以通过预先训练好的神经网络模型来处理。具体的, 在实际应用中先训练一个业务群组选取模型,该业务群组选取模型用于根据输入的待检索业务数据和各业务群组,输出相似度最高的业务群组,并将相似度计算模型输出的业务群组作为初始业务群组。
基于待检索业务数据在预设业务数据库中确定初始业务群组,用于在后续的处理过程中基于初始业务群组减少匹配业务数据的数据量。
步骤206:根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据。
在确定了初始业务群组之后,还需要根据该初始业务群组在预设业务数据库中选取与其对应的至少一个参考业务群组,其中,参考业务群组具体是指与初始业务群组存在关联关系的业务群组。
在实际应用中,当用户想要对待检索业务数据进行检索时,是希望检索到与其相关度较高的业务数据。基于此,可以先找到待检索业务数据对应的初始业务群组,再通过初始业务群组找到关联度较高的参考业务群组,从参考业务群中选取多个参考业务数据,再进行检索。通过该方法,既可以找到与待检索业务数据相关的业务数据,又可以减少一些业务检索开销。
在上述步骤中说明了确定初始业务群组的两种不同情况,在根据初始业务群组,这两种不同的情况下,选取参考业务群组的方式也不同。下面对这两种情况分别进行解释说明。
在所述预设业务数据库中未检索到所述待检索业务数据的情况下,根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,包括:
基于各业务群组的业务群组相似度和预设业务群组数量阈值,确定至少一个参考业务群组。
第一种情况是在预设业务数据中未检索到待检索业务数据的情况,在此情况下,是通过计算待检索业务数据与各业务群组之间的业务群组相似度,选取业务群组相似度最高的业务群组为初始业务群组。
在此情况下,还可以进一步的在剩余的业务群组中,根据业务群组相似度和预设业务群组数量阈值来确定参考业务数据。其中,预设业务群组数量阈值具体是指参考业务群组的数量,例如预设业务群组数量阈值有4个,则在选取完初始业务群组后,在剩余的业务群组中选取业务群组相似度最高的四个业务群组作为参考业务群组。
例如,预设业务群组数量阈值为3,待检索业务数据为“业务数据a”,在预设业务数据库中包括有m个业务群组,分别为“业务群组1”、“业务群组2”、……、“业务群组m”,依次计算业务数据a与各业务群组的业务群组相似度后,将各业务群组按照业务群组相似度排序,选取业务群组相似度最高的4个业务群组,其中,业务群组相似度最高的业务群组为初始业务群组,剩余的3个业务群组为参考业务群组。
在本申请提供的另一具体实施方式中,还可以分别计算初始业务群组与其他业务群组之间的相似度,选取与预设业务群组数量阈值对应数量的业务群组为参考业务群组。
例如,预设业务群组数量阈值为3,待检索业务数据为“业务数据a”,在预设业务数据库中包括有m个业务群组,分别为“业务群组1”、“业务群组2”、……、“业务群组m”,在确定“业务群组2”为初始业务群组后,分别计算“业务群组2”与剩余各业务群组之间的相似度,再选取相似度最高的3个业务群组“业务群组1”、 “业务群组3”、 “业务群组m-3”为参考业务群组。
以上为在预设业务数据库中检索到该待检索业务数据的数据处理过程,在本申请提供的另一具体实施方式中,在所述预设业务数据库中检索到所述待检索业务数据的情况下,根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,包括:
确定所述初始业务群组对应的初始业务类,其中,所述预设业务数据库包括多个业务类,各业务类包括多个业务群组;
根据所述初始业务类确定至少一个参考业务类;
确定各参考业务类对应的业务群组为参考业务群组。
在本申请提供的方法中,预设业务数据库还有一个特征,即在预设业务数据库中还包括有多个业务类,每个业务类包括有多个业务群组,即每个业务群组对应有一个业务类。例如当预设业务数据库为部门管理数据库的情况下,部门管理数据库有多个业务分类,每个业务分类下有多个部门,每个部门包括有多个员工;又例如当预设业务数据库为商标领域的尼斯分类表的情况下,尼斯分表中包括多个商品类,每个商品类中包括有多个商品群组,每个商品群组中包括有多个商品名称。
在确定了初始业务群组之后,还可以进一步的寻找与该初始业务群组对应的初始业务类,该初始业务类具体是指初始业务分组所属的业务类。
在本申请提供的一具体实施方式中以在尼斯分类表中查询商品分类为例进行解释说明,尼斯分类表是根据《商标注册用商品和服务国际分类尼斯协定》指定的商标类目分类表,尼斯分类表定期修订,一是增加新的商品,二是将已列入分类表的商品按照新的观点进行调整,以求商品更具有内在的统一性。
待检索业务数据以“洗发水”为例,其对应的业务群组为“0301群组”, “0301群组”对应的业务类为“洗涤、熟悉、盥洗用品类”,因此,对于待检索业务数据“洗发水”,其对应的初始业务群组为“0301群组”,初始业务类为“洗涤、熟悉、盥洗用品类”。再根据初始业务类在尼斯分类表中查询与“洗涤、熟悉、盥洗用品类”相关的分类,进而确定参考业务类。最后将参考业务类中的群组作为初始业务群组 “0301群组”对应的参考业务群组。
在本申请提供的一具体实施方式中,根据所述初始业务类确定至少一个参考业务类,包括:
将所述预设业务数据库中的各业务类转换为对应的业务类向量;
计算所述初始业务类对应的初始业务类向量与其他业务类向量对应的业务类相似度;
基于各业务类相似度和预设业务类规则,确定至少一个参考业务类。
在根据初始业务类确定至少一个参考业务类的过程中,先将预设业务数据库中的各业务类转换为对应的业务类向量。再分别解算初始业务类对应的初始业务类向量与其他业务类的业务类向量之间的业务类相似度。
最后根据各业务类相似度和预设业务类规则来确定至少一个参考业务类,具体的,预设业务类规则可以是选取预设数量的参考业务类,也可以是选取业务类相似度大于预设阈值的业务类为参考业务类。在本申请中,对预设业务类规则的具体形式不做限定。
在本申请提供的一具体实施方式中,依然以在尼斯分类表中查询商品分类为例进行解释说明,初始业务类为“洗涤、熟悉、盥洗用品类”,将尼斯分类表45个业务类转换为对应的业务类向量,将“洗涤、熟悉、盥洗用品类”对应的初始业务类向量E0,分别与其他44个业务类的业务类向量计算业务类相似度,并选取业务类相似度排名前两位的业务类为参考业务类。将这两个参考业务类对应的多个业务群组,作为参考业务群组。
在本申请提供的一具体实施方式中,基于所述初始业务群组和各参考业务群组确定多个参考业务数据,包括:
确定所述初始业务群组对应的业务数据和所述参考业务群组对应的业务数据为参考业务数据。
在实际应用中,根据待检索业务数据进行数据检索,还是需要与业务数据进行比对,因此在确定了参考业务群组后,可以根据初始业务群组和参考业务群组来进一步确定参考业务数据。
具体的,在本申请提供的方法中,需要将初始业务群组中的业务数据和参考业务群组中的业务数据一同作为参考业务数据,通过计算业务类的相似度和业务群组的相似度,保证了进行检索的数据与待检索业务数据的相关性,在保证了检索数据内容丰富的前提下,又能提升检索效率。
步骤208:根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
目标业务数据具体是指与待检索业务数据相关的业务数据,在实际应用中,在确定了待检索业务数据和参考业务数据之后,即可在各参考业务数据中检索出与待检索业务数据具有相关性的目标业务数据。在本申请提供的实施方式中,确定待检索业务数据对应的至少一个目标业务数据通常采用语义匹配策略,即将参考业务数据中与待检索业务数据的语义匹配更接近业务数据作为目标业务数据。
具体的,根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据,包括:
计算所述待检索业务数据和各参考业务数据间的业务数据相似度;
根据各参考业务数据对应的业务数据相似度确定所述待检索业务数据对应的至少一个目标业务数据。
在基于语义匹配策略进行数据检索的过程中,通常先将待检索业务数据和参考业务数据都转化为各自对应的业务数据向量,再分别计算待检索业务数据对应的业务数据向量与参考业务数据对应的业务数据向量的向量相似度,并将该向量相似度作为待检索业务数据与各参考业务数据之间的业务数据相似度。
业务数据相似度越高,则说明该参考业务数据与待检索业务数据之间的关联性越高,进一步的,基于预设的目标业务数据确认规则,根据各参考业务数据对应的业务数据相似度,确定满足目标业务数据确认规则的参考业务数据作为待检索业务数据对应的目标业务数据。
例如,若目标业务数据确认规则为选取10个目标业务数据,则选取排名前10的业务相似度对应的参考业务数据为目标业务数据;又例如,若目标业务数据确认规则为选取业务相似度大于预设阈值的参考业务数据为目标业务数据,则基于该目标业务确认规则确定若干个目标业务数据。
至此可以从预设业务数据中,找出与待检索业务数据对应的目标业务数据,在实际应用中,若待检索业务数据存在于预设业务数据库中,则可以将待检索业务数据和目标业务数据一起返回给用户;若待检索业务数据未存在于预设业务数据库中,则可以仅将目标业务数据返回给用户。在本申请中,对此不做限定。
本申请提供的一种数据处理方法,包括获取待检索业务数据;基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
通过本申请提供的数据处理方法,利用了预设业务数据库的特定数据结构,在接收到待检索业务数据的情况下,先确定待检索业务数据对应的初始业务群组,再通过初始业务群组确定参考业务群组,保证了后续确定的参考业务数据与待检索业务数据在业务群组层面具有相关性,将相关性差的业务数据排除。在确定参考业务群组后,将参考业务群组中的业务数据作为参考业务数据,并用参考业务数据与待检索业务数据进行比对,从而选取最终的目标业务数据,由于通过上述确定参考业务群组的方式过滤的一些无关的业务数据,提升了数据检索效率,同时有相关性较高的参考业务数据与待检索业务数据进行比对,提升了数据检索的数据丰富度。通过本申请提供的方法,可以为用户提供更好的数据检索服务。
参见图3,图3示出了本说明书一个实施例提供的一种数据处理方法的流程图,具体包括以下步骤:
步骤302:接收用户发送的业务数据检索任务,其中,所述业务数据检索任务中携带有待检索业务数据。
步骤304:基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据。
步骤306:根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据。
步骤308:根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
步骤310:将所述至少一个目标业务数据发送至所述用户。
需要说明的是,步骤302-步骤308的具体实现方式与上述步骤202-步骤208的实现方式相同,在本说明书实施例中不再进行赘述。
在本实施方式中,是接收到用户发送的业务数据检索任务,在该业务数据检索任务中包括有待检索业务数据,通过上述实施例中描述的数据处理方法对待检索业务数据执行相应的检索任务后,获得该业务数据检索任务对应的至少一个目标业务数据,将该目标业务数据返回给用户,以完成用户的业务数据检索任务。
本申请提供的一种数据处理方法,包括获取待检索业务数据;基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
通过本申请提供的数据处理方法,利用了预设业务数据库的特定数据结构,在接收到待检索业务数据的情况下,先确定待检索业务数据对应的初始业务群组,再通过初始业务群组确定参考业务群组,保证了后续确定的参考业务数据与待检索业务数据在业务群组层面具有相关性,将相关性差的业务数据排除。在确定参考业务群组后,将参考业务群组中的业务数据作为参考业务数据,并用参考业务数据与待检索业务数据进行比对,从而选取最终的目标业务数据,由于通过上述确定参考业务群组的方式过滤的一些无关的业务数据,提升了数据检索效率,同时有相关性较高的参考业务数据与待检索业务数据进行比对,提升了数据检索的数据丰富度。通过本申请提供的方法,可以为用户提供更好的数据检索服务。
下述结合附图4,以本申请提供的数据处理方法在商品搜索场景的应用为例,对所述数据处理方法进行进一步说明。其中,图4示出了本申请一实施例提供的一种应用于商品搜索场景的数据处理方法的处理流程图,具体包括以下步骤:
步骤402:接收商品检索任务,其中,所述商品检索任务中携带有待检索商品标识。
步骤404:基于所述待检索商品标识在尼斯分类表中确定初始商品群组,其中,所述尼斯分类表包括多个商品群组,各商品群组包括多个商品标识。
步骤406:根据所述初始商品群组在所述尼斯分类表中选取至少一个参考商品群组,并基于所述初始商品群组和各参考商品群组确定多个参考商品标识。
步骤408:根据所述待检索商品标识和各参考商品标识,确定所述待检索商品标识对应的至少一个目标商品标识。
在本申请提供的一具体实施方式中,基于所述待检索商品标识在尼斯分类表中确定初始商品群组,包括:
基于所述待检索商品标识和关键词检索策略在尼斯分类表中执行检索;
在所述尼斯分类表中检索到所述待检索商品标识的情况下,确定所述待检索商品标识对应的商品群组为初始商品群组;
在所述尼斯分类表中未检索到所述待检索商品标识的情况下,基于所述待检索商品标识和各商品群组确定初始商品群组。
在本申请提供的一具体实施方式中,基于所述待检索商品标识和各商品群组确定初始商品群组,包括:
确定所述待检索商品标识与各商品群组的商品群组相似度;
基于各商品群组的商品群组相似度确定初始商品群组。
在本申请提供的一具体实施方式中,确定所述待检索商品标识与各商品群组的商品群组相似度,包括:
将所述待检索商品标识转换为待检索商品标识向量,将各商品群组转换为各商品群组对应的商品群组向量;
计算所述待检索商品标识向量与各商品群组向量的向量相似度;
将各商品群组向量对应的向量相似度确定为各商品群组对应的商品群组相似度。
在本申请提供的一具体实施方式中,在所述尼斯分类表中未检索到所述待检索商品标识的情况下,根据所述初始商品群组在所述尼斯分类表中选取至少一个参考商品群组,包括:
基于各商品群组的商品群组相似度和预设商品群组数量阈值,确定至少一个参考商品群组。
在本申请提供的一具体实施方式中,所述尼斯分类表包括多个商品类,各商品类包括多个商品群组;
在所述尼斯分类表中检索到所述待检索商品标识的情况下,根据所述初始商品群组在所述尼斯分类表中选取至少一个参考商品群组,包括:
确定所述初始商品群组对应的初始商品类;
根据所述初始商品类确定至少一个参考商品类;
确定各参考商品类对应的商品群组为参考商品群组。
在本申请提供的一具体实施方式中,根据所述初始商品类确定至少一个参考商品类,包括:
将所述尼斯分类表中的各商品类转换为对应的商品类向量;
计算所述初始商品类对应的初始商品类向量与其他商品类向量对应的商品类相似度;
基于各商品类相似度和预设商品类规则,确定至少一个参考商品类。
在本申请提供的一具体实施方式中,基于所述初始商品群组和各参考商品群组确定多个参考商品标识,包括:
确定所述初始商品群组对应的商品标识和所述参考商品群组对应的商品标识为参考商品标识。
在本申请提供的一具体实施方式中,根据所述待检索商品标识和各参考商品标识,确定所述待检索商品标识对应的至少一个目标商品标识,包括:
计算所述待检索商品标识和各参考商品标识间的商品标识相似度;
根据各参考商品标识对应的商品标识相似度确定所述待检索商品标识对应的至少一个目标商品标识。
在本申请提供的一具体实施方式中,所述方法还包括:
将至少一个目标商品标识发送至用户。
本申请提供的一种数据处理方法,包括接收商品检索任务,其中,所述商品检索任务中携带有待检索商品标识;基于所述待检索商品标识在尼斯分类表中确定初始商品群组,其中,所述尼斯分类表包括多个商品群组,各商品群组包括多个商品标识;根据所述初始商品群组在所述尼斯分类表中选取至少一个参考商品群组,并基于所述初始商品群组和各参考商品群组确定多个参考商品标识;根据所述待检索商品标识和各参考商品标识,确定所述待检索商品标识对应的至少一个目标商品标识。
通过本申请提供的数据处理方法,利用了尼斯分类表的特定结构,当用户想要查询某一个商品标识时,可以先在尼斯分类表中查询该商品标识对应的初始商品群组,再进一步确定与初始商品群组相关性较高的参考商品群组。最后将参考商品群组中的商品标识与待检索商品标识进行检索,通过确定参考商品群组过滤掉一些无关的商品标识,提升后续数据检索效率。同时将相关性较高的参考商品标识与待检索商品标识进行比对,提升了数据检索的数据丰富度。通过本申请提供的方法,可以为用户提供更好的商品检索服务。
与上述数据处理方法实施例相对应,本申请还提供了数据处理装置实施例,图5示出了本申请一实施例提供的一种数据处理装置的结构示意图。如图5所示,该装置包括:
获取模块502,被配置为获取待检索业务数据;
第一确定模块504,被配置为基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;
选取模块506,被配置为根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;
第二确定模块508,被配置为根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
可选的,所述第一确定模块504,进一步被配置为:
基于所述待检索业务数据和关键词检索策略在预设业务数据库中执行检索;
在所述预设业务数据库中检索到所述待检索业务数据的情况下,确定所述待检索业务数据对应的业务群组为初始业务群组;
在所述预设业务数据库中未检索到所述待检索业务数据的情况下,基于所述待检索业务数据和各业务群组确定初始业务群组。
可选的,所述第一确定模块504,进一步被配置为:
确定所述待检索业务数据与各业务群组的业务群组相似度;
基于各业务群组的业务群组相似度确定初始业务群组。
可选的,所述第一确定模块504,进一步被配置为:
将所述待检索业务数据转换为待检索业务数据向量,将各业务群组转换为各业务群组对应的业务群组向量;
计算所述待检索业务数据向量与各业务群组向量的向量相似度;
将各业务群组向量对应的向量相似度确定为各业务群组对应的业务群组相似度。
可选的,在所述预设业务数据库中未检索到所述待检索业务数据的情况下,所述选取模块506,进一步被配置为:
基于各业务群组的业务群组相似度和预设业务群组数量阈值,确定至少一个参考业务群组。
可选的,所述预设业务数据库包括多个业务类,各业务类包括多个业务群组;
在所述预设业务数据库中检索到所述待检索业务数据的情况下,所述选取模块506,进一步被配置为:
确定所述初始业务群组对应的初始业务类;
根据所述初始业务类确定至少一个参考业务类;
确定各参考业务类对应的业务群组为参考业务群组。
可选的,所述选取模块506,进一步被配置为:
将所述预设业务数据库中的各业务类转换为对应的业务类向量;
计算所述初始业务类对应的初始业务类向量与其他业务类向量对应的业务类相似度;
基于各业务类相似度和预设业务类规则,确定至少一个参考业务类。
可选的,所述选取模块506,进一步被配置为:
确定所述初始业务群组对应的业务数据和所述参考业务群组对应的业务数据为参考业务数据。
可选的,第二确定模块508,进一步被配置为:
计算所述待检索业务数据和各参考业务数据间的业务数据相似度;
根据各参考业务数据对应的业务数据相似度确定所述待检索业务数据对应的至少一个目标业务数据。
本申请提供的一种数据处理装置,包括获取待检索业务数据;基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
通过本申请提供的数据处理装置,利用了预设业务数据库的特定数据结构,在接收到待检索业务数据的情况下,先确定待检索业务数据对应的初始业务群组,再通过初始业务群组确定参考业务群组,保证了后续确定的参考业务数据与待检索业务数据在业务群组层面具有相关性,将相关性差的业务数据排除。在确定参考业务群组后,将参考业务群组中的业务数据作为参考业务数据,并用参考业务数据与待检索业务数据进行比对,从而选取最终的目标业务数据,由于通过上述确定参考业务群组的方式过滤的一些无关的业务数据,提升了数据检索效率,同时有相关性较高的参考业务数据与待检索业务数据进行比对,提升了数据检索的数据丰富度。通过本申请提供的方法,可以为用户提供更好的数据检索服务。
上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)接口,等等。
在本申请的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620执行所述计算机指令时实现所述的数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地域,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
获取待检索业务数据;
基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;
根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;
根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
2.如权利要求1所述的方法,其特征在于,基于所述待检索业务数据在预设业务数据库中确定初始业务群组,包括:
基于所述待检索业务数据和关键词检索策略在预设业务数据库中执行检索;
在所述预设业务数据库中检索到所述待检索业务数据的情况下,确定所述待检索业务数据对应的业务群组为初始业务群组;
在所述预设业务数据库中未检索到所述待检索业务数据的情况下,基于所述待检索业务数据和各业务群组确定初始业务群组。
3.如权利要求2所述的方法,其特征在于,基于所述待检索业务数据和各业务群组确定初始业务群组,包括:
确定所述待检索业务数据与各业务群组的业务群组相似度;
基于各业务群组的业务群组相似度确定初始业务群组。
4.如权利要求3所述的方法,其特征在于,确定所述待检索业务数据与各业务群组的业务群组相似度,包括:
将所述待检索业务数据转换为待检索业务数据向量,将各业务群组转换为各业务群组对应的业务群组向量;
计算所述待检索业务数据向量与各业务群组向量的向量相似度;
将各业务群组向量对应的向量相似度确定为各业务群组对应的业务群组相似度。
5.如权利要求3所述的方法,其特征在于,在所述预设业务数据库中未检索到所述待检索业务数据的情况下,根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,包括:
基于各业务群组的业务群组相似度和预设业务群组数量阈值,确定至少一个参考业务群组。
6.如权利要求2所述的方法,其特征在于,所述预设业务数据库包括多个业务类,各业务类包括多个业务群组;
在所述预设业务数据库中检索到所述待检索业务数据的情况下,根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,包括:
确定所述初始业务群组对应的初始业务类;
根据所述初始业务类确定至少一个参考业务类;
确定各参考业务类对应的业务群组为参考业务群组。
7.如权利要求6所述的方法,其特征在于,根据所述初始业务类确定至少一个参考业务类,包括:
将所述预设业务数据库中的各业务类转换为对应的业务类向量;
计算所述初始业务类对应的初始业务类向量与其他业务类向量对应的业务类相似度;
基于各业务类相似度和预设业务类规则,确定至少一个参考业务类。
8.如权利要求1-7任意一项所述的方法,其特征在于,基于所述初始业务群组和各参考业务群组确定多个参考业务数据,包括:
确定所述初始业务群组对应的业务数据和所述参考业务群组对应的业务数据为参考业务数据。
9.如权利要求1-7任意一项所述的方法,其特征在于,根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据,包括:
计算所述待检索业务数据和各参考业务数据间的业务数据相似度;
根据各参考业务数据对应的业务数据相似度确定所述待检索业务数据对应的至少一个目标业务数据。
10.一种数据处理方法,其特征在于,包括:
接收用户发送的业务数据检索任务,其中,所述业务数据检索任务中携带有待检索业务数据;
基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;
根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;
根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据;
将所述至少一个目标业务数据发送至所述用户。
11.一种数据处理方法,其特征在于,包括:
接收商品检索任务,其中,所述商品检索任务中携带有待检索商品标识;
基于所述待检索商品标识在尼斯分类表中确定初始商品群组,其中,所述尼斯分类表包括多个商品群组,各商品群组包括多个商品标识;
根据所述初始商品群组在所述尼斯分类表中选取至少一个参考商品群组,并基于所述初始商品群组和各参考商品群组确定多个参考商品标识;
根据所述待检索商品标识和各参考商品标识,确定所述待检索商品标识对应的至少一个目标商品标识。
12.一种数据处理装置,其特征在于,包括:
获取模块,被配置为获取待检索业务数据;
第一确定模块,被配置为基于所述待检索业务数据在预设业务数据库中确定初始业务群组,其中,所述预设业务数据库包括多个业务群组,各业务群组包括多个业务数据;
选取模块,被配置为根据所述初始业务群组在所述预设业务数据库中选取至少一个参考业务群组,并基于所述初始业务群组和各参考业务群组确定多个参考业务数据;
第二确定模块,被配置为根据所述待检索业务数据和各参考业务数据,确定所述待检索业务数据对应的至少一个目标业务数据。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-11任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310805600.4A CN116522014B (zh) | 2023-07-03 | 2023-07-03 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310805600.4A CN116522014B (zh) | 2023-07-03 | 2023-07-03 | 数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116522014A true CN116522014A (zh) | 2023-08-01 |
CN116522014B CN116522014B (zh) | 2023-09-05 |
Family
ID=87401578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310805600.4A Active CN116522014B (zh) | 2023-07-03 | 2023-07-03 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522014B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462381A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 商标图像检索方法 |
CN104636429A (zh) * | 2014-12-24 | 2015-05-20 | 四川超凡知识产权服务股份有限公司 | 商标类别检索方法和装置 |
US20180189417A1 (en) * | 2017-01-04 | 2018-07-05 | International Business Machines Corporation | Dynamic faceting for personalized search and discovery |
CN110674328A (zh) * | 2019-09-27 | 2020-01-10 | 长城计算机软件与系统有限公司 | 一种商标图像检索方法、系统、介质及设备 |
CN112035754A (zh) * | 2020-11-02 | 2020-12-04 | 北京梦知网科技有限公司 | 商标检索的方法及装置,电子设备及存储介质 |
CN112860934A (zh) * | 2021-01-29 | 2021-05-28 | 浙江知多多网络科技有限公司 | 一种基于机器学习的商标检索系统 |
-
2023
- 2023-07-03 CN CN202310805600.4A patent/CN116522014B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462381A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 商标图像检索方法 |
CN104636429A (zh) * | 2014-12-24 | 2015-05-20 | 四川超凡知识产权服务股份有限公司 | 商标类别检索方法和装置 |
US20180189417A1 (en) * | 2017-01-04 | 2018-07-05 | International Business Machines Corporation | Dynamic faceting for personalized search and discovery |
CN110674328A (zh) * | 2019-09-27 | 2020-01-10 | 长城计算机软件与系统有限公司 | 一种商标图像检索方法、系统、介质及设备 |
CN112035754A (zh) * | 2020-11-02 | 2020-12-04 | 北京梦知网科技有限公司 | 商标检索的方法及装置,电子设备及存储介质 |
CN112860934A (zh) * | 2021-01-29 | 2021-05-28 | 浙江知多多网络科技有限公司 | 一种基于机器学习的商标检索系统 |
Non-Patent Citations (2)
Title |
---|
CHEN LVWEI 等: "An Information Retrieval Method Based on Data Key Rules Mining", 2021 IEEE ASIA-PACIFIC CONFERENCE ON IMAGE PROCESSING, ELECTRONICS AND COMPUTERS (IPEC) * |
周杨淏 等: "一种基于群组的反向k 排名查询算法", 小型微型计算机系统 * |
Also Published As
Publication number | Publication date |
---|---|
CN116522014B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147437B (zh) | 一种基于知识图谱的搜索方法及装置 | |
CN102054033A (zh) | 表情搜索引擎、使用该表情搜索引擎的表情管理系统及表情管理方法 | |
CN111368219A (zh) | 信息推荐方法、装置、计算机设备以及存储介质 | |
CN110782318A (zh) | 基于音频交互的营销方法、装置以及存储介质 | |
CN102955781A (zh) | 一种人物搜索方法及装置 | |
CN106354856B (zh) | 基于人工智能的深度神经网络强化搜索方法和装置 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
US20160335267A1 (en) | Method and apparatus for natural language search for variables | |
CN116303558A (zh) | 查询语句生成方法、数据查询方法及生成模型训练方法 | |
CN111538818A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN116363457B (zh) | 任务处理、图像分类、任务处理模型的数据处理方法 | |
KR102063242B1 (ko) | 검색장치 및 프로그램 | |
CN116522014B (zh) | 数据处理方法及装置 | |
CN105740453B (zh) | 信息推送方法和装置 | |
CN116561270A (zh) | 问答方法以及问答模型训练方法 | |
CN116756278A (zh) | 机器问答方法以及装置 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN113780827A (zh) | 一种物品筛选方法、装置、电子设备及计算机可读介质 | |
CN116595154B (zh) | 任务处理方法以及自动问答方法 | |
CN116467500B (zh) | 数据关系识别、自动问答、查询语句生成方法 | |
CN117573842B (zh) | 文档检索方法以及自动问答方法 | |
CN116938999B (zh) | 一种基于grpc的多方信息传递及状态同步方法、系统及介质 | |
CN116911304B (zh) | 一种文本推荐方法及装置 | |
CN111683174B (zh) | 来电处理方法、装置及系统 | |
CN116680357A (zh) | 信息抽取方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |