CN115422429A - 关联词的确定方法、装置、计算机设备和存储介质 - Google Patents

关联词的确定方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115422429A
CN115422429A CN202211174122.3A CN202211174122A CN115422429A CN 115422429 A CN115422429 A CN 115422429A CN 202211174122 A CN202211174122 A CN 202211174122A CN 115422429 A CN115422429 A CN 115422429A
Authority
CN
China
Prior art keywords
word
search
search keyword
determining
click rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211174122.3A
Other languages
English (en)
Inventor
马林
邹伟力
傅强
张舜华
杨颖凡
胡天宝
胡蝶颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202211174122.3A priority Critical patent/CN115422429A/zh
Publication of CN115422429A publication Critical patent/CN115422429A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种关联词的确定方法、装置、计算机设备、存储介质和计算机程序产品,涉及大数据智能分析技术领域。所述方法包括:响应业务终端发起的搜索请求,搜索请求携带搜索关键字;获取与搜索关键字关联的业务订单;根据业务订单中的业务数据值确定与搜索关键字关联的至少一个第一关联词;获取与搜索关键字匹配的第一物品点击率表,从第一物品点击率表中确定与搜索关键字关联的至少一个第二关联词;根据第一关联词的业务数据值和第二关联词的点击率,从至少一个第一关联词和至少一个第二关联词确定搜索关键字的目标关联词。采用本方法能够提高关联词的精准性。

Description

关联词的确定方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据智能分析技术领域,特别是涉及一种关联词的确定方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着电子商务的迅速发展,越来越多的用户和商家通过电商平台完成交易。用户在网上购物时,用户可以通过搜索入口输入关键词检索感兴趣的物品,或者根据购物平台提供的关键字进行搜索。
然而,目前用户在搜索物品时,通过计算用户输入词与历史关键字之间的编辑距离,将编辑距离小的关键字给用户选择,得到输入词的关联词,导致确定的关联词的准确性低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高关联词的准确性的关联词的确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种关联词的确定方法。所述方法包括:
响应业务终端发起的搜索请求,所述搜索请求携带搜索关键字;
获取与所述搜索关键字关联的业务订单;
根据所述业务订单中的业务数据值确定与所述搜索关键字关联的至少一个第一关联词;
获取与所述搜索关键字匹配的物品点击率表,从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词;
根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词。
在其中一个实施例中,所述获取与所述搜索关键字匹配的物品点击率表,包括:
若预设数据库中不存在与所述搜索关键字匹配的物品点击率表,则对所述搜索关键字进行拆分,得到至少两个子关键字;
根据所述至少两个子关键字从所述预设数据库中确定匹配的物品点击率表。
在其中一个实施例中,所述从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词,包括:
从所述物品点击率表中分别确定与每个所述子关键字关联的第三关联词;
根据各所述第三关联词的点击率进行加权处理,从所述第三关联词中确定与所述搜索关键字关联的至少一个第二关联词。
在其中一个实施例中,所述获取与所述搜索关键字关联的业务订单,包括:
若业务订单库中不存在与所述搜索关键字关联的业务订单,则提取所述业务订单库中各业务订单中搜索字段的字符;
若所述搜索字段的字符与所述搜索关键字的相似度达到预设值,且所述搜索字段的字符的拼音和所述搜索关键字相同,则将所述搜索字段对应的业务订单为与所述搜索关键字关联的业务订单。
在其中一个实施例中,所述根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词,包括:
根据所述第一关联词的业务数据值和所述第二关联词的点击率进行加权计算,分别得到每个关联词的关联值;
根据所述关联值对所述至少一个第一关联词和所述至少一个第二关联词进行排序,按照关联值从大到小的顺序,确定所述搜索关键字的目标关联词。
在其中一个实施例中,在所述获取与所述搜索关键字关联的业务订单之前,所述方法还包括:
获取所述搜索关键字的格式;
若所述搜索关键字的格式不符合预设格式,对搜索关键字进行格式转换,得到预设格式的搜索关键字。
第二方面,本申请还提供了一种关联词的确定装置。所述装置包括:
响应模块,用于响应业务终端发起的搜索请求,所述搜索请求携带搜索关键字;
订单获取模块,用于获取与所述搜索关键字关联的业务订单;
第一确定模块,用于根据所述业务订单中的业务数据值确定与所述搜索关键字关联的至少一个第一关联词;
第二确定模块,用于获取与所述搜索关键字匹配的物品点击率表,从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词;
第三确定模块,用于根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
响应业务终端发起的搜索请求,所述搜索请求携带搜索关键字;
获取与所述搜索关键字关联的业务订单;
根据所述业务订单中的业务数据值确定与所述搜索关键字关联的至少一个第一关联词;
获取与所述搜索关键字匹配的物品点击率表,从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词;
根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
响应业务终端发起的搜索请求,所述搜索请求携带搜索关键字;
获取与所述搜索关键字关联的业务订单;
根据所述业务订单中的业务数据值确定与所述搜索关键字关联的至少一个第一关联词;
获取与所述搜索关键字匹配的物品点击率表,从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词;
根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
响应业务终端发起的搜索请求,所述搜索请求携带搜索关键字;
获取与所述搜索关键字关联的业务订单;
根据所述业务订单中的业务数据值确定与所述搜索关键字关联的至少一个第一关联词;
获取与所述搜索关键字匹配的物品点击率表,从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词;
根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词。
上述关联词的确定方法、装置、计算机设备、存储介质和计算机程序产品,在确定携带搜索关键字的关联词时,根据与搜索关键字关联的业务订单,确定与搜索关键字关联的至少一个第一关联词,以及从物品点击率表中确定与搜索关键字关联的至少一个第二关联词,在基于点击率的维度确定搜索关键字的关联词时,根据搜索关键字进一步匹配对应的物品点击率表,可以对不同的搜索关键字确定对应的物品点击率表,进一步从物品点击率维度准确地确定与搜索关键字关联的关联词,避免只能对特定的搜索关键字进行匹配,不能满足实际场景需求,导致确定的第二关联词不准确。根据第一关联词的业务数据值和第二关联词的点击率确定搜索关键字的目标关联词。在确定搜索关键字的目标关联词时,在基于历史搜索关键字确定搜索关键字的关联词时,从业务数据值的维度和物品点击率的维度来对搜索关键字的关联词进行确认,避免根据单一维度确定目标关联词,提高了关联词的准确性。
附图说明
图1为一个实施例中关联词的确定方法的应用环境图;
图2为一个实施例中关联词的确定方法的流程示意图;
图3为一个实施例中确定搜索关键字的物品点击率表方法的流程示意图;
图4为一个实施例中基于点击率确定关联词的方法的流程示意图;
图5为另一个实施例中确定搜索关键字关联的业务订单方法的流程示意图;
图6为另一个实施例中关联词的确定方法的流程示意图;
图7为一个实施例中关联词的确定装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
可以理解的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的关联词的确定方法,可以应用于如图1所示的应用环境中。其中,业务终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。响应业务终端发起的搜索请求,搜索请求携带搜索关键字;获取与搜索关键字关联的业务订单;根据业务订单中的业务数据值确定与搜索关键字关联的至少一个第一关联词;获取与搜索关键字匹配的物品点击率表,从物品点击率表中确定与搜索关键字关联的至少一个第二关联词;根据第一关联词的业务数据值和第二关联词的点击率,从至少一个第一关联词和至少一个第二关联词确定搜索关键字的目标关联词。其中,业务终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种关联词的确定方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,响应业务终端发起的搜索请求,搜索请求携带搜索关键字。
其中,在不同的业务场景,业务终端会发起不同的搜索请求,各搜索请求写到的关键字也是不同的。搜索关键字可以是根据搜索输入字确定的联想词,例如,从业务终端输入的搜索字为水,根据“水”从联想词库中确定“水”的联想词为“水果”,将“水果”作为搜索请求的搜索关键字。搜索关键字也可以是业务终端输入的,在此,对搜索关键字的确定方式不做限定。
步骤204,获取与搜索关键字关联的业务订单。
具体地,获取搜索关联字的搜索次数,若搜索次数小于预设次数,则结束。若搜索次数大于预设次数,则获取与搜索关键字关联的业务订单。预设次数可以是自定义的。
步骤206,根据业务订单中的业务数据值确定与搜索关键字关联的至少一个第一关联词。
其中,业务数据值可以理解为物品所需的资源,例如,物品的交易额。业务数据值的大小用于表征关联词与搜索关键字的关联程度。每个关联词存在对应的业务数据值,业务数据值越大,关联词与搜索关键字的关联程度越高。
具体地,根据关键字查询搜索引擎,获取与搜索关键字关联的业务订单,确定搜索关键字对应的物品,根据该物品的不同维度的物品特征对与搜索关键字关联的业务订单进行聚合统计,得到隶属于不同物品特征的业务订单,并根据各业务订单中的业务数据值按照设置顺序对业务订单按照物品的物品特征进行排序,得到排序后的业务订单。根据排序后的业务订单获取与搜索关键字关联的至少一个关联词。物品特征包括物品所属类目、品牌和属性等。关键字查询搜索引擎可以但不仅限于是solr,关键字查询搜索引擎根据关键字可以查询对应的相关物品,以及对应的业务数据值。
例如,搜索关键字为“苹果”,存在有物品A、物品B和物品C,对应的业务订单为:物品A,类目:手机,业务数据值:3000;物品B,类目:水果,业务数据值:5000;物品C,类目:手机,业务数据值:7000。将类目为手机的物品的业务数据值继续累计,得到手机类目的业务数据值为10000,水果类目的业务数据值为5000。又如,搜索关键字为“水果”,根据搜索关键字得到历史类目水果的业务订单包括:类目苹果的交易额总和为5000,类目橙子的交易额总和为4000,类目香蕉的交易额总和为3000,则“水果”获取了三个类目关联词:苹果、橙子和香蕉。
步骤208,获取与搜索关键字匹配的物品点击率表,从物品点击率表中确定与搜索关键字关联的至少一个第二关联词。
其中,物品点击率表是根据历史点击数据来确定的,即历史搜索产生的点击日志进行分析,提取点击日志中输入的搜索字和点击物品之间的关系,确定至少一个物品特征的点击率查询表。点击率查询表包括物品特征字段和概率字段等。物品特征字段中的关联词存在对应的物品点击率,物品点击率越大,关联词与搜索关键字的关联程度越高。
例如,点击日志中包括搜索字为“苹果”和点击物品类目的对应关系,搜索字为“苹果”,存在有类目A、类目B和类目C的点击记录,从点击日志中可以确定不同类目的点击次数,得到类目A、类目B和类目C的点击次数,根据类目A、类目B和类目C的点击次数分别确定类目A、类目B和类目C的点击概率,点击概率可以理解为根据设定时长内每一类目的点击次数和所有类目的点击总次数确定的。
具体地,获取搜索关键字,从预设的物品点击率表进行查询,获取与搜索关键字匹配的物品点击率表,根据物品点击率表物品点击率的大小,从物品点击率表中确定与搜索关键字关联的至少一个第二关联词。
步骤210,根据第一关联词的业务数据值和第二关联词的点击率,从至少一个第一关联词和至少一个第二关联词确定搜索关键字的目标关联词。
其中,根据业务数据值确定的第一关联词和根据点击率确定第二关联词可以是相同的,也可以不完全相同的。
具体地,在根据第一关联词和第二关联词确定搜索关键字的目标关联词时,需要分别对第一关联词的业务数据值和第二关联词的点击率进行归一化处理,得到每个第一关联词、每个第二关联词与搜索关键的实际关联度,基于每个第一关联词、每个第二关联词与搜索关键的实际关联度确定搜索关键字的目标关联词。
上述关联词的确定方法中,在确定携带搜索关键字的关联词时,根据与搜索关键字关联的业务订单,确定与搜索关键字关联的至少一个第一关联词,以及从物品点击率表中确定与搜索关键字关联的至少一个第二关联词,在基于点击率的维度确定搜索关键字的关联词时,根据搜索关键字进一步匹配对应的物品点击率表,可以对不同的搜索关键字确定对应的物品点击率表,进一步从物品点击率维度准确地确定与搜索关键字关联的关联词,避免只能对特定的搜索关键字进行匹配,不能满足实际场景需求,导致确定的第二关联词不准确。根据第一关联词的业务数据值和第二关联词的点击率确定搜索关键字的目标关联词。在确定搜索关键字的目标关联词时,在基于历史搜索关键字确定搜索关键字的关联词时,从业务数据值的维度和物品点击率的维度来对搜索关键字的关联词进行确认,避免根据单一维度确定目标关联词,提高了关联词的准确性。
在确定搜索关键字的物品点击率表时,根据输入的搜索关键字是自定义输入的,对于自定义的搜索关键字,将搜索关键字直接匹配物品点击率表时,会匹配不到与搜索关键字相关的物品点击率表,但是实际历史产生的点击日志中存在有相关的物品点击记录,因此,为了能够提高关联词的准确性,可以对搜索关键字进行拆词处理,进行匹配。
在一个实施例中,如图3所示,提供了一种确定搜索关键字的物品点击率表的方法,包括以下步骤:
步骤302,获取搜索关键字。
步骤304,判断是否存在与搜索关键字匹配的物品点击率表,若是,执行步骤306,否则执行步骤308。
可以理解的是,物品点击率表是根据历史的点击日志确定的,根据历史的点击日志确定的,对点击日志进行解析,获取输入的查询字和点击物品的物品特征之间的关系,根据查询字和物品特征确定第一物品点击率表,以物品特征为物品类目为例进行说明,获取查询字和点击物品的类目之间对应关系,确定查询字对应的类目的点击次数,得到各类目的点击率。进一步地,在进行搜索时,输入的关键字是可以自定义的,为了可以准确地确定关联,可以将点击日志中的查询字进行拆分,得到原查询字的词段,分别确定各词段和点击物品的物品特征之间的关系,根据原查询字的词段和物品特征确定第二物品点击率表。其中,查询字的拆分可以根据实际需求进行拆分,在此不做限定。
步骤306,获取与搜索关键字匹配的物品点击率表。
步骤308,若不存在与搜索关键字匹配的物品点击率表,则对搜索关键字进行拆分,得到至少两个子关键字。
步骤310,根据至少两个子关键字从预设数据库中确定匹配的物品点击率表。
上述实施例中,在根据搜索关键字的进行匹配获取物品点击率表时,在不存在与搜索关键字匹配的物品点击率表时,通过对搜索关键字进行拆分,获取匹配的物品点击率表,避免单一方式确定与搜索关键字匹配的物品点击率表,提高关联词的准确性以及可靠性。
进一步地,在一个实施例中,在获取到搜索请求携带搜索关键字时,若搜索关键字的格式不符合预设格式,对搜索关键字进行格式转换,得到预设格式的搜索关键字,进而根据预设格式的搜索关键字可以准确地确定关联的业务订单,确定第一关联词,和/或,可以准确地确定匹配的物品点击率表,得到第二关联词。其中,在实际搜索时,由于业务终端输入方式不同,获取的搜索关键字可能是字,也可能是拼音等,在搜索关键字为拼音时,为准确地确定关联的业务订单或者是物品点击率表,可以将拼音转换为字,根据转换后的字,准确地确定关联的业务订单或者是物品点击率表。
在一个实施例中,如图4所示,提供了一种基于点击率确定关联词的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤402,响应业务终端发起的搜索请求,搜索请求携带搜索关键字。
步骤404,若不存在与搜索关键字匹配的物品点击率表,则对搜索关键字进行拆分,得到至少两个子关键字。
具体地,若预设数据库中不存在与搜索关键字匹配的物品点击率表,则对搜索关键字进行拆分,得到至少两个子关键字。其中,拆分搜索关键字可以按照预设字数对搜索关键字进行拆分,也可以通过对搜索关键字进行语义识别,根据识别后的语义结果进行拆分,语义识别可以通过的语义识别方式来实现,在此不做赘述。
步骤406,根据至少两个子关键字从预设数据库中确定匹配的物品点击率表。
步骤408,从物品点击率表中分别确定与每个子关键字关联的第三关联词。
具体地,根据拆分后得到的两个子关键字从预设数据库中确定匹配的物品点击率表,在物品点击率表中分别确定子与每子关键字关联的第三关联词。
步骤410,根据各第三关联词的点击率进行加权处理,从第三关联词中确定与搜索关键字关联的至少一个第二关联词。
具体地,在确定与每子关键字关联的第三关联词时,每个关联词存在对应的点击率,根据各第三关联词的点击率,采用贝叶斯概率算法进行加权处理,确定第三关联词和搜索关键字之间的关联度,基于关联度从第三关联词中确定与搜索关键字关联的至少一个第二关联词。例如,搜索关键字分词后结果为term1,term2,term3,根据至少两个子关键字从预设数据库中确定匹配的物品点击率表B中查询出3个概率数组:
<term1,<类目A,概率A1>,<类目B,概率B1>
<term2,<类目B,概率B2>,<类目C,概率C2>
<term3,<类目A,概率A3>,<类目D,概率D3>
则:类目A的概率得分=概率A1+概率A3;类目B的概率得分=概率B1+概率B2+概率B3;类目C的概率得分=概率C2;类目D的概率得分=概率D2;将4个类目的概率得分做数据归一化处理,映射到[0,1]之间。
上述实施例中,在预设数据库中不存在与搜索关键字匹配的物品点击率表时,通过拆分搜索关键字得到至少两个子关键字,根据每个子关键字确定匹配的物品点击率表,根据每个子关键字的关联词进行加权处理,得到每个子关键字的关联词与搜索关键字之间的关联度,进一步地确定搜索关键字的关联词,通过拆分关键字,所利用的匹配数据更多,进而能够实现更精准的匹配,以使关联词的可靠性越高。
在一个实施例中,如图5所示,提供了一种确定搜索关键字关联的业务订单方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤502,若业务订单库中不存在与搜索关键字关联的业务订单,则提取业务订单库中各业务订单中搜索字段的字符。
步骤504,若搜索字段的字符与搜索关键字的相似度达到预设值,且搜索字段的字符的拼音和搜索关键字相同,则将搜索字段对应的业务订单为与搜索关键字关联的业务订单。
上述实施例中,在确定搜索关键字关联的业务订单时,若业务订单库中不存在与搜索关键字关联的业务订单,则提取业务订单库中各业务订单中搜索字段的字符,基于搜索字段的字符与搜索关键字的相似度,以及搜索字段的字符的拼音,从与搜索关键字关联的业务订单,增加匹配数据的数量,能够实现更精准的匹配,以使关联词的可靠性越高。
在另一个实施例中,如图6所示,提供了一种关联词的确定方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤602,响应业务终端发起的搜索请求,搜索请求携带搜索关键字。
步骤604,获取与搜索关键字关联的业务订单。
步骤606,根据业务订单中的业务数据值确定与搜索关键字关联的至少一个第一关联词。
步骤608,判断预设数据库是否存在与搜索关键字匹配的物品点击率表,若存在,执行步骤610,否则执行步骤612。
步骤610,获取与搜索关键字匹配的物品点击率表,从物品点击率表中确定与搜索关键字关联的至少一个第二关联词。
步骤612,若预设数据库中不存在与搜索关键字匹配的物品点击率表,则对搜索关键字进行拆分,得到至少两个子关键字。
步骤614,根据至少两个子关键字从预设数据库中确定匹配的物品点击率表。
具体地,从预设数据库中确定与至少两个子关键字匹配的物品点击率表。
步骤616,从第二物品点击率表中分别确定与每个子关键字关联的第三关联词。
步骤618,根据各第三关联词的点击率进行加权处理,从第三关联词中确定与搜索关键字关联的至少一个第二关联词。
步骤620,根据第一关联词的业务数据值和第二关联词的点击率进行加权计算,分别得到每个关联词的关联值。
步骤622,根据关联值对至少一个第一关联词和至少一个第二关联词进行排序,按照关联值从大到小的顺序,确定搜索关键字的目标关联词。
上述实施例中,在确定搜索关键字的关联词时,根据业务数据值确定与搜索关键字关联的第一关联词,根据物品点击率确定与搜索关键字关联的至少一个第二关联词,在基于点击率的维度确定搜索关键字的关联词时,根据搜索关键字进一步匹配对应的物品点击率表,可以对不同的搜索关键字确定对应的物品点击率表,进一步从物品点击率维度准确地确定与搜索关键字关联的关联词,增加匹配的关联词。在确定搜索关键字的目标关联词时,在基于历史搜索关键字确定搜索关键字的关联词时,从业务数据值的维度和物品点击率的维度来对搜索关键字的关联词进行确认,避免根据单一维度确定目标关联词,提高了关联词的准确性。
可选地,在一个实施例中,在确定搜索关键字关联的第一关键词时,确定以搜索关键字和特殊字符组成的搜索关键字从历史搜索字段中获取匹配的目标历史搜索字段,各目标历史搜索字段对应的业务订单中存在有业务数据值,根据业务数据值从目标历史搜索字段中提取与搜索关键字相关的第一候选关联词。搜索关键字和特殊字符组成的搜索关键字可以是根据搜索行为来确定的。例如,从用户搜索关键字表查询以该关键字+空格开头的搜索关键字,对于每个查询出来的关键字,提取空格后的词,作为关联词。例如,搜索关键字为“水果”,以“水果”+空格,即“水果”查询历史搜索字段,例如,搜索关键字表,找到“水果新鲜”,提取到“新鲜”,将该词作为关联词,查询统计“水果新鲜”搜索结果的业务数据值。假设“水果新鲜”搜索结果的业务数据值为3000,“水果”获取了关联词“新鲜”,又如,“水果”+空格查询历史搜索字段,得到“水果新鲜地区A”,则将“新鲜”和“地区A”两个词作为“水果”关联词,并分别统计“水果新鲜”、“水果地区A”的业务数据值。
从业务订单库中确定与搜索关键字关联的业务订单,根据业务订单中的业务数据值确定与搜索关键字关联的第二候选关联词,根据业务数据值对第一候选关联词和第二候选关联词的进行排序,确定与搜索关键字关联的至少一个第一关联词。通过以搜索关键字和特殊字符的形式,以及直接根据搜索关键字形式确定关联的关联词,增加匹配数据的数据量,提高了关联词的精准性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的关联词的确定方法的关联词的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个关联词的确定装置实施例中的具体限定可以参见上文中对于关联词的确定方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种关联词的确定装置,包括:响应模块702、订单获取模块704、第一确定模块706、第二确定模块708和第三确定模块710,其中:
响应模块702,用于响应业务终端发起的搜索请求,搜索请求携带搜索关键字;
订单获取模块704,用于获取与搜索关键字关联的业务订单。
第一确定模块706,用于根据业务订单中的业务数据值确定与搜索关键字关联的至少一个第一关联词。
第二确定模块708,用于获取与搜索关键字匹配的物品点击率表,从物品点击率表中确定与搜索关键字关联的至少一个第二关联词。
第三确定模块710,用于根据第一关联词的业务数据值和第二关联词的点击率,从至少一个第一关联词和至少一个第二关联词确定搜索关键字的目标关联词。
上述关联词的确定装置中,在确定携带搜索关键字的关联词时,根据与搜索关键字关联的业务订单,确定与搜索关键字关联的至少一个第一关联词,以及从物品点击率表中确定与搜索关键字关联的至少一个第二关联词,在基于点击率的维度确定搜索关键字的关联词时,根据搜索关键字进一步匹配对应的物品点击率表,可以对不同的搜索关键字确定对应的物品点击率表,进一步从物品点击率维度准确地确定与搜索关键字关联的关联词,避免只能对特定的搜索关键字进行匹配,不能满足实际场景需求,导致确定的第二关联词不准确。根据第一关联词的业务数据值和第二关联词的点击率确定搜索关键字的目标关联词。在确定搜索关键字的目标关联词时,在基于历史搜索关键字确定搜索关键字的关联词时,从业务数据值的维度和物品点击率的维度来对搜索关键字的关联词进行确认,避免根据单一维度确定目标关联词,提高了关联词的准确性。
在另一个实施例中,提供了一种关联词的确定装置,除包括响应模块702、订单获取模块704、第一确定模块706、第二确定模块708和第三确定模块710之外,还包括:拆词模块、加权处理模块、字符提取模块、订单获取模块和格式转换模块,其中:
拆词模块,用于若预设数据库中不存在与搜索关键字匹配的物品点击率表,则对搜索关键字进行拆分,得到至少两个子关键字。
第二确定模块708,还用于根据至少两个子关键字从预设数据库中确定匹配的物品点击率表。
第二确定模块708,还用于从物品点击率表中分别确定与每个子关键字关联的第三关联词。
加权处理模块,用于根据各第三关联词的点击率进行加权处理,从第三关联词中确定与搜索关键字关联的至少一个第二关联词。
字符提取模块,用于若业务订单库中不存在与搜索关键字关联的业务订单,则提取业务订单库中各业务订单中搜索字段的字符;
订单获取模块,还用于若搜索字段的字符与搜索关键字的相似度达到预设值,且搜索字段的字符的拼音和搜索关键字相同,则将搜索字段对应的业务订单为与搜索关键字关联的业务订单。
加权处理模块,用于根据第一关联词的业务数据值和第二关联词的点击率进行加权计算,分别得到每个关联词的关联值。
第三确定模块710,还用于根据关联值对至少一个第一关联词和至少一个第二关联词进行排序,按照关联值从大到小的顺序,确定搜索关键字的目标关联词。
格式转换模块,用于获取搜索关键字的格式;若搜索关键字的格式不符合预设格式,对搜索关键字进行格式转换,得到预设格式的搜索关键字。
上述关联词的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储搜索数据、业务订单、点击日志和物品点击率表等与搜索相关联的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关联词的确定方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (15)

1.一种关联词的确定方法,其特征在于,所述方法包括:
响应业务终端发起的搜索请求,所述搜索请求携带搜索关键字;
获取与所述搜索关键字关联的业务订单;
根据所述业务订单中的业务数据值确定与所述搜索关键字关联的至少一个第一关联词;
获取与所述搜索关键字匹配的物品点击率表,从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词;
根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述搜索关键字匹配的物品点击率表,包括:
若预设数据库中不存在与所述搜索关键字匹配的物品点击率表,则对所述搜索关键字进行拆分,得到至少两个子关键字;
根据所述至少两个子关键字从所述预设数据库中确定匹配的物品点击率表。
3.根据权利要求2所述的方法,其特征在于,所述从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词,包括:
从所述物品点击率表中分别确定与每个所述子关键字关联的第三关联词;
根据各所述第三关联词的点击率进行加权处理,从所述第三关联词中确定与所述搜索关键字关联的至少一个第二关联词。
4.根据权利要求1所述的方法,其特征在于,所述获取与所述搜索关键字关联的业务订单,包括:
若业务订单库中不存在与所述搜索关键字关联的业务订单,则提取所述业务订单库中各业务订单中搜索字段的字符;
若所述搜索字段的字符与所述搜索关键字的相似度达到预设值,且所述搜索字段的字符的拼音和所述搜索关键字相同,则将所述搜索字段对应的业务订单为与所述搜索关键字关联的业务订单。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词,包括:
根据所述第一关联词的业务数据值和所述第二关联词的点击率进行加权计算,分别得到每个关联词的关联值;
根据所述关联值对所述至少一个第一关联词和所述至少一个第二关联词进行排序,按照关联值从大到小的顺序,确定所述搜索关键字的目标关联词。
6.根据权利要求1所述的方法,其特征在于,在所述获取与所述搜索关键字关联的业务订单之前,所述方法还包括:
获取所述搜索关键字的格式;
若所述搜索关键字的格式不符合预设格式,对搜索关键字进行格式转换,得到预设格式的搜索关键字。
7.一种关联词的确定装置,其特征在于,所述装置包括:
响应模块,用于响应业务终端发起的搜索请求,所述搜索请求携带搜索关键字;
订单获取模块,用于获取与所述搜索关键字关联的业务订单;
第一确定模块,用于根据所述业务订单中的业务数据值确定与所述搜索关键字关联的至少一个第一关联词;
第二确定模块,用于获取与所述搜索关键字匹配的物品点击率表,从所述物品点击率表中确定与所述搜索关键字关联的至少一个第二关联词;
第三确定模块,用于根据所述第一关联词的业务数据值和所述第二关联词的点击率,从所述至少一个第一关联词和所述至少一个第二关联词确定所述搜索关键字的目标关联词。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
拆词模块,用于若预设数据库中不存在与所述搜索关键字匹配的物品点击率表,则对所述搜索关键字进行拆分,得到至少两个子关键字;
所述第二确定模块,还用于根据所述至少两个子关键字从所述预设数据库中确定匹配的物品点击率表。
9.根据权利要求8所述的装置,其特征在于,所述第二确定模块,还用于从所述物品点击率表中分别确定与每个所述子关键字关联的第三关联词;
所述装置还包括:
加权处理模块,用于根据各所述第三关联词的点击率进行加权处理,从所述第三关联词中确定与所述搜索关键字关联的至少一个第二关联词。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
字符提取模块,用于若业务订单库中不存在与所述搜索关键字关联的业务订单,则提取所述业务订单库中各业务订单中搜索字段的字符;
所述订单获取模块,还用于若所述搜索字段的字符与所述搜索关键字的相似度达到预设值,且所述搜索字段的字符的拼音和所述搜索关键字相同,则将所述搜索字段对应的业务订单为与所述搜索关键字关联的业务订单。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
加权处理模块,用于根据所述第一关联词的业务数据值和所述第二关联词的点击率进行加权计算,分别得到每个关联词的关联值;
所述第三确定模块,还用于根据所述关联值对所述至少一个第一关联词和所述至少一个第二关联词进行排序,按照关联值从大到小的顺序,确定所述搜索关键字的目标关联词。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
格式转换模块,用于获取所述搜索关键字的格式;
若所述搜索关键字的格式不符合预设格式,对搜索关键字进行格式转换,得到预设格式的搜索关键字。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202211174122.3A 2022-09-26 2022-09-26 关联词的确定方法、装置、计算机设备和存储介质 Pending CN115422429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211174122.3A CN115422429A (zh) 2022-09-26 2022-09-26 关联词的确定方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211174122.3A CN115422429A (zh) 2022-09-26 2022-09-26 关联词的确定方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115422429A true CN115422429A (zh) 2022-12-02

Family

ID=84203403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211174122.3A Pending CN115422429A (zh) 2022-09-26 2022-09-26 关联词的确定方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115422429A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340469A (zh) * 2023-05-29 2023-06-27 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340469A (zh) * 2023-05-29 2023-06-27 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备
CN116340469B (zh) * 2023-05-29 2023-08-11 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
US10438133B2 (en) Spend data enrichment and classification
CN106610972A (zh) 查询改写方法及装置
JP6124917B2 (ja) 情報検索のための方法および装置
CA2882280A1 (en) System and method for matching data using probabilistic modeling techniques
CN101685448A (zh) 在用户的查询操作与搜索结果之间建立关联的方法和设备
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US20220261406A1 (en) Methods and apparatus for improving search retrieval
US20220309101A1 (en) Accelerated large-scale similarity calculation
CN113660541A (zh) 新闻视频的摘要生成方法及装置
CN115203379A (zh) 检索方法、装置、计算机设备、存储介质和程序产品
CN115422429A (zh) 关联词的确定方法、装置、计算机设备和存储介质
CN113806510B (zh) 一种法律条文检索方法、终端设备及计算机存储介质
CN110781365B (zh) 商品搜索方法、装置、系统及电子设备
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN114003799A (zh) 事件推荐方法、装置和设备
US20230368509A1 (en) Multimodal machine learning image and text combined search method
CN112800314B (zh) 搜索引擎询问自动补全的方法、系统、存储介质及设备
CN113343684B (zh) 核心产品词识别方法、装置、计算机设备及存储介质
CN114595389A (zh) 通讯录查询方法、装置、设备、存储介质和程序产品
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
CN112861974A (zh) 文本分类方法、装置、电子设备及存储介质
US11169964B2 (en) Hash suppression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination