CN111709227A - 对象权重确定方法、装置、电子设备及可读存储介质 - Google Patents

对象权重确定方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111709227A
CN111709227A CN202010671404.9A CN202010671404A CN111709227A CN 111709227 A CN111709227 A CN 111709227A CN 202010671404 A CN202010671404 A CN 202010671404A CN 111709227 A CN111709227 A CN 111709227A
Authority
CN
China
Prior art keywords
preset operation
operation history
history result
data
result data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010671404.9A
Other languages
English (en)
Other versions
CN111709227B (zh
Inventor
刘鑫鑫
张卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN202010671404.9A priority Critical patent/CN111709227B/zh
Publication of CN111709227A publication Critical patent/CN111709227A/zh
Application granted granted Critical
Publication of CN111709227B publication Critical patent/CN111709227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种对象权重确定方法、装置、电子设备及可读存储介质,所述对象权重确定方法包括:获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与预设操作历史结果数据相关的历史对象数据;对于预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;获取目标对象,并与预设操作历史结果元素单元比较,将与目标对象相应的预设操作历史结果元素单元的权重值确定为目标对象的权重值。该技术方案基于目标对象的权重值的检索能够匹配到合适的商品或者服务,提高了商品或者服务的召回率。

Description

对象权重确定方法、装置、电子设备及可读存储介质
技术领域
本公开涉及计算机应用技术领域,具体涉及一种对象权重确定方法、装置、电子设备及可读存储介质。
背景技术
随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务。用户通过在搜索引擎中输入查询词(query),得到基于该检索词相关的商品或者服务信息。在整个搜索过程中,根据检索词得到的商品或者服务信息(比如,商品名称、商户名称或者品牌等)与检索词的相关性很大程度依赖于检索词的分词词项(term)的权重。因此,如何确定分词词项的权重显得至关重要。
现有技术中,在计算查询词中每个term权重时,通常采用的是词频-逆文件频率(Term Frequency-Inverse Document frequency,TF-IDF)的统计方法。TF-IDF在评估分词词项的权重时,一个分词词项在某一特定文本中出现的次数越多,同时在所有文本中出现的次数越少,则给予该分词词项较高的权重值。TF-IDF假设了文本中各个分词词项是独立的,彼此之间没有关联性,而且,对于检索商品或者服务信息的检索词来说,由于该检索词通常是短文本,大多数会出现TF=1的情况,导致基于TF-IDF确定查询词中各分词词项的权重,并检索得到的召回结果与商品或者服务的匹配度不高。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种对象权重确定方法、装置、电子设备及可读存储介质。
第一方面,本公开实施例中提供了一种对象权重确定方法。
具体地,所述对象权重确定方法,包括:
获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据,其中,所述预设操作历史结果数据是对于所述历史对象数据执行所述预设操作得到的,所述预设操作历史结果数据中包括一个或多个预设操作历史结果元素,所述历史对象数据中包括一个或多个历史对象元素;
对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,所述预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;
获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
结合第一方面,本公开在第一方面的第一种实现方式中,所述获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据之后,还包括:
对于所述预设操作历史结果数据和相关历史对象数据进行预处理。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述对于所述预设操作历史结果数据和相关历史对象数据进行预处理,被实施为:
对于所述预设操作历史结果数据和/或相关历史对象数据进行预设筛选;
对于筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理;
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象数据的一个或多个历史对象元素。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,被实施为:
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,若分词结果中存在预设词语或者预设词语中的部分词语,使用所述预设词语替换相应的分词结果。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,被实施为:
根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值。
结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,被实施为:
统计所述预设操作历史结果数据中所述历史对象元素的出现次数,基于所述历史对象元素与所述预设操作历史结果元素之间的对应关系进行聚合计算,得到所述预设操作历史结果元素的出现次数;
基于所述预设操作历史结果元素的出现次数,统计得到所述预设操作历史结果元素单元的出现次数,将其作为所述预设操作历史结果元素单元的权重值。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值,被实施为:
获取目标对象,并与所述预设操作历史结果元素单元比较;
当所述预设操作历史结果元素单元中存在与所述目标对象相同的目标预设操作历史结果元素单元时,将所述目标预设操作历史结果元素单元的权重值确定为所述目标对象的权重值;
当所述预设操作历史结果元素单元中不存在与所述目标对象相同的预设操作历史结果元素单元时,获取与所述目标对象部分相同的两个或多个目标预设操作历史结果元素单元,对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算,得到所述目标对象的权重值。
结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算,被实施为:
当所述目标预设操作历史结果元素单元覆盖所述目标对象且不存在元素重叠时,对于所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行组合;
当所述目标预设操作历史结果元素单元覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于所述目标预设操作历史结果元素单元的权重值进行归一化计算,对于归一化后的所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行去重组合;
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且不存在元素重叠时,对于缺失元素的权重值进行填补,对于所述目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行组合;
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于存在元素重叠的目标预设操作历史结果元素单元的权重值进行归一化计算,对于缺失元素的权重值进行填补,并对于归一化后的目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行去重组合。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第五种实现方式、第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述方法还包括:根据所述对象权重执行以下至少一项:
以所述对象作为检索元素的信息检索、以所述对象作为信息元素的信息提取或者以所述对象作为信息元素的信息关系确定。
第二方面,本公开实施例中提供了一种对象权重确定装置。
具体地,所述对象权重确定装置,包括:
获取模块,被配置为获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据,其中,所述预设操作历史结果数据是对于所述历史对象数据执行所述预设操作得到的,所述预设操作历史结果数据中包括一个或多个预设操作历史结果元素,所述历史对象数据中包括一个或多个历史对象元素;
确定模块,被配置为对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,所述预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;
比较模块,被配置为获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
结合第二方面,本公开在第二方面的第一种实现方式中,所述装置还包括:
预处理模块,被配置为对于所述预设操作历史结果数据和相关历史对象数据进行预处理。
结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述预处理模块包括:
筛选单元,被配置为对于所述预设操作历史结果数据和/或相关历史对象数据进行预设筛选;
处理单元,被配置为对于筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理;
分词单元,被配置为对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象数据的一个或多个历史对象元素。
结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述分词单元中对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理的部分,被配置为:
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,若分词结果中存在预设词语或者预设词语中的部分词语,使用所述预设词语替换相应的分词结果。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,所述确定模块被配置为:
根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值。
结合第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,所述根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值的部分,包括:
第一统计单元,被配置为统计所述预设操作历史结果数据中所述历史对象元素的出现次数,基于所述历史对象元素与所述预设操作历史结果元素之间的对应关系进行聚合计算,得到所述预设操作历史结果元素的出现次数;
第二统计单元,被配置为基于所述预设操作历史结果元素的出现次数,统计得到所述预设操作历史结果元素单元的出现次数,将其作为所述预设操作历史结果元素单元的权重值。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第五种实现方式,本公开在第二方面的第六种实现方式中,所述比较模块包括:
比较单元,被配置为获取目标对象,并与所述预设操作历史结果元素单元比较;
确定单元,被配置为当所述预设操作历史结果元素单元中存在与所述目标对象相同的目标预设操作历史结果元素单元时,将所述目标预设操作历史结果元素单元的权重值确定为所述目标对象的权重值;
计算单元,被配置为当所述预设操作历史结果元素单元中不存在与所述目标对象相同的预设操作历史结果元素单元时,获取与所述目标对象部分相同的两个或多个目标预设操作历史结果元素单元,对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算,得到所述目标对象的权重值。
结合第二方面的第六种实现方式,本公开在第二方面的第七种实现方式中,所述计算单元中对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算的部分,被实施为:
当所述目标预设操作历史结果元素单元覆盖所述目标对象且不存在元素重叠时,对于所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行组合;
当所述目标预设操作历史结果元素单元覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于所述目标预设操作历史结果元素单元的权重值进行归一化计算,对于归一化后的所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行去重组合;
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且不存在元素重叠时,对于缺失元素的权重值进行填补,对于所述目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行组合;
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于存在元素重叠的目标预设操作历史结果元素单元的权重值进行归一化计算,对于缺失元素的权重值进行填补,并对于归一化后的目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行去重组合。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第五种实现方式、第二方面的第七种实现方式,本公开在第二方面的第八种实现方式中,所述装置还包括:
执行模块,被配置为根据所述对象权重执行以下至少一项:
以所述对象作为检索元素的信息检索、以所述对象作为信息元素的信息提取或者以所述对象作为信息元素的信息关系确定。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现上述第一方面中对象权重确定方法的方法步骤。
第四方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现上述第一方面中对象权重确定方法的方法步骤。
本公开实施例提供的技术方案可以包括以下有益效果:
上述技术方案根据预设操作历史结果数据与历史对象数据之间的关联性来确定预设操作历史结果元素单元的权重值,然后获取目标对象,并将其与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。该技术方案利用了预设操作历史结果数据与历史对象数据的关联性,确定出若干预设操作历史结果元素单元的权重值,再将目标对象匹配相应的预设操作历史结果元素单元,得到目标对象的权重值,由于确定预设操作历史结果元素单元的权重值时是根据预设操作历史结果数据召回历史上使用过的历史对象数据,不但考虑了预设操作历史结果数据与历史对象数据的匹配度,而且还充分考虑了预设操作历史结果元素的关联性,使得目标对象中关键词的权重值提高,降低了修饰词的权重值,从而基于目标对象的权重值的检索能够匹配到合适的商品或者服务,提高了商品或者服务的召回率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开实施例的对象权重确定方法的流程图;
图2示出根据本公开实施例的预设操作历史结果元素单元的权重值的确定流程示意图;
图3示出根据本公开实施例的对象权重确定装置的结构框图;
图4示出根据本公开的实施例的电子设备的结构框图;
图5示出适于用来实现根据本公开实施例的对象权重确定方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
本公开实施例提供的技术方案利用了预设操作历史结果数据与历史对象数据的关联性,确定出若干预设操作历史结果元素单元的权重值,再将目标对象匹配相应的预设操作历史结果元素单元,得到目标对象的权重值,由于确定预设操作历史结果元素单元的权重值时是根据预设操作历史结果数据召回历史上使用过的历史对象数据,不但考虑了预设操作历史结果数据与历史对象数据的匹配度,而且还充分考虑了预设操作历史结果元素的关联性,使得目标对象中关键词的权重值提高,降低了修饰词的权重值,从而基于目标对象的权重值的检索能够匹配到合适的商品或者服务,提高了商品或者服务的召回率。
图1示出根据本公开实施例的对象权重确定方法的流程图。如图1所示,所述对象权重确定方法包括以下步骤S101-S103:
在步骤S101中,获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据,其中,所述预设操作历史结果数据是对于所述历史对象数据执行所述预设操作得到的,所述预设操作历史结果数据中包括一个或多个预设操作历史结果元素,所述历史对象数据中包括一个或多个历史对象元素;
在步骤S102中,对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,所述预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;
在步骤S103中,获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
根据本公开的实施例,对象权重指的是查询词(query)做分词得到的分词词项(term)权重,在搜索过程中,基于term权重能够准确返回用户搜索的相关标题(title),比如商品、商户或者品牌等,查询词和标题的相关性依赖于term权重。在确定对象权重后,还可以根据所述对象权重执行以下至少一项:以所述对象作为检索元素的信息检索(文本检索)、以所述对象作为信息元素的信息提取(比如提取核心词)或者以所述对象作为信息元素的信息关系确定(比如文本相似性分析)等。为了便于说明本公开的对象权重的确定方法,仅以文本检索的场景进行示意性说明,可以理解,上述应用场景并不构成对本公开的限制。
根据本公开的实施例,预设操作历史结果数据指的是对于历史对象数据执行预设操作得到的数据。其中,预设操作可以是对检索得到的title中选出目标title的下单、收藏、评论等具体操作;相应的,预设操作历史结果数据至少包括目标title文本以及统计所述预设操作的次数得到的数据等。所述预设操作历史结果数据可组成一个预设操作历史结果数据集,后续预设操作历史结果元素单元的权重值可在所述预设操作历史结果数据集的范围内进行计算。
历史对象数据指的是由预设操作历史结果数据召回的数据集合,该数据集合包括至少一个query以及相应的term的权重值等。具体地,比如对于titile:ABCDE的预设操作历史结果数据,可以召回AB(7,3)、ABC(6,3,1)、CDE(5,3,2)等不同的query,其中括号内的数字表示term权重值,比如对AB(7,3)表示A的权重为7,B的权重为3。
以检索为例,预设操作历史结果数据与历史对象数据之间的关联性体现在,预设操作历史结果数据可以为多个title条目,每个条目均是通过query词搜索得到并经过预设操作的结果,而通过title条目也可以相应的获取到历史上针对该title条目使用过的query以及相应的term权重。
根据本公开的实施例,预设操作历史结果数据中包括一个或多个预设操作历史结果元素。其中,所述预设操作历史结果元素指的是最小分词词项元素,根据对所述预设操作历史结果数据的文本分词处理确定。比如,对于titile:ABCDE的预设操作历史结果数据,分词处理后得到A、B、C、D、E五个分词词项,则每个分词词项作为预设操作历史结果元素。
根据本公开的实施例,预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合。比如,对于titile:ABCDE的预设操作历史结果数据,预设操作历史结果元素单元可以是AB、ABC、ABCD、ABCDE、BC、BCD、BCDE、CD、CDE、DE等组合。
根据本公开的实施例,历史对象数据中包括一个或多个历史对象元素。其中,所述历史对象元素指的是最小分词词项元素,根据对所述历史对象数据的文本分词处理确定。比如,对于query:ABC的历史对象数据,分词处理后得到A、B、C三个分词词项,则每个分词词项作为历史对象元素。
根据本公开的实施例,对于所述预设操作历史结果数据集进行聚合计算指的是对数据集中具有相同预设操作历史结果元素的预设操作历史结果数据进行聚合计算。比如,预设操作历史结果数据可以为商品title,或者其他简短的文本信息,因此可以将商品title构成的商品title集合一并进行数据处理,将商品title集合视为一个大的文档,对于该文档中相关联的商品title进行聚合计算。具体地,以预设操作历史结果数据商品titile:AB为例进行聚合计算,聚合计算可以得到包含分词词项A、B的其他商品titile,可能的聚合计算结果比如为:商品title:AC、BD、ABC等。
本公开提供的对象权重确定方法,首先获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据;然后对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值;最后获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。该技术方案能够提高目标对象中关键词的权重值,降低修饰词的权重值,从而基于目标对象的权重值的检索能够匹配到合适的商品或者服务,提高了商品或者服务的召回率。
根据本公开的实施例,所述步骤S101,即获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据之后,还包括:
对于所述预设操作历史结果数据和相关历史对象数据进行预处理。
在本公开方式中,考虑到收集到的预设操作历史结果数据和相关历史对象数据中可能含有噪声,比如title中未经过预设操作的数据或者是响应预设操作后商户操作的数据(比如配送货品相关数据)等,因此需要对上述数据进行预处理。
具体地,所述对于所述预设操作历史结果数据和相关历史对象数据进行预处理,被实施为:
对于所述预设操作历史结果数据和/或相关历史对象数据进行预设筛选;
对于筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理;
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象数据的一个或多个历史对象元素。
在本公开方式中,收集预定时间段(比如半年)的预设操作历史结果数据以及相关历史对象数据后,首先对预设操作历史结果数据和/或相关历史对象数据进行预设筛选,过滤掉噪声数据,然后对筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理,比如过滤无用符号、大写转小写、繁体转简体、全角转半角等,最后对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象的一个或多个历史对象元素。也就是说,预设操作历史结果元素是预设操作历史结果数据的分词处理结果,相应的,历史对象元素是历史对象数据的分词处理结果。需要说明的是,由于预设操作历史结果数据与历史对象数据之间的关联性,预设操作历史结果元素作为分词结果通常涵盖相关联的历史对象元素。比如,对于titile:ABC的预设操作历史结果数据,可以召回AB、ABC的query,titile:ABC的分词结果为A、B、C三个分词词项,query1:AB的分词结果为A、B两个分词词项,query2:ABC的分词结果为A、B、C三个分词词项。可见,titile:ABC的分词结果包含了query1:AB以及query2:ABC的分词结果。
其中,所述对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,被实施为:
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,若分词结果中存在预设词语或者预设词语中的部分词语,使用所述预设词语替换相应的分词结果。
在本公开方式中,考虑到不同的分词处理会影响对象权重的确定结果,对于分词结果中存在预设词语或者预设词语中的部分词语的情况,为了避免分词处理时拆分预设词语或者预设词语中的部分词语,导致无法确定合适的term权重值,进而导致搜索得到的商品与服务匹配度不高,因此需要在分词处理时,将预设词语或者预设词语中的部分词语作为一个独立的分词词项,使用预设词语替换对应的分词结果。其中,预设词语可以是常用名词比如菜品名或者药品名等,并将常用名词收录进自定义词典,然后在分词处理时,将预设操作历史结果数据和相关历史对象数据匹配自定义词典的常用名词,并将匹配到的常用名词作为一个独立的分词词项。
根据本公开的实施例,所述步骤S102,即所述对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,被实施为:
根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值。
在本公开方式中,考虑到同一历史对象数据执行不同的预设操作能够得到不同预设操作历史结果数据或者不同用户基于同一历史对象数据执行相同的预设操作也能够得到不同预设操作历史结果数据,因此,在聚合预设操作历史结果数据时,可以基于预设操作历史结果数据与历史对象数据之间的关联性,将同一或者相似历史对象数据得到的预设操作历史结果数据聚合起来,然后确定预设操作历史结果元素单元的权重值。
在本公开方式中,所述根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,被实施为:
统计所述预设操作历史结果数据中所述历史对象元素的出现次数,基于所述历史对象元素与所述预设操作历史结果元素之间的对应关系进行聚合计算,得到所述预设操作历史结果元素的出现次数;
基于所述预设操作历史结果元素的出现次数,统计得到所述预设操作历史结果元素单元的出现次数,将其作为所述预设操作历史结果元素单元的权重值。
在本公开方式中,采用统计方法先后统计得到预设操作历史结果元素的出现次数以及预设操作历史结果元素单元的出现次数,并将预设操作历史结果元素单元的出现次数作为预设操作历史结果元素单元的权重值。
在本公开方式中,在基于所述历史对象元素与所述预设操作历史结果元素之间的对应关系进行聚合计算时,通常识别出所述历史对象元素、所述预设操作历史结果元素中相同的分词词项部分,然后在预设操作历史结果数据中统计相同分词词项的出现次数,得到预设操作历史结果元素的出现次数。
图2示出根据本公开实施例的预设操作历史结果元素单元的权重值的确定流程示意图。如图2所示,预设操作历史结果数据为矩形框中title1、title2…titleN的集合,矩形框左侧为query1、query2…query N的集合,矩形框右侧为预设操作历史结果元素单元的集合,其中,2gram表示相邻的2个预设操作历史结果元素构成的元素单元,3gram表示相邻的3个预设操作历史结果元素构成的元素单元,以此类推,Ngram表示相邻的N个预设操作历史结果元素构成的元素单元,N为正整数。
以titleN:ABCD为例:输入queryN:AB、ABC或BC,在得到的搜索结果中对titleN:ABCD进行下单操作,其中,AB、ABC或BC即为历史对象元素单元;以queryN:AB为例,在收集数据的预定时间段内,若用户在输入queryN:AB并对titleN:ABCD进行下单操作的次数为2次,则统计该历史对象元素单元的次数为2次,得到在titleN:ABCD中,预设操作历史结果元素A的出现次数为2次,B的出现次数为2次。
同理,收集数据得到queryN:ABC的次数为3次,queryN:BC的次数为4次,那么计算titleN:ABCD中操作历史结果元素A的出现次数时,需要求和AB、ABC或BC中操作历史结果元素A的出现次数得到5次,同理得到操作历史结果元素B的出现次数得到9次,操作历史结果元素C的出现次数得到7次,操作历史结果元素D的出现次数得到0次。最终得到titleN:ABCD(5,9,7,0),括号内的数字分别表示相应的操作历史结果元素的出现次数。
接下来,参照titleN的统计方法统计矩形框中title1、title2…titleN的集合中每一title中预设操作历史结果元素单元的出现次数。比如:
title1:ABCDE(5,7,1,2,4)
title2:ABCXY(2,3,7,9,8)
title3:CFGE(10,8,2,1)
则统计所述预设操作历史结果数据中预设操作历史结果元素单元的出现次数时,需要将不同title中相同预设操作历史结果元素求和即可。
以预设操作历史结果元素单元AB为例,求和title1和title2中A、B的出现次数得到AB(7,10),即作为预设操作历史结果元素单元的权重值。同理得到预设操作历史结果元素单元BC(10,8)、ABC(7,10,8)、BCD(7,1,2)、CFG(10,8,2)。
需要说明的是,在统计所述预设操作历史结果数据中预设操作历史结果元素单元的出现次数时,若预设操作历史结果元素单元只存在与一个title中,则无需求和,即可将该title中预设操作历史结果元素单元的出现次数确定为预设操作历史结果元素单元的权重值。
根据本公开的实施例,所述步骤S103,即获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值,被实施为:
获取目标对象,并与所述预设操作历史结果元素单元比较;
当所述预设操作历史结果元素单元中存在与所述目标对象相同的目标预设操作历史结果元素单元时,将所述目标预设操作历史结果元素单元的权重值确定为所述目标对象的权重值;
当所述预设操作历史结果元素单元中不存在与所述目标对象相同的预设操作历史结果元素单元时,获取与所述目标对象部分相同的两个或多个目标预设操作历史结果元素单元,对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算,得到所述目标对象的权重值。
在本公开方式中,将目标对象与预设操作历史结果元素单元比较,根据比较结果,确定将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
比如,预设操作历史结果元素单元以及权重值分别为AB(7,10)、BC(10,8)、ABC(7,10,8)、BCD(7,1,2)、CFG(10,8,2),则比较结果可能由以下几种情况:
一种情况是,目标对象与其中一个目标预设操作历史结果元素单元相同;比如目标对象为ABC,则根据目标预设操作历史结果元素单元ABC(7,10,8)确定为目标对象ABC的权重值为ABC(7,10,8)。
另一种情况是,目标对象与任一个预设操作历史结果元素单元均不相同;比如目标对象为ABFG,ABCD或者,则需要对从预设操作历史结果元素单元中确定出两个或多个目标预设操作历史结果元素单元,然后进行合并计算,得到目标对象的权重值。
在后一种情况下,所述对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算,被实施为:
当所述目标预设操作历史结果元素单元覆盖所述目标对象且不存在元素重叠时,对于所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行组合;
在本公开方式中,比如,目标对象为ABFG,则确定的目标预设操作历史结果元素单元为AB(7,10)以及CFG(10,8,2),组合上述目标预设操作历史结果元素单元,得到目标对象为ABFG的权重值为ABFG(7,10,8,2)。
当所述目标预设操作历史结果元素单元覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于所述目标预设操作历史结果元素单元的权重值进行归一化计算,对于归一化后的所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行去重组合;
在本公开方式中,比如,目标对象为ABCFG,则确定的目标预设操作历史结果元素单元为ABC(7,10,8)以及CFG(10,8,2),则基于重叠元素C进行归一化处理得到ABC(70,100,80)以及CFG(80,64,16),组合上述目标预设操作历史结果元素单元,得到目标对象为ABCFG的权重值为ABFG(70,100,80,64,16)。
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且不存在元素重叠时,对于缺失元素的权重值进行填补,对于所述目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行组合;
在本公开方式中,比如,目标对象为ABEFG,则确定的目标预设操作历史结果元素单元为AB(7,10)以及CFG(10,8,2),组合上述目标预设操作历史结果元素单元,得到目标对象为ABEFG的权重值为ABFG(7,10,X,8,2)。其中,X即为缺失元素的权重值,可以按照设定的填补规则填补固定值,本公开对此不做限制。
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于存在元素重叠的目标预设操作历史结果元素单元的权重值进行归一化计算,对于缺失元素的权重值进行填补,并对于归一化后的目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行去重组合。
在本公开方式中,比如,目标对象为ABCFGE,则确定的目标预设操作历史结果元素单元为ABC(7,10,8)以及CFG(10,8,2),则基于重叠元素C进行归一化处理得到ABC(70,100,80)以及CFG(80,64,16),组合上述目标预设操作历史结果元素单元,得到目标对象为ABCFGE的权重值为ABFGE(70,100,80,64,16,X)。其中,X即为缺失元素的权重值,可以按照设定的填补规则填补固定值,本公开对此不做限制。
图3示出根据本公开实施例的对象权重确定装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,所述对象权重确定装置包括获取模块310、确定模块320和比较模块330。
所述获取模块310被配置为获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据,其中,所述预设操作历史结果数据是对于所述历史对象数据执行所述预设操作得到的,所述预设操作历史结果数据中包括一个或多个预设操作历史结果元素,所述历史对象数据中包括一个或多个历史对象元素;
所述确定模块320被配置为对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,所述预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;
所述比较模块330被配置为获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
根据本公开的实施例,对象权重指的是查询词(query)做分词得到的分词词项(term)权重,在搜索过程中,基于term权重能够准确返回用户搜索的相关标题(title),比如商品、商户或者品牌等,查询词和标题的相关性依赖于term权重。在确定对象权重后,还可以根据所述对象权重执行以下至少一项:以所述对象作为检索元素的信息检索(文本检索)、以所述对象作为信息元素的信息提取(比如提取核心词)或者以所述对象作为信息元素的信息关系确定(比如文本相似性分析)等。为了便于说明本公开的对象权重的确定方法,仅以文本检索的场景进行示意性说明,可以理解,上述应用场景并不构成对本公开的限制。
根据本公开的实施例,预设操作历史结果数据指的是对于历史对象数据执行预设操作得到的数据。其中,预设操作可以是对检索得到的title中选出目标title的下单、收藏、评论等具体操作;相应的,预设操作历史结果数据至少包括目标title文本以及统计所述预设操作的次数得到的数据等。所述预设操作历史结果数据可组成一个预设操作历史结果数据集,后续预设操作历史结果元素单元的权重值可在所述预设操作历史结果数据集的范围内进行计算。
历史对象数据指的是由预设操作历史结果数据召回的数据集合,该数据集合包括至少一个query以及相应的term的权重值等。具体地,比如对于titile:ABCDE的预设操作历史结果数据,可以召回AB(7,3)、ABC(6,3,1)、CDE(5,3,2)等不同的query,其中括号内的数字表示term权重值,比如对AB(7,3)表示A的权重为7,B的权重为3。
以检索为例,预设操作历史结果数据与历史对象数据之间的关联性体现在,预设操作历史结果数据可以为多个title条目,每个条目均是通过query词搜索得到并经过预设操作的结果,而通过title条目也可以相应的获取到历史上针对该title条目使用过的query以及相应的term权重。
根据本公开的实施例,预设操作历史结果数据中包括一个或多个预设操作历史结果元素。其中,所述预设操作历史结果元素指的是最小分词词项元素,根据对所述预设操作历史结果数据的文本分词处理确定。比如,对于titile:ABCDE的预设操作历史结果数据,分词处理后得到A、B、C、D、E五个分词词项,则每个分词词项作为预设操作历史结果元素。
根据本公开的实施例,预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合。比如,对于titile:ABCDE的预设操作历史结果数据,预设操作历史结果元素单元可以是AB、ABC、ABCD、ABCDE、BC、BCD、BCDE、CD、CDE、DE等组合。
根据本公开的实施例,历史对象数据中包括一个或多个历史对象元素。其中,所述历史对象元素指的是最小分词词项元素,根据对所述历史对象数据的文本分词处理确定。比如,对于query:ABC的历史对象数据,分词处理后得到A、B、C三个分词词项,则每个分词词项作为历史对象元素。
根据本公开的实施例,对于所述预设操作历史结果数据集进行聚合计算指的是对数据集中具有相同预设操作历史结果元素的预设操作历史结果数据进行聚合计算。比如,预设操作历史结果数据可以为商品title,或者其他简短的文本信息,因此可以将商品title构成的商品title集合一并进行数据处理,将商品title集合视为一个大的文档,对于该文档中相关联的商品title进行聚合计算。具体地,以预设操作历史结果数据商品titile:AB为例进行聚合计算,聚合计算可以得到包含分词词项A、B的其他商品titile,可能的聚合计算结果比如为:商品title:AC、BD、ABC等。
本公开提供的对象权重确定方法,首先获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据;然后对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值;最后获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。该技术方案能够提高目标对象中关键词的权重值,降低修饰词的权重值,从而基于目标对象的权重值的检索能够匹配到合适的商品或者服务,提高了商品或者服务的召回率。
根据本公开的实施例,所述装置还包括:
预处理模块,被配置为对于所述预设操作历史结果数据和相关历史对象数据进行预处理。
在本公开方式中,考虑到收集到的预设操作历史结果数据和相关历史对象数据中可能含有噪声,比如title中未经过预设操作的数据或者是响应预设操作后商户操作的数据(比如配送货品相关数据)等,因此需要对上述数据进行预处理。
具体地,所述预处理模块包括:
筛选单元,被配置为对于所述预设操作历史结果数据和/或相关历史对象数据进行预设筛选;
处理单元,被配置为对于筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理;
分词单元,被配置为对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象数据的一个或多个历史对象元素。
在本公开方式中,收集预定时间段(比如半年)的预设操作历史结果数据以及相关历史对象数据后,首先对预设操作历史结果数据和/或相关历史对象数据进行预设筛选,过滤掉噪声数据,然后对筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理,比如过滤无用符号、大写转小写、繁体转简体、全角转半角等,最后对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象的一个或多个历史对象元素。也就是说,预设操作历史结果元素是预设操作历史结果数据的分词处理结果,相应的,历史对象元素是历史对象数据的分词处理结果。需要说明的是,由于预设操作历史结果数据与历史对象数据之间的关联性,预设操作历史结果元素作为分词结果通常涵盖相关联的历史对象元素。比如,对于titile:ABC的预设操作历史结果数据,可以召回AB、ABC的query,titile:ABC的分词结果为A、B、C三个分词词项,query1:AB的分词结果为A、B两个分词词项,query2:ABC的分词结果为A、B、C三个分词词项。可见,titile:ABC的分词结果包含了query1:AB以及query2:ABC的分词结果。
其中,所述分词单元中对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理的部分,被配置为:
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,若分词结果中存在预设词语或者预设词语中的部分词语,使用所述预设词语替换相应的分词结果。
在本公开方式中,考虑到不同的分词处理会影响对象权重的确定结果,对于分词结果中存在预设词语或者预设词语中的部分词语的情况,为了避免分词处理时拆分预设词语或者预设词语中的部分词语,导致无法确定合适的term权重值,进而导致搜索得到的商品与服务匹配度不高,因此需要在分词处理时,将预设词语或者预设词语中的部分词语作为一个独立的分词词项,使用预设词语替换对应的分词结果。其中,预设词语可以是常用名词比如菜品名或者药品名等,并将常用名词收录进自定义词典,然后在分词处理时,将预设操作历史结果数据和相关历史对象数据匹配自定义词典的常用名词,并将匹配到的常用名词作为一个独立的分词词项。
根据本公开的实施例,所述确定模块320被配置为:
根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值。
在本公开方式中,考虑到同一历史对象数据执行不同的预设操作能够得到不同预设操作历史结果数据或者不同用户基于同一历史对象数据执行相同的预设操作也能够得到不同预设操作历史结果数据,因此,在聚合预设操作历史结果数据时,可以基于预设操作历史结果数据与历史对象数据之间的关联性,将同一或者相似历史对象数据得到的预设操作历史结果数据聚合起来,然后确定预设操作历史结果元素单元的权重值。
在本公开方式中,所述根据所述预设操作历史结果数据与所述历史对象数据之间的关联性对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值的部分,包括:
第一统计单元,被配置为统计所述预设操作历史结果数据中所述历史对象元素的出现次数,基于所述历史对象元素与所述预设操作历史结果元素之间的对应关系进行聚合计算,得到所述预设操作历史结果元素的出现次数;
第二统计单元,被配置为基于所述预设操作历史结果元素的出现次数,统计得到所述预设操作历史结果元素单元的出现次数,将其作为所述预设操作历史结果元素单元的权重值。
在本公开方式中,采用统计方法先后统计得到预设操作历史结果元素的出现次数以及预设操作历史结果元素单元的出现次数,并将预设操作历史结果元素单元的出现次数作为预设操作历史结果元素单元的权重值。
在本公开方式中,在基于所述历史对象元素与所述预设操作历史结果元素之间的对应关系进行聚合计算时,通常识别出所述历史对象元素、所述预设操作历史结果元素中相同的分词词项部分,然后在预设操作历史结果数据中统计相同分词词项的出现次数,得到预设操作历史结果元素的出现次数。
根据本公开的实施例,所述比较模块330包括:
比较单元,被配置为获取目标对象,并与所述预设操作历史结果元素单元比较;
确定单元,被配置为当所述预设操作历史结果元素单元中存在与所述目标对象相同的目标预设操作历史结果元素单元时,将所述目标预设操作历史结果元素单元的权重值确定为所述目标对象的权重值;
计算单元,被配置为当所述预设操作历史结果元素单元中不存在与所述目标对象相同的预设操作历史结果元素单元时,获取与所述目标对象部分相同的两个或多个目标预设操作历史结果元素单元,对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算,得到所述目标对象的权重值。
在本公开方式中,将目标对象与预设操作历史结果元素单元比较,根据比较结果,确定将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
比如,预设操作历史结果元素单元以及权重值分别为AB(7,10)、BC(10,8)、ABC(7,10,8)、BCD(7,1,2)、CFG(10,8,2),则比较结果可能由以下几种情况:
一种情况是,目标对象与其中一个目标预设操作历史结果元素单元相同;比如目标对象为ABC,则根据目标预设操作历史结果元素单元ABC(7,10,8)确定为目标对象ABC的权重值为ABC(7,10,8)。
另一种情况是,目标对象与任一个预设操作历史结果元素单元均不相同;比如目标对象为ABFG,ABCD或者,则需要对从预设操作历史结果元素单元中确定出两个或多个目标预设操作历史结果元素单元,然后进行合并计算,得到目标对象的权重值。
在后一种情况下,所述计算单元中对于所述两个或多个目标预设操作历史结果元素单元的权重值进行合并计算的部分,被实施为:
当所述目标预设操作历史结果元素单元覆盖所述目标对象且不存在元素重叠时,对于所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行组合;
在本公开方式中,比如,目标对象为ABFG,则确定的目标预设操作历史结果元素单元为AB(7,10)以及CFG(10,8,2),组合上述目标预设操作历史结果元素单元,得到目标对象为ABFG的权重值为ABFG(7,10,8,2)。
当所述目标预设操作历史结果元素单元覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于所述目标预设操作历史结果元素单元的权重值进行归一化计算,对于归一化后的所述目标预设操作历史结果元素单元的权重值根据在所述目标对象中的出现顺序进行去重组合;
在本公开方式中,比如,目标对象为ABCFG,则确定的目标预设操作历史结果元素单元为ABC(7,10,8)以及CFG(10,8,2),则基于重叠元素C进行归一化处理得到ABC(70,100,80)以及CFG(80,64,16),组合上述目标预设操作历史结果元素单元,得到目标对象为ABCFG的权重值为ABFG(70,100,80,64,16)。
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且不存在元素重叠时,对于缺失元素的权重值进行填补,对于所述目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行组合;
在本公开方式中,比如,目标对象为ABEFG,则确定的目标预设操作历史结果元素单元为AB(7,10)以及CFG(10,8,2),组合上述目标预设操作历史结果元素单元,得到目标对象为ABEFG的权重值为ABFG(7,10,X,8,2)。其中,X即为缺失元素的权重值,可以按照设定的填补规则填补固定值,本公开对此不做限制。
当所述目标预设操作历史结果元素单元未覆盖所述目标对象且存在元素重叠时,基于重叠元素权重值的差异对于存在元素重叠的目标预设操作历史结果元素单元的权重值进行归一化计算,对于缺失元素的权重值进行填补,并对于归一化后的目标预设操作历史结果元素单元及缺失元素的权重值根据在所述目标对象中的出现顺序进行去重组合。
在本公开方式中,比如,目标对象为ABCFGE,则确定的目标预设操作历史结果元素单元为ABC(7,10,8)以及CFG(10,8,2),则基于重叠元素C进行归一化处理得到ABC(70,100,80)以及CFG(80,64,16),组合上述目标预设操作历史结果元素单元,得到目标对象为ABCFGE的权重值为ABFGE(70,100,80,64,16,X)。其中,X即为缺失元素的权重值,可以按照设定的填补规则填补固定值,本公开对此不做限制。
根据本公开的实施例,所述装置还包括:
执行模块,被配置为根据所述对象权重执行以下至少一项:
以所述对象作为检索元素的信息检索、以所述对象作为信息元素的信息提取或者以所述对象作为信息元素的信息关系确定。
本公开还公开了一种电子设备,图4示出根据本公开的实施例的电子设备的结构框图。
如图4所示,所述电子设备400包括存储器401和处理器402;其中,
所述存储器401用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器402执行以实现以下方法步骤:
获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据,其中,所述预设操作历史结果数据是对于所述历史对象数据执行所述预设操作得到的,所述预设操作历史结果数据中包括一个或多个预设操作历史结果元素,所述历史对象数据中包括一个或多个历史对象元素;
对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,所述预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;
获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
图5示出适于用来实现根据本公开实施例的对象权重确定方法的计算机系统的结构示意图。
如图5所示,计算机系统500包括处理单元501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述实施例中的各种处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。处理单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。其中,所述处理单元501可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种对象权重确定方法,包括:
获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据,其中,所述预设操作历史结果数据是对于所述历史对象数据执行所述预设操作得到的,所述预设操作历史结果数据中包括一个或多个预设操作历史结果元素,所述历史对象数据中包括一个或多个历史对象元素;
对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,所述预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;
获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
2.根据权利要求1所述的方法,所述获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据之后,还包括:
对于所述预设操作历史结果数据和相关历史对象数据进行预处理。
3.根据权利要求2所述的方法,所述对于所述预设操作历史结果数据和相关历史对象数据进行预处理,被实施为:
对于所述预设操作历史结果数据和/或相关历史对象数据进行预设筛选;
对于筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理;
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象数据的一个或多个历史对象元素。
4.根据权利要求3所述的方法,所述对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,被实施为:
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,若分词结果中存在预设词语或者预设词语中的部分词语,使用所述预设词语替换相应的分词结果。
5.一种对象权重确定装置,包括:
获取模块,被配置为获取包括预设操作历史结果数据的预设操作历史结果数据集,以及与所述预设操作历史结果数据相关的历史对象数据,其中,所述预设操作历史结果数据是对于所述历史对象数据执行所述预设操作得到的,所述预设操作历史结果数据中包括一个或多个预设操作历史结果元素,所述历史对象数据中包括一个或多个历史对象元素;
确定模块,被配置为对于所述预设操作历史结果数据集进行聚合计算,确定预设操作历史结果元素单元的权重值,其中,所述预设操作历史结果元素单元为在所述预设操作历史结果数据中连续出现的两个或多个预设操作历史结果元素的组合;
比较模块,被配置为获取目标对象,并与所述预设操作历史结果元素单元比较,将与所述目标对象相应的预设操作历史结果元素单元的权重值确定为所述目标对象的权重值。
6.根据权利要求5所述的装置,还包括:
预处理模块,被配置为对于所述预设操作历史结果数据和相关历史对象数据进行预处理。
7.根据权利要求6所述的装置,所述预处理模块包括:
筛选单元,被配置为对于所述预设操作历史结果数据和/或相关历史对象数据进行预设筛选;
处理单元,被配置为对于筛选得到的预设操作历史结果数据和相关历史对象数据进行归一化处理;
分词单元,被配置为对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,得到所述预设操作历史结果数据的一个或多个预设操作历史结果元素,以及所述历史对象数据的一个或多个历史对象元素。
8.根据权利要求7所述的装置,所述分词单元中对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理的部分,被配置为:
对于归一化后的预设操作历史结果数据和相关历史对象数据进行分词处理,若分词结果中存在预设词语或者预设词语中的部分词语,使用所述预设词语替换相应的分词结果。
9.一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-4任一项所述的方法步骤。
10.一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现权利要求1-4任一项所述的方法步骤。
CN202010671404.9A 2020-07-13 2020-07-13 对象权重确定方法、装置、电子设备及可读存储介质 Active CN111709227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010671404.9A CN111709227B (zh) 2020-07-13 2020-07-13 对象权重确定方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010671404.9A CN111709227B (zh) 2020-07-13 2020-07-13 对象权重确定方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111709227A true CN111709227A (zh) 2020-09-25
CN111709227B CN111709227B (zh) 2023-04-07

Family

ID=72545443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010671404.9A Active CN111709227B (zh) 2020-07-13 2020-07-13 对象权重确定方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111709227B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343076A (zh) * 2021-04-23 2021-09-03 山东师范大学 一种基于特征匹配度的创新技术推荐方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123332A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
CN106951413A (zh) * 2017-03-24 2017-07-14 北京百度网讯科技有限公司 基于人工智能的分词方法及装置
CN109948036A (zh) * 2017-11-15 2019-06-28 腾讯科技(深圳)有限公司 一种分词词项权重的计算方法和装置
CN110020128A (zh) * 2017-10-26 2019-07-16 阿里巴巴集团控股有限公司 一种搜索结果排序方法及装置
CN110377803A (zh) * 2019-06-14 2019-10-25 阿里巴巴集团控股有限公司 信息处理方法以及装置
CN110457568A (zh) * 2018-05-03 2019-11-15 北京京东尚科信息技术有限公司 品牌词的识别方法及系统、对象推荐方法及系统
CN110874532A (zh) * 2018-08-30 2020-03-10 北京京东尚科信息技术有限公司 提取反馈信息的关键词的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123332A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
CN106951413A (zh) * 2017-03-24 2017-07-14 北京百度网讯科技有限公司 基于人工智能的分词方法及装置
CN110020128A (zh) * 2017-10-26 2019-07-16 阿里巴巴集团控股有限公司 一种搜索结果排序方法及装置
CN109948036A (zh) * 2017-11-15 2019-06-28 腾讯科技(深圳)有限公司 一种分词词项权重的计算方法和装置
CN110457568A (zh) * 2018-05-03 2019-11-15 北京京东尚科信息技术有限公司 品牌词的识别方法及系统、对象推荐方法及系统
CN110874532A (zh) * 2018-08-30 2020-03-10 北京京东尚科信息技术有限公司 提取反馈信息的关键词的方法和装置
CN110377803A (zh) * 2019-06-14 2019-10-25 阿里巴巴集团控股有限公司 信息处理方法以及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343076A (zh) * 2021-04-23 2021-09-03 山东师范大学 一种基于特征匹配度的创新技术推荐方法及系统

Also Published As

Publication number Publication date
CN111709227B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US9117006B2 (en) Recommending keywords
US9959563B1 (en) Recommendation generation for infrequently accessed items
CN103400286B (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
US9934293B2 (en) Generating search results
US20120072220A1 (en) Matching text sets
US20150339759A1 (en) Detecting product attributes associated with product upgrades based on behaviors of users
CN106909663B (zh) 基于标签用户品牌偏好行为预测方法及其装置
CN108984554B (zh) 用于确定关键词的方法和装置
CN111444304A (zh) 搜索排序的方法和装置
CN111553137B (zh) 报告生成方法、装置、存储介质及计算机设备
CN111310011A (zh) 一种信息推送方法、装置、电子设备及存储介质
US7398227B2 (en) Methods, systems, and computer for managing purchasing data
CN115796924A (zh) 一种基于大数据的云平台电子商务数据处理方法及系统
US7949576B2 (en) Method of providing product database
CN111709227B (zh) 对象权重确定方法、装置、电子设备及可读存储介质
CN110688572A (zh) 冷启动状态下搜索意图的识别方法
CN106919649B (zh) 一种词条权重计算的方法及装置
CN111125499A (zh) 数据查询方法及装置
CN110956552A (zh) 保险问题处理方法、装置、设备及存储介质
CN113763084A (zh) 产品推荐的处理方法、装置、设备及存储介质
CN111931065A (zh) 基于lstm模型的商机推荐方法、系统、电子设备及介质
KR101105947B1 (ko) 상품모델을 자동으로 매칭시키는 상품 정보 등록 방법 및시스템
CN111753183A (zh) 一种搜索结果的处理方法和装置
CN112000821B (zh) 多媒体信息推送方法、装置、服务器及存储介质
CN113538062B (zh) 一种反推商品推广笔记所购买竞价词的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant