CN111400577B

CN111400577B - 一种搜索召回方法及装置

Info

Publication number: CN111400577B
Application number: CN201811533531.1A
Authority: CN
Inventors: 王涛; 李林琳; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-06-30
Anticipated expiration: 2038-12-14
Also published as: CN111400577A

Abstract

本申请公开了一种搜索召回方法及装置，本申请通过短语切分模型和过滤策略对待识别商品标题的处理，提高了品类词挖掘的准确率，而且，通过自动化过程，大大提高了挖掘效率，也大大降低了人工成本。

Description

一种搜索召回方法及装置

技术领域

本申请涉及但不限于计算机技术，尤指一种搜索召回方法及装置。

背景技术

品类词实体包括电商标题或询问(query)中描述的对应商品实体的名称，比如：mp3player、cat eye、sport shoe、围巾等。

相关技术中挖掘品类词实体的方法主要是借助于卖家主动填写的属性信息。一方面，这些属性值都是卖家主动填写的，质量参差不齐，这种通过从属性中抽取描述产品类型的属性值来获取品类词实体的方法，对卖家填写信息依赖较大，卖家未填写的部分是覆盖不到的，造成了品类词实体挖掘不全面、不准确；另一方面，抽取的词需要大量的人工审核后才能得到真正需要的品类词实体，无形中增大了成本。而且，对于如服务于东南亚买卖家的电商平台，包含英、泰、印、越、菲等5种主要语言，每种语言在平台都会有对应的搜索入口，在东南亚的买家在平台上购物时，买家通常会优先使用自己熟悉的语言，如泰语、印尼语等输入检索关键词，搜索展示时，需要根据每种语言返回相关的商品，也就是说在多语言环境下搜索召回是有一定问题的。

发明内容

本申请提供一种搜索召回方法及装置，能够提高品类词全面挖掘的准确率，降低成本。

本发明实施例提供了一种搜索召回方法，包括：

获取待识别商品标题的品类词实体正样例和品类词实体负样例，作为候选品类词实体；

将候选品类词实体输入短语切分模型，获取第一品类词实体；

按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。

可选地，所述方法还包括获取命名实体识别NER模型，包括：

从多语言商品库中获取第一数量的商品标题样本，通过标注获取每个商品标题样本的正样例样本和负样例样本；

将正样例样本和负样例样本输入预先设置的条件随机场CRF模型进行训练，确定模型的参数以得到所述NER模型。

可选地，所述获取品类词实体正样例包括：

将所述待识别商品标题输入所述NER模型，经过所述NER模型的处理得到的品类词实体作为所述品类词实体正样例。

可选地，所述获取品类词实体正样例包括：

通过对所述待识别商品标题进行标注来获取所述品类词实体正样例。

可选地，所述获取品类词实体负样例包括：

利用N元N-Gram模型对所述待识别商品标题进行分析，获取所述品类词实体负样例。

可选地，所述方法还包括：利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成所述短语切分模型；其中，训练生成短语切分模型包括：

根据短语质量策略对所述正样例样本和所述负样例样本分别计算短语质量得分，根据词性质量策略对所述正样例样本和所述负样例样本分别计算词性质量得分；

将所有得分输入预先设置的最大化整体得分目标函数，使用动态规划算法计算得到目标函数的参数，以学习得到所述短语切分模型；

其中，短语质量得分，用于衡量一个词序列构成短语的概率；词性质量得分，用于考察语法层面的信息。

可选地，所述获取第一品类词实体，可以包括：

将获取的每个所述候选品类词实体输入所述短语切分模型，分别计算短语质量得分和词性质量得分；

按照得分从高到低排序后，将第一数目个得分高的品类词实体作为所述第一品类词实体。

可选地，所述过滤策略包括以下至少一项：

所述第一品类词实体是否被用户在搜索引擎中大量搜索过，如果所述第一品类词实体出现在用户搜索信息库中且出现次数超过预先设置的次数阈值，则对所述第一品类词实体进行加分；

所述第一品类词实体是否在属性填写中被商品卖家主动填写过，如果所述第一品类词实体出现在商品卖家主动填写的属性库中，则对所述第一品类词实体进行加分；

所述第一品类词实体是否出现在类目名称中，如果所述第一品类词实体出现在类目名称中，则对所述第一品类词实体进行加分；

计算所述第一品类词实体的类目分布的词频/逆文档频率TF/IDF得分，得分越高则表明该第一品类词实体越可能是完整的词，对所述第一品类词实体进行加分。

可选地，所述多语言商品库包括以下至少一种语言：英语、泰语、印度语、越语、中文、菲律宾语。

本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的搜索召回方法。

本申请又提供了一种用于搜索召回的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的搜索召回方法的步骤。

本申请通过短语切分模型和过滤策略对待识别商品标题的处理，提高了品类词挖掘的准确率，而且，通过自动化过程，大大提高了挖掘效率，也大大降低了人工成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请搜索召回方法的流程图；

图2为本申请搜索召回装置的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请搜索召回方法的流程图，如图1所示，包括：

步骤100：获取待识别商品标题的品类词实体正样例和品类词实体负样例，作为候选品类词实体。

在一种示例性实例中，获取品类词实体正样例包括：

将待识别商品标题输入命名实体识别(NER，Named Entity Recognition)模型，经过NER模型的处理得到的品类词实体作为品类词实体正样例。

其中，NER模型用于识别产品、修饰、品牌、型号等电商实体和属性的模型。

在一种示例性实例中，获取品类词实体正样例包括：

通过对待识别商品标题进行标注如人工标注来获取品类词实体正样例。

可选地，在一种示例性实例中，本步骤之前还可以包括：获取NER模型。

在一种示例性实例中，获取NER模型包括：

从多语言商品库中获取第一数量的商品标题样本，通过标注如人工标注获取每个商品标题样本的正样例样本和负样例样本；将正样例样本和负样例样本输入预先设置的如条件随机场(CRF,Conditional Random Field)模型进行训练，确定模型的参数以得到NER模型。

这里，第一数量的商品标题样本可以根据实际应用场景进行选择，比如万级数量，如1万～2万等。

多语言商品库包括有大规模的非结构化的商品标题，可以是不同语言的，如英语、泰语、印度语、越语、中文、菲律宾语等语言。

在一种示例性实例中，获取品类词实体负样例包括：

利用N元(N-Gram)模型对待识别商品标题进行分析，获取品类词实体负样例。

在自然语言里有一种模型称为N-Gram模型，表示文字或语言中的N个连续的单词组成的词序列。在进行自然语言分析时，使用N-Gram寻找常用词组，可以很容易的将一句话分解成若干个文字片段。

举例来看，比如对于一条商品标题“8GB Red MP3Player”，通过本步骤的NER模型，可以得到品类词实体正样例包括：“MP3Player”，通过本步骤中的N-Gram模型，假设N＝2，则可以得到品类词负样例包括：“8GB”、“8GB Red”。

步骤101：将候选品类词实体输入短语切分模型，获取第一品类词实体。

可选地，在一种示例性实例中，本步骤之前，还可以包括：利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成短语切分模型。

在一种示例性实例中，训练生成短语切分模型可以包括：

根据短语质量策略对正样例样本和负样例样本分别计算短语质量得分，根据词性质量策略对正样例样本和负样例样本分别计算词性质量得分；

将所有得分输入预先设置的最大化整体得分目标函数，使用动态规划算法计算得到目标函数的参数，以最终学习得到短语切分模型。

其中，最大化整体得分目标函数可以是一个自定义的数学函数，比如是一个句子的所有可能情况的得分相乘，也就是词性质量分和短语质量分相乘即得到总分。

在一种示例性实例中，本步骤中的获取第一品类词实体，可以包括：

将获取的每个候选品类词实体输入短语切分模型，分别计算短语质量得分和词性质量得分，最终按照得分从高到低排序后，将第一数目个得分高的品类词实体作为第一品类词实体。

其中，第一数目可以按照实际应用场景进行选取。

在一种示例性实例中，短语质量得分，用于衡量一个词序列构成短语的概率，可以根据这个词序列的各种特征进行计算得到，这些特征可以包括但不限于如：互信息、KL距离、词频(TF)/逆文档频率(IDF)等，以及特征之间如何搭配才能更好的衡量短语质量。举例来看，比如：输入的候选品类词实体是词序列“this mp3”，那么经过短语切分模型后，该候选品类词实体构成短语的概率低，短语质量得分约为0；再如：输入的候选品类词实体是词序列“mp3player”，那么经过短语切分模型后，该候选品类词实体构成短语的概率高，短语质量得分则接近1。

其中，KL距离是Kullback-Leibler Divergence的简称，也称为相对熵(RelativeEntropy)。

在一种示例性实例中，词性质量得分，用于考察语法层面的信息，即考察词序列中相邻两个词之间在语法层面的修饰关系，修饰关系越强，则这两个词构成短语的概率就越大，比如：名词修饰名词、形容词修饰名词等情况是属于修饰关系比较强的；而如动词修饰名词、名词修饰形容词等情况，则是两个词之间的修饰关系要弱一些的情况。举例来看，比如：输入的候选品类词实体是词序列“sport shoe”，其中，sport是形容词，shoe是名词，两者的修饰关系很强，因此，经过短语切分模型后，词序列“sport shoe”的词性质量得分接近1；再如：输入的候选品类词实体是词序列“watch TV”，属于动词修饰名词，两者的修饰关系比较弱，因此，经过短语切分模型后，词序列“watch TV”的词性质量得分接近0；又如：输入的候选品类词实体是词序列“dress red”，属于动词修饰名词，两者的修饰关系比较弱，因此，经过短语切分模型后，词序列“dress red”的词性质量得分接近0。

步骤102：按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。

在一种示例性实例中，过滤策略可以包括以下任意项：

第一品类词实体是否被用户在搜索引擎中大量搜索过，如果第一品类词实体出现在用户搜索信息库中且出现次数超过预先设置的次数阈值，则表明第一品类词实体是用户认为的一个完整的短语，对第一品类词实体进行加分；

第一品类词实体是否在属性填写中被商品卖家主动填写过，如果第一品类词实体出现在商品卖家主动填写的属性库中，则表明第一品类词实体是卖家认为的一个完整的词，对第一品类词实体进行加分；

第一品类词实体是否出现在类目名称中，类目名称是人工运营的高质量词，因此，如果第一品类词实体出现在类目名称中，则表明第一品类词实体很大概率上是品类词实体，对第一品类词实体进行加分；

计算第一品类词实体的类目分布的TF/IDF得分，主要计算类目内部的TF/IDF得分，得分越高则表明该第一品类词实体越可能是完整的词，对第一品类词实体进行加分。

本步骤中，将所有第一品类词实体进行过滤后，按照得分从高到低排序后，将第二数目个得分高的第一品类词实体作为待识别商品标题的品类词实体。

其中，第二数目可以按照实际应用场景进行选取。

可选地，在一种示例性实例中，本申请获取品类词实体的方法还包括：

对得到的待识别商品标题的品类词实体进行人工审核，得到更高质量的品类词实体。此时的人工审核是针对高质量的品类词实体进行的，因此，一方面是进一步地提升了品类词挖掘的准确率，另一方面，也不会造成挖掘效率的降低。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上任一项的搜索召回方法。

本申请再提供一种获取品类词实体的装置，包括存储器和处理器，其中，存储器中存储有上述任一项的搜索召回方法的步骤。

图2为本申请搜索召回装置的组成结构示意图，如图2所示，至少包括：第一获取模块、第二获取模块、过滤模块；其中，

第一获取模块，用于获取待识别商品标题的品类词实体正样例和品类词实体负样例，作为候选品类词实体；

第二获取模块，用于利用短语切分模型对候选品类词实体进行分析，获取第一品类词实体；

过滤模块，用于按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。

在一种示例性实例中，第一获取模块具体用于：

利用NER模型对待识别商品标题进行处理，得到的品类词实体作为品类词实体正样例；或者，通过对待识别商品标题进行标注如人工标注来获取品类词实体正样例；

利用N-Gram模型对待识别商品标题进行分析，获取品类词实体负样例。

在一种示例性实例中，第二获取模块具体用于：

利用短语切分模型对获取的每个候选品类词实体进行处理，分别计算短语质量得分和词性质量得分，最终按照得分从高到低排序后，将第一数目个得分高的品类词实体作为第一品类词实体。

在一种示例性实例中，过滤模块具体用于：

按照过滤策略对所有第一品类词实体进行过滤后，按照得分从高到低排序后，将第二数目个得分高的第一品类词实体作为待识别商品标题的品类词实体。

在一种示例性实例中，过滤策略可以包括以下任意项：

可选地，在一种示例性实例中，本申请搜索召回装置还包括：审核模块，用于对得到的待识别商品标题的品类词实体进行人工审核，得到更高质量的品类词实体。此时的人工审核是针对高质量的品类词实体进行的，因此，一方面是进一步地提升了品类词挖掘的准确率，另一方面，也不会造成挖掘效率的降低。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种搜索召回方法，包括：

利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成短语切分模型；

将候选品类词实体输入所述短语切分模型，获取第一品类词实体；

按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体；

其中，所述训练生成短语切分模型包括：根据短语质量策略对所述正样例样本和所述负样例样本分别计算短语质量得分，根据词性质量策略对所述正样例样本和所述负样例样本分别计算词性质量得分；将所有得分输入预先设置的最大化整体得分目标函数，使用动态规划算法计算得到目标函数的参数，以学习得到所述短语切分模型；其中，短语质量得分，用于衡量一个词序列构成短语的概率；词性质量得分，用于考察语法层面的信息；

所述过滤策略包括以下至少一项：所述第一品类词实体是否被用户在搜索引擎中大量搜索过，如果所述第一品类词实体出现在用户搜索信息库中且出现次数超过预先设置的次数阈值，则对所述第一品类词实体进行加分；所述第一品类词实体是否在属性填写中被商品卖家主动填写过，如果所述第一品类词实体出现在商品卖家主动填写的属性库中，则对所述第一品类词实体进行加分；所述第一品类词实体是否出现在类目名称中，如果所述第一品类词实体出现在类目名称中，则对所述第一品类词实体进行加分；计算所述第一品类词实体的类目分布的词频/逆文档频率TF/IDF得分，得分越高则表明该第一品类词实体越可能是完整的词，对所述第一品类词实体进行加分。

2.根据权利要求1所述的搜索召回方法，所述方法还包括获取命名实体识别NER模型，包括：

3.根据权利要求2所述的搜索召回方法，其中，所述获取品类词实体正样例包括：

4.根据权利要求1所述的搜索召回方法，其中，所述获取品类词实体正样例包括：

5.根据权利要求1所述的搜索召回方法，其中，所述获取品类词实体负样例包括：

6.根据权利要求1所述的搜索召回方法，其中，所述获取第一品类词实体，可以包括：

7.根据权利要求2所述的搜索召回方法，其中，所述多语言商品库包括以下至少一种语言：英语、泰语、印度语、越语、中文、菲律宾语。

8.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1~权利要求7任一项所述的搜索召回方法。

9.一种用于搜索召回的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1~权利要求7任一项所述的搜索召回方法的步骤。