CN116340617A

CN116340617A - 一种搜索推荐方法和装置

Info

Publication number: CN116340617A
Application number: CN202310145905.7A
Authority: CN
Inventors: 邱李晴
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-06-27
Anticipated expiration: 2043-02-15
Also published as: CN116340617B

Abstract

本申请实施例提供一种搜索推荐方法和装置，涉及终端领域，能够向用户推荐与搜索词相关程度较高的扩展词(相当于本申请中的结果词)，提高用户的搜索效率，从而提高用户体验。其方法为：接收用户在搜索框输入的关键词，根据关键词查找关联规则集合；其中，关联规则集合包括多条关联规则，多条关联规则中的每条关联规则包括至少一个前置词和至少一个结果词；确定关联规则集合中与关键词匹配的关联规则；向用户推荐与关键词匹配的关联规则中的结果词。

Description

一种搜索推荐方法和装置

技术领域

本申请涉及终端领域，尤其涉及一种搜索推荐方法和装置。

背景技术

目前，用户可以通过搜索引擎从互联网的海量信息中搜索需要的信息。考虑到用户输入的搜索词普遍较短，搜索引擎可以根据用户输入的搜索词给予用户适当推荐以提高用户搜索效率。

相关技术中，搜索引擎可能会向用户推荐一些与搜索词相关程度较低的扩展词，即搜索引擎推荐准确度不高，无法有效提高用户的搜索效率，导致用户体验较差。

发明内容

本申请实施例提供一种搜索推荐方法和装置，能够向用户推荐与搜索词相关程度较高的扩展词(相当于本申请中的结果词)，提高用户的搜索效率，从而提高用户体验。

第一方面，本申请实施例提供一种搜索推荐方法，包括：接收用户在搜索框输入的关键词，根据关键词查找关联规则集合；其中，关联规则集合包括多条关联规则，多条关联规则中的每条关联规则包括至少一个前置词和至少一个结果词；确定关联规则集合中与关键词匹配的关联规则；向用户推荐与关键词匹配的关联规则中的结果词；其中，关联规则集合的生成方法包括：获取多个短文档对应的多个项集，多个项集中的每个项集包括一个短文档对应的全部实词；根据多个项集得到多个频繁项集，多个频繁项集中的每个频繁项集的支持度大于或等于最小支持度阈值；根据多个项集中每个项集的实词的排列顺序、预设的最大前置词的数量以及多个频繁项集生成多条关联规则；对于多条关联规则中的每条关联规则，根据该关联规则中前置词与每个结果词之间的置信度调整该关联规则中结果词的顺序，得到关联规则集合。

基于本申请实施例提供的方法，可以根据用户在搜索框输入的关键词查找关联规则集合中与该关键词匹配的关联规则，以便向用户推荐与关键词匹配的关联规则中的结果词。其中，关联规则集合包括根据多个短文档对应的多个项集中每个项集的实词的排列顺序、预设的最大前置词的数量以及多个频繁项集生成的多条关联规则，每条关联规则包括至少一个前置词和至少一个结果词，每条关联规则中结果词的顺序是根据该关联规则中前置词与每个结果词之间的置信度确定的，前置词与结果词的置信度越大，该结果词与前置词的相关性(相关程度)越大，该结果词的排序越靠前。这样，能够做到向用户推荐与搜索词相关程度较高的扩展词(相当于本申请中的结果词)，提高用户的搜索效率，从而提高用户体验。

在一种可能的实现方式中，获取多个短文档对应的多个项集包括：根据标点符号将语料库中的长文档切分为多个短文档；其中，语料库中存储实际使用的语言材料；对多个短文档进行分词处理，得到多个短文档中每个短文档对应的项集，每个短文档对应的项集包括每个短文档包括的全部实词。基于本申请实施例提供的方法，将长文档切分为短文档，再对短文档进行分词处理得到短文档对应的项集。相比长文档，短文档中各个实词的关联关系更加紧密，可以使得根据短文档对应的项集确定的频繁项集和关联规则更加准确。

在一种可能的实现方式中，对多个短文档进行分词处理之前，方法还包括：对多个短文档进行数据预处理，数据预处理包括数据清洗、数据转换和去除停用词中的至少一种。对多个短文档进行数据预处理可以使得后续处理(例如，对短文档进行分词处理)更加准确和高效。

在一种可能的实现方式中，方法还包括：过滤多个短文档中每个短文档对应的项集中的极低频实词；其中，极低频实词包括支持度小于或等于第一预设阈值的实词。由于支持度很低的实词只是偶然出现，通常是无意义的。因此，可以根据最小支持度删去无意义的实词。

在一种可能的实现方式中，对于关联规则集合中的每条关联规则，该关联规则的前置词包括N个频繁项集，N个频繁项集包括的多个项的顺序是根据短文档对应的项集中实词的顺序排列的；该关联规则的结果词包括M个频繁项集，M个频繁项集包括的多个项的顺序是根据短文档对应的项集中实词的顺序排列的，且M个频繁项集中的第一个项与N个频繁项集中最后一个项是相邻关系；其中，N和M为大于或等于1的整数。其中，N个频繁项集包括的项(即实词)的个数小于或等于设定的最大前置词的数量。本申请实施例中，根据同一个短文档对应的项集(例如，短文档对应的项集1)生成的多条关联规则中，每条关联规则的前置词和结果词都属于该同一个短文档对应的项集(例如，短文档对应的项集1)。每条关联规则中的前置词和结果词具有关联关系(共现关系)。本申请实施例的方法，仅考虑一个短文档中实词之间的关联关系(共现关系)，无需考虑不同短文档中不同实词的关联关系(共现关系)，更加符合自然语言数据的特性。

在一种可能的实现方式中，对于多条关联规则中的每条关联规则，该关联规则中前置词与每个结果词之间的置信度的计算过程如公式(1)所示：

Confidence(前置词,结果词1)＝(Support(前置词，结果词1)/Support(前置词))*(Support(前置词,结果词1)/Support(结果词1))*1/2公式(1)

其中，Confidence(前置词,结果词1)表示前置词与结果词1的置信度，Support(前置词，结果词1)表示前置词与结果词1的支持度，前置词与结果词1的支持度表示的是前置词和结果词同时在短文档中出现的次数，Support(前置词)表示前置词的支持度，前置词的支持度表示的是一个关联规则的前置词在短文档出现的次数，Support(结果词1)表示结果词1的支持度，结果词1的支持度表示的是一个关联规则的结果词1在短文档出现的次数。

可以理解的是，前置词与结果词1的置信度越高，结果词1包含在前置词的事务中出现的可能性就越大，即结果词1与前置词的相关性越大。这样，向用户推荐与关键词匹配的关联规则中的结果词时，能够做到向用户推荐与搜索词相关程度较高的扩展词(相当于本申请中的结果词)，提高用户的搜索效率，从而提高用户体验。

在一种可能的实现方式中，确定关联规则集合中与关键词匹配的关联规则包括：若确定关联规则集合中的第一关联规则中的前置词与关键词相同，确定第一关联规则与关键词匹配。这样，可以向用户推荐与关键词匹配的第一关联规则中的结果词，可以提高用户的搜索效率，从而提高用户体验。

第二方面，本申请提供一种芯片系统，该芯片系统包括一个或多个接口电路和一个或多个处理器。该接口电路和处理器通过线路互联。

上述芯片系统可以应用于包括通信模块和存储器的电子设备。该接口电路用于从电子设备的存储器接收信号，并向处理器发送接收到的信号，该信号包括存储器中存储的计算机指令。当处理器执行该计算机指令时，电子设备可以执行如第一方面及其任一种可能的设计方式所述的方法。

或者，上述芯片系统可以应用于包括通信模块和存储器的服务器(服务器设备)。该接口电路用于从服务器的存储器接收信号，并向处理器发送接收到的信号，该信号包括存储器中存储的计算机指令。当处理器执行该计算机指令时，服务器可以执行如第一方面及其任一种可能的设计方式所述的方法。

第三方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令。当计算机指令在电子设备(如手机)上运行时，使得该电子设备执行如第一方面及其任一种可能的设计方式所述的方法。

或者，当计算机指令在服务器上运行时，使得该服务器执行如第一方面及其任一种可能的设计方式所述的方法。

第四方面，本申请提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法。

第五方面，本申请实施例提供了一种搜索推荐装置，包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时使得所述装置实现上述第一方面及其任一种可能的设计方式所述的方法。所述装置可以为电子设备或服务器设备；或可以为电子设备或服务器设备中的一个组成部分，如芯片。

第六方面，本申请实施例提供了一种搜索推荐装置，所述装置可以按照功能划分为不同的逻辑单元或模块，各单元或模块执行不同的功能，以使得所述装置执行上述第一方面及其任一种可能的设计方式所述的方法。

第七方面，本申请实施例提供了一种搜索推荐系统，包括电子设备和服务器，所述电子设备和服务器分别执行部分步骤，相互配合以实现上述第一方面及其任一种可能的设计方式所述的方法。

可以理解地，上述提供的第二方面所述的芯片系统，第三方面所述的计算机可读存储介质，第四方面所述的计算机程序产品及第五方面、第六方面所述的装置及第七方面所述的系统所能达到的有益效果，可参考如第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为一种相关技术生成频繁项集的示意图；

图2为本申请实施例提供的一种事务型数据的示意图；

图3为本申请实施例提供的一种自然语言数据的示意图；

图4为本申请实施例提供的一种电子设备或服务器的结构示意图；

图5为本申请实施例提供的一种搜索推荐的流程示意图；

图6为本申请实施例提供的一种流程示意图；

图7为本申请实施例提供的一种显示示意图；

图8为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

为了下述各实施例的描述清楚简洁，首先给出相关概念或技术的简要介绍：

频繁项集：是指支持度大于或等于最小支持度阈值(min_sup)的项集。其中，项集是包含若干个项的集合。如果一个项集包含k(k大于0)个项，则可以称其为k项集。如果一个项集包含0个项，可以称其为空集，空集即不包含任何项的项集。其中，项(Item)表示一个事务。本申请实施例中，一个项可以表示一个实词。项集的支持度是指项集在所有事务中出现的频率。最小支持度阈值(min_sup)可以是人为设定的。

关联规则：形如

的蕴涵表达式。其中，项集X可以称作关联规则的前件，项集Y可以称作关联规则的后件。或者，项集X可以称作关联规则的先导，项集Y可以称作关联规则的后继。或者，项集X可以称作关联规则的前置项，项集Y可以称作关联规则的后置项。或者，项集X可以称作关联规则的前置词，项集Y可以称作关联规则的结果词。下文以项集X为关联规则的前置词，项集Y为关联规则的结果词为例进行说明，但本申请对项集X和项集Y的名称不做具体限定。X和Y是不相交的项集，即X∩Y＝空集。关联规则可以反映一个项集与其他项集之间的相互依存性和关联性。如果两个或多个项集之间存在一定的关联关系，那么，其中一个项集就能够通过其他项集预测到。可以理解的是，由关联规则作出的推论并不必然蕴涵因果关系。它只表示关联规则的前件和后件可以同时出现。

目前，智能搜索推荐的主流方案包括两大类，第一类是搜索引擎基于相关性模型进行智能推荐，相关性模式考虑的是原始搜索词(用户输入的搜索词)与扩展词之间如何产生关联。第二类是搜索引擎基于深度模型进行智能推荐，深度模式是将原始搜索词与扩展词之间的映射抽象为翻译问题或相似问题。深度模型的基础语料可以来源于搜索目标文档库、搜索点击日志和领域知识库等三种途径。

相关技术中，搜索引擎可能会向用户推荐一些与用户输入的搜索词相关程度较低的扩展词，即搜索引擎推荐准确度不高，无法有效提高用户的搜索效率，导致用户体验较差。

本申请基于相关性模型进行智能推荐。本申请使用频繁模式挖掘算法(FrequentPattern Mining)挖掘与搜索词(用户在搜索框输入的关键词)共现的其他词汇。用户输入的搜索词普遍较短，并且搜索词通常与多个主题关联。例如当用户输入的搜索词为【深圳】时，可以为用户提供【旅游攻略】、【探店】、【求职】等扩展词。本申请不涉及个性化推荐，能有效服务于用户关闭个性化推荐服务场景/冷启动场景。

需要说明的是，本申请采用的频繁模式挖掘算法不同于经典的频繁模式增长(Frequent-Pattern Growth Tree，FP-Growth)算法。FP-Growth算法使用唯一ID作为去重依据，按照频率从低到高的顺序来构建FP-Growth树(tree)。如图1中的(a)所示，FP-Growth树包括根节点(Root)及分支节点，根节点为无效值(根节点的内容为Null)，分支节点对应一个项及其支持度值。如图1中的(b)所示的表中除下划线标识的项(例如，tok14等)以外的项构成如图1中的(a)所示的FP-Growth树。其中，下划线标识的项是不满足预设支持度的项。表的每一行中除下划线标识的项以外的项可以作为FP-Growth树的一个树分支。根据每一条树分支路径的所有分支节点及其支持度值可以递归获取如图1中的(c)所示频繁项集。

FP-Growth算法适用于事务型数据。如图2所示，事务型数据例如可以是不同用户的购买记录。事务型数据具有无序、无重复、无距离等特征。例如，对于一条购买记录，其中通常不会重复出现相同的事务。例如，一位客户可能买了12个鸡蛋，但是购买记录(购物小票)只会记录鸡蛋*12，不会重复记录鸡蛋、鸡蛋…共12个鸡蛋。FP-Growth算法处理该购买记录时，会按照一个鸡蛋进行处理。并且，FP-Growth算法处理购买记录时，不会考虑购买记录中各个事务之间的顺序和距离。即使打乱购买记录中的事务的顺序，FP-Growth算法的处理结果是相同的。

自然语言数据与事务型数据的特征是不同的。如图3所示，为一种自然语言数据的示例。自然语言数据的特征包括：语句中的词语(例如，实词)之间具有逻辑先后顺序，语句中可以重复出现同一实词(例如，语句“北京探店北京西直门烧烤自助”，其中“北京”这一实词重复出现)，同一句话中的不同实词之间的距离较近(例如，距离为1，即考虑同一句话中的不同实词之间的关联关系)，不同语句中的不同实词之间的距离较远(例如，距离为0，即不考虑不同语句中的不同实词之间的关联关系)。因此FP-Growth算法不能很好地适用于自然语言数据。本申请采用的频繁模式挖掘算法(详见步骤601-605)和关联规则挖掘算法(详见步骤606-609)适用于自然语言数据，基于本申请提供的方法能够向用户推荐与搜索词相关程度较高的扩展词，从而可以提高用户的搜索效率，进而提高用户体验。

如图4所示，电子设备或服务器的硬件架构可以如设备200，设备200包括至少一个处理器201，通信线路202，存储器203以及至少一个通信接口204。

处理器201可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路202可包括一通路，在上述组件之间传送信息。

通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路202与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器203用于存储执行本申请方案的计算机执行指令，并由处理器201来控制执行。处理器201用于执行存储器203中存储的计算机执行指令，从而实现本申请下述实施例提供的异常订单处理方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图4中的CPU0和CPU1。

在具体实现中，作为一种实施例，设备200可以包括多个处理器，例如图4中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

可选的，设备200还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquidcrystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接收用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的设备200可以是一个通用设备或者是一个专用设备。在具体实现中，设备200可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图4中类似结构的设备。本申请实施例不限定设备200的类型。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请的描述中，除非另有说明，“至少一个”是指一个或多个，“多个”是指两个或多于两个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

为了便于理解，以下结合附图对本申请实施例提供的基于频繁项集的搜索推荐方法进行具体介绍。

示例性的，如图5所示，本申请实施例提供的基于频繁项集的搜索推荐方法至少包括以下步骤：步骤1、基于实体词库对多个短文档(例如，文章标题)进行分词得到多个实词，一个短文档包括的全部实词构成一个项集，多个短文档对应多个项集。并且，可以对多个项集中的每个项集中的停用词进行过滤(具体过程可以参考下文中的步骤602)。步骤2、将多个项集输入相关性模型，相关性模型可以根据多个项集得到多个频繁项集，根据每个项集中实词的排列顺序、设定的最大前置词的数量以及多个频繁项集生成多条关联规则，并且可以计算每条关联规则中前置词与每个结果词之间的置信度(权重)，根据关联规则中前置词与每个结果词之间的置信度对关联规则中的结果词进行排序。并且，可以对每条关联规则中的结果词进行语义合并(融合)。步骤3、相关性模型输出关联规则集合，关联规则集合包括多条关联规则，每条关联规则包括至少一个前置词和一个结果词候选列表，一个结果词候选列表中包括至少一个结果词。步骤4、搜索引擎召回，即根据用户输入的搜索词(关键词)从关联规则集合中确定与该关键词匹配的关联规则，并向用户推荐与该关键词匹配的关联规则的结果词。搜索引擎可以根据预设参数筛选与该关键词匹配的关联规则的结果词并显示，预设参数用于指示搜索引擎可以显示的结果词的数量。

如图6所示，本申请实施例提供一种基于频繁项集的搜索推荐方法，包括：

601、获取多个短文档。

在一种可能的设计中，可以按照标点符号为切分点，将语料库中的长文档切分(分割)成多个短文档(短文档也可以称为短句或短文本，本申请不做限定)。

其中，标点符号可以包括点号、标号、符号等。点号可以包括：句号(。)、问号(？)、感叹号(！)、逗号(，)顿号(、)、分号(；)和冒号(：)等。标号可以包括：引号(“”‘’)、括号〔()[]{}〕、破折号(──)、省略号(······)、着重号(.)、书名号(《》〈〉)、间隔号(·)、连接号(—)和专名号(____)等。符号可以包括：注释号(*)、隐讳号(×)、虚缺号(□)、斜线号(/)、标识号(▲或●)、代替(～)、连珠号(……)、箭头号(→)等，本申请不做限定。

其中，语料库中存放的是在语言的实际使用中真实出现过的语言材料。例如，语料库中语言材料可以来自各种网站(例如，电商网站、社交网站、新闻网站、搜索引擎网站等)、论坛(例如，技术论坛、企业论坛、社交论坛等)、贴吧(例如，百度贴吧)、应用程序(例如，购物应用、社交应用、新闻应用等)等，本申请不做限定。

示例性的，假设长文档为：“为了对音频信号进行带宽扩展，在信号扩展器中，使用大于1的扩展因子在时间上对音频信号进行扩展。”可以将其切分为如下三个短文档：短文档1:“为了对音频信号进行带宽扩展”；短文档2:“在信号扩展器中”；短文档3:“使用大于1的扩展因子在时间上对音频信号进行扩展”。

在另一种可能的设计中，可以按照语义将语料库中的长文档分割成多个短文档。

602、对多个短文档中的每个短文档进行分词处理，得到每个短文档对应的项集。

在对多个短文档进行分词处理之前，可以对多个短文档进行数据预处理，数据预处理例如可以包括数据清洗、数据转换和去除停用词等处理。

其中，数据清洗用于去除原始数据集中的无用的符号、表情包、网页链接、多余的空格、换行符等。数据转换用于对繁体中文与简体中文进行转换，以及对英文统一小写。去除停用词是指去除对任务目标没有帮助的词汇。可以基于词频阈值去除停用词。例如，一个词语总共出现的次数小于第一预设次数或超过第二预设次数，可以认为其是停用词，可以去除。其中，一个词语总共出现的次数是指在多个短文档中总共出现的次数(在一个短文档中重复出现算作多次出现)。

数据预处理后，可以对每个短文档进行分词处理，即将每个短文档分割成至少一个实词。实词是指含有实际意义的词，实词能单独充当句子成分，即有词汇意义和语法意义的词。一般包括:名词、动名词等。

在一种可能的设计中，可以通过实体词库识别出短文档中的实词。其中，实体词库包括多个预先确定的实词。具体的，通过实体词库识别出短文档中的实词包括：对每个短文档进行分词处理后，将每个分词与实体词库进行相似度匹配，相似度满足预设要求的分词作为实词。

在又一种可能的设计中，由于实词有词形的变化，因此可以基于词形变化(名词、动名词等)筛选出短文档中的实词。

可选的，去除停用词处理也可以是在对每个短文档进行分词处理后进行的，本申请不做限定。

需要说明的是，每个短文档包括的全部实词可以构成一个项集，即一个短文档可以对应一个项集。多个短文档可以对应多个项集，每个项集可以包括一个短文档中的全部实词。

603、计算每个短文档对应的项集中每个实词的支持度。

其中，实词的支持度(Support)是指实词出现在短文档(或短文档对应的项集)的次数，即实词出现在多少个短文档(或短文档对应的项集)中。

示例性的，如表1所示，假设有5个短文档，ID分别为1-5。短文档1中包括6个实词，该6个实词对应的标识分别为Tok5，Tok11，Tok13，Tok14，Tok15，Tok25；短文档2中包括6个实词，该6个实词对应的标识分别为Tok4，Tok5，Tok11，Tok14，Tok15，Tok25；短文档3中包括4个实词，该4个实词对应的标识分别为Tok1，Tok5，Tok11，Tok13；短文档4中包括5个实词，该5个实词对应的标识分别为Tok3，Tok11，Tok13，Tok21，Tok25；短文档5中包括5个实词，该5个实词对应的标识分别为Tok3，Tok9，Tok13，Tok15，Tok15。

以实词Tok5为例，由于Tok5分别出现在短文档1、短文档2和短文档3(对应的项集)中，因此Tok5的支持度为3，即Support(Tok5)＝3。以此类推，Support(Tok1)＝1，Support(Tok3)＝2，Support(Tok4)＝1，Support(Tok9)＝1，Support(Tok11)＝4，Support(Tok13)＝3，Support(Tok14)＝2，Support(Tok15)＝2，Support(Tok21)＝1，Support(Tok25)＝3。

表1

604、过滤每个短文档对应的项集中的极低频实词。

其中，极低频实词是指支持度小于或等于第一预设阈值(最小支持度阈值)的实词。由于支持度很低的实词只是偶然出现，通常是无意义的。因此，可以根据最小支持度删去无意义的实词。

可选的，还可以过滤极高频实词，极高频实词是指支持度大于或等于第二预设阈值(最大支持度阈值)的实词。

需要说明的是，过滤(删除)极低频实词和/或极高频实词可以减少计算量(后续步骤中生成关联规则的计算量)，节省存储空间。

示例性的，如表2所示，当最小支持度等于3时，对于短文档1来说，由于Support(Tok14)＝2，即Tok14的支持度小于3，因此，可以过滤掉短文档1中的实词Tok14。以此类推，短文档2需要过滤的实词包括Tok14，Tok4；短文档3需要过滤的实词包括Tok1；短文档4需要过滤的实词包括Tok3，Tok21；短文档5需要过滤的实词包括Tok3，Tok9。

表2

605、对每个短文档对应的项集进行处理得到多个频繁项集。

本步骤中，每个短文档对应的项集是指过滤了极低频实词和/或极高频实词后的项集。

若某个短文档对应的项集为k项集，根据该k项集依次递归可以产生1项，2项，...，k-1项，k项的多个子项集。当子项集的长度(即子项集包含的项的数目)大于1时，子项集中各个项是相邻关系，保持原始文本组织的顺序(即按照短文档的原始文本组织的顺序排列的)。

示例性的，如表3所示，假设短文档1对应的项集为【Tok5，Tok11，Tok13，Tok14，Tok15，Tok25】，是一个6项集，根据该6项集可以得到6个1项集，分别为【Tok5】、【Tok11】、【Tok13】、【Tok14】、【Tok15】、【Tok25】)；根据该6项集可以得到5个2项集，分别为【Tok5，Tok11】、【Tok11，Tok13】、【Tok13，Tok14】、【Tok14，Tok15】、【Tok15，Tok16】。根据该6项集可以得到4个3项集，分别为【Tok5，Tok11，Tok13】、【Tok11，Tok13、Tok14】、【Tok13、Tok14、Tok15】、【Tok14、Tok15、Tok25】。依次类推可以得到3个4项集，得到2个5项集，得到1个6项集。

表3

计算多个子项集中每个子项集的支持度，过滤支持度小于或等于最小支持度的子项集，得到频繁项集。

其中，子项集的支持度是指子项集出现在短文档(或短文档对应的项集)的次数，即子项集出现在多少个短文档(或短文档对应的项集)中。

应该理解的是，若某个短文档对应的项集(例如，k项集)的支持度大于或等于最小支持度，则该k项集为频繁项集，可以理解的是，根据该k项集得到的多个子项集都是频繁项集。

606、根据每个短文档对应的项集中实词的排列顺序、设定的最大前置词(Antecedent)的数量以及每个短文档对应的多个频繁项集(根据每个短文档对应的项集生成的多个频繁项集)生成关联规则集合。

其中，关联规则集合包括多条关联规则，每条关联规则包括至少一个前置词和一个结果词候选列表，一个结果词候选列表中包括至少一个结果词(Consequence)。每条关联规则的前置词可以包括N个频繁项集。其中，N为大于或等于1的整数。该N个频繁项集中多个项的顺序是根据关联规则对应的短文档的原始文本顺序(即根据短文档对应的项集中实词的排列顺序)排列的。每条关联规则的前置词对应的结果词包括M个频繁项集，该M个频繁项集包括的多个项的顺序是根据关联规则对应的短文档的原始文本顺序(即根据短文档对应的项集中实词的排列顺序)排列的，且该M个频繁项集中的第一个项与该N个频繁项集中最后一个项是相邻关系。其中，M为大于或等于1的整数。

其中，N个频繁项集包括的项(即实词)的个数小于或等于设定的最大前置词的数量。

本申请实施例中，根据同一个短文档对应的项集(例如，短文档对应的项集1)生成的多条关联规则中，每条关联规则的前置词和结果词都属于该同一个短文档对应的项集(例如，短文档对应的项集1)。每条关联规则中的前置词和结果词具有关联关系(共现关系)。本申请实施例的方法，仅考虑一个短文档中实词之间的关联关系(共现关系)，无需考虑不同短文档中不同实词的关联关系(共现关系)，更加符合自然语言数据的特性。

示例性的，假设设定的最大前置词的数量为3，可以分别获取前置词的数量为1，前置词的数量为2和前置词的数量为3时的多条关联规则。需要说明的是，当前置词数大于或等于2时，前置词之间两两相邻(即按照原始文本组织的顺序排列)。即在生成关联规则时，当前置词数大于或等于2时，考虑了前置词之间的顺序。相邻的前置词相比不相邻的前置词具有更加紧密的关联关系，更加符合自然语言数据的特性。

示例性的，以短文档1为例，假设短文档1对应的项集是【北京探店shake shack纽约汉堡】，根据项集【北京探店shake shack纽约汉堡】得到的频繁项集如表4所示。

表4

示例性的，以短文档1对应的频繁项集为例，如表5所示，前置词的数量为1时，根据短文档1对应的频繁项集可以生成5条关联规则，分别为关联规则1、关联规则2、关联规则3、关联规则4和关联规则5。每条关联规则包括一个前置词和一个结果词候选列表，一个结果词候选列表中包括至少一个结果词。例如，前置词为“北京”时，结果词候选列表可以包括“探店shake shack纽约汉堡”等结果词。

表5

关联规则	前置词(数量＝1)	结果词候选列表
			1	北京	探店shake shack纽约汉堡
2	探店	shake shack纽约汉堡
			3	Shake	shack纽约汉堡
4	shack	纽约汉堡
			5	纽约	汉堡

其中，表5中每条关联规则的前置词可以看做一个频繁项集，结果词候选列表中的一个或多个结果词可以看做一个频繁项集。例如，可以认为关联规则1对应的前置词包括1个1项频繁项集，即【北京】，结果词列表包括5个1项频繁项集，分别为【探店】【shake】、【shack】【纽约】、【汉堡】。

前置词的数量为2时，如表6所示，根据短文档1对应的频繁项集可以生成4条关联规则，分别为关联规则6、关联规则7、关联规则8和关联规则9。每条关联规则包括两个前置词和一个结果词候选列表，一个结果词候选列表中包括至少一个结果词。例如，前置词为“北京探店”时，结果词候选列表可以包括“shake shack纽约汉堡”等结果词。

表6

关联规则	前置词(数量＝2)	结果词候选列表
			6	北京探店	shake shack纽约汉堡
7	探店shake	shack纽约汉堡
			8	Shake shack	纽约汉堡
9	shack纽约	汉堡

前置词的数量为3时，如表7所示，根据短文档1对应的频繁项集可以生成3条关联规则，分别为关联规则10、关联规则11和关联规则12。每条关联规则包括三个前置词和一个结果词候选列表，一个结果词候选列表中包括至少一个结果词。例如，前置词为“北京探店shake”时，结果词候选列表可以包括“shack纽约汉堡”等结果词。

表7

关联规则	前置词(数量＝3)	结果词候选列表
			10	北京探店shake	shack纽约汉堡
11	探店shake shack	纽约汉堡
			12	Shake shack纽约	汉堡

607、对每条关联规则中的结果词进行语义合并。

即可以根据语义对每条关联规则中的结果词进行合并，以过滤语义相似或相同的结果词。这样，可以删除重复的结果词，简化关联规则，节省存储空间。

例如，前置词为“外卖”，前置词对应的结果词包括[“四川菜”,“川菜”]时，“四川菜”和“川菜”语义相似，可以将“四川菜”和“川菜”合并为一个词[“四川菜”]或“川菜”，避免结果词重复的问题。

608、计算每一条关联规则中前置词与每个结果词之间的置信度。

对于每一条关联规则，计算该关联规则中前置词与每个结果词(例如，结果词1)之间的置信度(Confidence)。前置词与每个结果词的置信度可以认为是该结果词在前置词下的条件概率。

示例性的，一条关联规则中前置词与结果词1的置信度计算过程如公式(1)所示：

其中，Confidence(前置词,结果词1)表示前置词与结果词1的置信度，Support(前置词，结果词1)表示前置词与结果词1的支持度，前置词与结果词1的支持度表示的是前置词和结果词同时在短文档中出现的次数，Support(前置词)表示前置词的支持度，前置词的支持度表示的是一个关联规则的前置词在短文档出现的次数(即在多少个短文档中出现过)。Support(结果词1)表示结果词1的支持度，结果词1的支持度表示的是一个关联规则的结果词1在短文档出现的次数(即在多少个短文档中出现过)。

前置词与结果词1的置信度越高，结果词1包含在前置词的事务中出现的可能性就越大，即结果词1与前置词的相关性越大。

609、根据每条关联规则中前置词与每个结果词之间的置信度调整该关联规则中结果词的顺序。

对于每条关联规则中的每个结果词，前置词与该结果词的置信度越大，该结果词的排序越靠前。

示例性的，如表8所示，以关联规则1为例，根据关联规则1中前置词与每个结果词之间的置信度调整关联规则1中结果词的顺序，调整前后的结果词的顺序如下表所示。

表8

其中，置信度相同的结果词的排列顺序可以是随机的。例如，表8中“探店”和“汉堡”两个结果词的排序可以是随机的，例如，“探店”在前，“汉堡”在后；或者“探店”在后，“汉堡”在前，本申请不做限定。

610、电子设备接收用户在搜索框输入的关键词，根据关键词查找关联规则集合，确定与关键词匹配的关联规则。

其中，关联规则集合包括多条关联规则，该多条关联规则可以是基于步骤601-609生成的。

可以根据关键词查找关联规则集合，若确定关联规则集合中的任一关联规则(例如，关联规则1)中的前置词与关键词相同，确定该关联规则与关键词匹配。即与关键词匹配的关联规则是指前置词与关键词相同的关联规则。

在一种可能的设计中，电子设备可以从服务器(云服务器)获取关联规则集合(服务器可以基于步骤601-609生成关联规则集合)并存储在本地，或者电子设备可以基于步骤601-609生成关联规则集合并存储在本地。当接收到用户在搜索框输入的关键词时，可以根据关键词查找本地保存的关联规则集合以确定与关键词匹配的关联规则。

在另一种可能的设计中，关联规则集合存储在服务器上。电子设备接收到用户在搜索框输入的关键词时，可以将关键词发送给服务器，服务器可以根据关键词查找本地保存的关联规则集合以确定与关键词匹配的关联规则，并将与关键词匹配的关联规则中的结果词发送至电子设备。

例如，假设用户在搜索框输入的关键词为“北京”，由于关联规则1的前置词为“北京”，即关联规则1的前置词与关键词相同，可以认为关联规则1是关键词匹配的关联规则。

611、向用户推荐与关键词匹配的关联规则中的结果词。

例如，假设关联规则1是关键词匹配的关联规则，可以向用户推荐关联规则1中的结果词。

在一些实施例中，电子设备可以在负一屏根据用户的搜索词(用户搜索的关键词)为用户提供更多推荐标签协助用户搜索。示例性的，响应于用户在电子设备为亮屏状态下从桌面的首页向左滑动的操作，如图7所示，电子设备可以显示负一屏的界面701(也可以称为智能助手/情景智能界面)。负一屏的界面701中可以显示搜索框702。响应于用户在搜索框702中输入关键词(即前置词)“北京”703的操作，负一屏的界面701中可以显示网页703和推荐标签704等。其中，网页703包括根据用户输入的关键词搜索到的互联网内容。推荐标签704是根据用户输入的关键词(例如，北京)确定的与关键词匹配的关联规则中的结果词(例如，新店、看展、必打卡、下午茶等)生成的。

本申请实施例提供的搜索推荐方法能够向用户推荐与搜索词相关程度较高的扩展词，从而可以提高用户的搜索效率，进而提高用户体验。

本申请实施例还提供一种芯片系统，如图8所示，该芯片系统包括至少一个处理器801和至少一个接口电路802。处理器801和接口电路802可通过线路互联。例如，接口电路802可用于从其它装置(例如，服务器的存储器)接收信号。又例如，接口电路802可用于向其它装置(例如处理器801)发送信号。

例如，接口电路802可读取服务器中存储器中存储的指令，并将该指令发送给处理器801。当所述指令被处理器801执行时，可使得服务器执行上述实施例中的步骤601-609，或者可使得电子设备执行上述实施例中的步骤610-611。

当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当所述计算机指令在服务器上运行时，使得服务器执行上述实施例中的步骤601-609。当所述计算机指令在电子设备上运行时，使得电子设备执行上述实施例中的步骤610-611。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述方法实施例中服务器或电子设备执行的各个功能或者步骤。

本申请实施例还提供了一种搜索推荐装置，所述搜索推荐装置可以按照功能划分为不同的逻辑单元或模块，各单元或模块执行不同的功能，以使得所述情感分析装置执行上述方法实施例中服务器或电子设备执行的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种搜索推荐方法，其特征在于，包括：

接收用户在搜索框输入的关键词，根据所述关键词查找关联规则集合；其中，所述关联规则集合包括多条关联规则，所述多条关联规则中的每条关联规则包括至少一个前置词和至少一个结果词；

确定所述关联规则集合中与所述关键词匹配的关联规则；

向用户推荐与所述关键词匹配的关联规则中的结果词；

其中，所述关联规则集合的生成方法包括：

获取多个短文档对应的多个项集，所述多个项集中的每个项集包括一个短文档对应的全部实词；

根据所述多个项集得到多个频繁项集，所述多个频繁项集中的每个频繁项集的支持度大于或等于最小支持度阈值；

根据所述多个项集中每个项集的实词的排列顺序、预设的最大前置词的数量以及所述多个频繁项集生成多条关联规则；

对于所述多条关联规则中的每条关联规则，根据该关联规则中前置词与每个结果词之间的置信度调整该关联规则中结果词的顺序，得到所述关联规则集合。

2.根据权利要求1所述的方法，其特征在于，所述获取多个短文档对应的多个项集包括：

根据标点符号将语料库中的长文档切分为多个短文档；其中，语料库中存储实际使用的语言材料；

对所述多个短文档进行分词处理，得到所述多个短文档中每个短文档对应的项集，所述每个短文档对应的项集包括所述每个短文档包括的全部实词。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述多个短文档进行分词处理之前，所述方法还包括：

对所述多个短文档进行数据预处理，所述数据预处理包括数据清洗、数据转换和去除停用词中的至少一种。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

过滤所述多个短文档中每个短文档对应的项集中的极低频实词；其中，所述极低频实词包括支持度小于或等于第一预设阈值的实词。

5.根据权利要求1或2所述的方法，其特征在于，

对于所述关联规则集合中的每条关联规则，该关联规则的前置词包括N个频繁项集，所述N个频繁项集包括的多个项的顺序是根据短文档对应的项集中实词的顺序排列的；该关联规则的结果词包括M个频繁项集，所述M个频繁项集包括的多个项的顺序是根据短文档对应的项集中实词的顺序排列的，且所述M个频繁项集中的第一个项与所述N个频繁项集中最后一个项是相邻关系；其中，N和M为大于或等于1的整数。

6.根据权利要求1或2所述的方法，其特征在于，对于所述多条关联规则中的每条关联规则，该关联规则中前置词与每个结果词之间的置信度的计算过程如公式(1)所示：

7.根据权利要求1或2所述的方法，其特征在于，所述确定所述关联规则集合中与所述关键词匹配的关联规则包括：

若确定所述关联规则集合中的第一关联规则中的前置词与所述关键词相同，确定所述第一关联规则与所述关键词匹配。

8.一种计算机可读存储介质，其特征在于，包括计算机指令；

当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-7中任一项所述的方法。

9.一种搜索推荐装置，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时使得所述装置实现权利要求1-7中任一项所述的方法。