CN112445895A

CN112445895A - 一种识别用户搜索场景的方法及系统

Info

Publication number: CN112445895A
Application number: CN202011278824.7A
Authority: CN
Inventors: 卢再武
Original assignee: Shenzhen Sekorm Component Network Co Ltd
Current assignee: Shenzhen Sekorm Component Network Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-05
Anticipated expiration: 2040-11-16
Also published as: CN112445895B; US20220156332A1; EP4002157A1; JP2022079442A

Abstract

本发明公开了一种识别用户搜索场景的方法及系统，该方法包括以下步骤：接收搜索文本，查找出搜索文本中的一个或多个有效词元；对有效词元进行级别过滤以及词性过滤，得到具有单一词性的价值词元；根据价值词元的词性或者词性组合，为搜索文本设置相对应的搜索场景标签。通过实施本发明，可根据用户的搜索场景在海量的数据里面提取出用户需要的数据，可以准确识别出用户的搜索诉求，给用户搜索出相对应的内容，快速解决用户的诉求，提高用户的搜索体验。

Description

一种识别用户搜索场景的方法及系统

技术领域

本发明涉及计算机搜索技术领域，尤其涉及一种识别用户搜索场景的方法及系统。

背景技术

随着互联网技术的发展，每天在我们所生活的这个世界出现了大量的信息，信息的增长速度已经以几何级别的增长。在信息大爆炸的时代，由于信息缺乏管理或管理不善，信息的发布、传播失去控制，产生了大量虚假信息、无用信息，造成信息环境的污染和“信息垃圾”的产生。因为在网络上任何人都可以自由发表意见，并且发布的成本几乎可以忽略，在某种意义上，每个人都可成为全球范围的信息制造者，从而增加了人们利用信息的困难。

发明内容

本发明要解决的技术问题在于，针对现有技术的缺陷，提供一种识别用户搜索场景的方法及系统。

本发明解决其技术问题所采用的技术方案是：构造一种识别用户搜索场景的方法，包括以下步骤：

接收搜索文本，查找出所述搜索文本中的一个或多个有效词元；

对所述有效词元进行级别过滤以及词性过滤，得到具有单一词性的价值词元；

根据所述价值词元的词性或者词性组合，为所述搜索文本设置相对应的搜索场景标签。

优选地，在本发明所述的识别用户搜索场景的方法中，所述步骤根据接收到的搜索文本，查找出所述搜索文本中的一个或多个有效词元，包括：

接收搜索文本，查找出所述搜索文本中的一个或多个词元；

根据预存的多个有效词元，对查找出的词元进行词元过滤，得到一个或多个有效词元。

优选地，在本发明所述的识别用户搜索场景的方法中，所述步骤对所述有效词元进行级别过滤，包括：

根据词元搜索价值，为每一预存的有效词元预设一词元级别标签；

根据词元级别标签顺序对查找出的所述有效词元进行级别过滤，得到价值词元。

优选地，在本发明所述的识别用户搜索场景的方法中，所述步骤对所述有效词元进行词性过滤，包括：

根据词性搜索价值，为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签；

根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤，保留单一词性。

优选地，在本发明所述的识别用户搜索场景的方法中，所述步骤根据词性级别标签顺序对具有多词性的查找出的所述有效词元进行词性过滤，保留单一词性，包括：

根据查找出的所述有效词元所具有的词性进行分组，判断各组之间是否存在相同的有效词元，若是，则根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤，保留单一词性。

本发明还构造了一种识别用户搜索场景的系统，包括：

词元查找模块，用于接收搜索文本，查找出所述搜索文本中的一个或多个有效词元；

词元分析模块，对所述有效词元进行级别过滤以及词性过滤，得到具有单一词性的价值词元；

搜索场景设置模块，用于根据所述价值词元的词性或者词性组合，为所述搜索文本设置相对应的搜索场景标签。

优选地，在本发明所述的识别用户搜索场景的系统中，所述系统还包括：有效词元存储模块，用于预存多个有效词元；

所述词元查找模块，用于接收搜索文本，查找出所述搜索文本中的一个或多个词元；根据预存的多个有效词元，对查找出的词元进行词元过滤，得到一个或多个有效词元。

优选地，在本发明所述的识别用户搜索场景的系统中，所述系统还包括：词元级别设置模块，用于根据词元搜索价值，为每一预存的有效词元预设一词元级别标签；

所述词元分析模块包括：词元过滤模块，用于根据所述词元级别设置模块设置的词元级别标签顺序对查找出的所述有效词元进行级别过滤，得到价值词元。

优选地，在本发明所述的识别用户搜索场景的系统中，所述系统还包括：词元词性设置模块，用于根据词性搜索价值，为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签；

所述词元分析模块包括：

词性过滤模块，根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤，保留单一词性。

优选地，在本发明所述的识别用户搜索场景的系统中，所述词元分析模块还包括：

词元分组模块，用于根据查找出的所述有效词元所具有的词性进行分组，判断各组之间是否存在相同的有效词元，若是，则执行所述词性过滤模块。

通过实施本发明，具有以下有益效果：

本发明通过接收搜索文本，查找出搜索文本中的一个或多个有效词元；对有效词元进行级别过滤以及词性过滤，得到具有单一词性的价值词元；根据价值词元的词性或者词性组合，为搜索文本设置相对应的搜索场景标签，从而根据用户的搜索场景在海量的数据里面提取出用户需要的数据，可以准确识别出用户的搜索诉求，给用户搜索出相对应的内容，快速解决用户的诉求，提高用户的搜索体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明识别用户搜索场景方法的流程图；

图2是本发明识别用户搜索场景方法的详细流程图；

图3本发明识别用户搜索场景系统的模块框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

在第一实施例中，如图1所示，本发明构造了一种识别用户搜索场景的方法，包括以下步骤：

接收搜索文本，查找出搜索文本中的一个或多个有效词元；

对有效词元进行级别过滤以及词性过滤，得到具有单一词性的价值词元；

根据价值词元的词性或者词性组合，为搜索文本设置相对应的搜索场景标签。

在本实施例中，如图2所示，所述步骤根据接收到的搜索文本，查找出搜索文本中的一个或多个有效词元，包括：

接收搜索文本，查找出搜索文本中的一个或多个词元；

具体地，搜索文本包括计算机语言下的搜索词、搜索词语、搜索语句、具有标点符号的搜索语句；词元为计算机语言下的词或词语；有效词元为计算机语言下的系统预存的按照搜索习惯、记录、热度、数据库数据、名词、动词等设置的词或词语。

例如搜索文本为“传感器的种类”，对计算机而言，接收搜索文本，将搜索文本转换为计算机语言，查找出搜索文本中的一个或多个词元，包括“传感器”、“的”、“种类”。但为了搜索的准确性，系统预存多个有效词元，用来判断词元对搜索的有用性，通过预存的有效词元过滤掉对搜索无用的词元，保留对搜索有用的词元，例如查找出的词元中“的”该类无意思表示的词语，会被认定为对搜索无用的词元，因此会被过滤掉，保留有效词元，例如“传感器”、“种类”。

在本实施例中，所述步骤对所述有效词元进行级别过滤，包括：

根据词元级别标签顺序对查找出的有效词元进行级别过滤，得到价值词元。

具体地，词元搜索价值是指系统根据搜索习惯、搜索记录、搜索热度、数据库数据等得出的权重，表明该词元的搜索热点程度或数据热点程度，因此为每一预存的有效词元预设一词元级别标签，例如1级、2级、3级等，等级越高，词元的搜索价值越高。系统查找出多个有效词元时，过多的词元会对搜索的准确性带来影响，因此可根据词元级别标签顺序对查找出的有效词元进行级别过滤，得到价值词元。在一些实施例中，可设置级别过滤条件，例如是级别标签顺序中的一级别，低于该级别的有效词元，则进行过滤；保留高于该级别的词元，则保留为价值词元。例如查找出4个有效词元，其词元等级标签分别为1级、2级、3级、4级，则预设级别过滤条件为2级，高于2级的词元为价值词元。

在本实施例中，所述步骤对有效词元进行词性过滤，包括：

根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤，保留单一词性。

其中，可先根据词元级别标签顺序对查找出的有效词元进行级别过滤，得到价值词元；然后再根据词性级别标签顺序对具有多词性的查找出的价值词元进行词性过滤，保留单一词性，得到具有单一词性的价值词元。

另外，也可先根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤，保留单一词性；然后再根据词元级别标签顺序对查找出的有效词元进行级别过滤，保留价值词元，最终得到具有单一词性的价值词元。

具体地，词性为词元的类别；词性搜索价值是指系统根据搜索习惯、搜索记录、搜索热度、数据库数据等得出的权重，表明该词性的搜索热点程度或数据热点程度，因此为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签，例如1级、2级、3级等，等级越高，词性的搜索价值越高。又例如，型号词>品类词>厂牌词>应用词>资源词。

在一些实施例中，所述根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤，保留单一词性，包括：

当查找出多个有效词元时，可根据查找出的有效词元所具有的词性进行分组，判断各组之间是否存在相同的有效词元，若是，则根据词性级别标签顺序对查找出的具有多词性的有效词元进行词性过滤，保留单一词性，即保留级别最高的词性。进一步地，可在分组前或后，根据词元级别标签顺序对查找出的有效词元进行级别过滤，得到价值词元。

当查找出有效词元时，可获取有效词元所对应的词性个数，根据词性级别标签顺序对具有多词性的有效词元进行词性过滤，保留单一词性，即保留级别最高的词性。

在另外一些实施例中，还可根据词性相关性，为每一预存的有效词元预设一种或多种词性以及对应的与其他词性的相关性；

根据词元级别标签顺序对查找出的有效词元进行级别过滤和排序，得到价值词元，包括价值最高的词元以及其他价值词元；

可通过上述两个实施例中分组或计数的方式来根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤，保留单一词性。具体地，当查找出价值词元时，可根据查找出的价值词元所具有的词性进行分组，判断各组之间是否存在相同的价值最高的词元，若是，则根据词性级别标签顺序对查找出的具有多词性的价值最高的词元进行词性过滤，保留单一词性，即保留级别最高的词性。或者，当查找价值最高的词元时，可获取价值最高的词元所对应的词性个数，根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤，保留单一词性，即保留级别最高的词性；

并且，根据该价值最高的词元的词性与其他词性的相关性，过滤其他价值词元的词性，得到其他价值词元中与价值最高的词元的词性最为相关的单一词性。

例如，用户输入搜索文本为“大米手机”，由于有效词元“大米”具有品牌的词性和食物的词性，有效词元“手机”具有品类的词性，因此当“手机”该有效词元的级别为最高时，可通过该价值最高的词元的词性与其他词性的相关性，即品类与品牌之间的相关性、品类与食物之间的相关性，来判断“大米”的词性中与“手机”的词性最为相关的词性是哪一个，例如，“大米”的品牌词性是与“手机”的品类词性是最为相关的。

在本实施例中，如图2所示，所述识别用户搜索场景的方法还包括：

判断词元或有效词元的个数是否为零，若是，则为搜索文本设置一预设的默认场景标签；若否，则对有效词元进行级别过滤以及词性过滤，得到具有单一词性的价值词元；

判断价值词元的个数是否符合预设条件，若是，则为搜索文本设置一预设的默认场景标签；若否，则根据价值词元的词性或者词性组合，为搜索文本设置相对应的搜索场景标签。在一些实施例中，可判断价值词元的个数是否小于1或者大于2，若是，则为搜索文本设置一预设的默认场景标签；若否，则根据价值词元的词性或者词性组合，为搜索文本设置相对应的搜索场景标签。具体地：首先对价值词元个数进行判断，如果价值词元总数大于2或者小于1直接赋予默认场景标签，即普通场景。如果价值词元总数等于1，根据价值词元的词性赋予搜索场景标签(厂牌词＝厂牌场景；应用词＝应用词场景；品类词＝品类词场景；型号词＝型号词场景)，如果价值词元总数等于2，根据价值词元的词性组合赋予搜索场景标签(厂牌词+供应资源词＝厂牌+供应资源词场景；厂牌词+商务资源词＝厂牌+商务资源词场景；厂牌词+内容资源词＝厂牌+内容资源词场景；厂牌词+品类词＝厂牌+品类场景；应用词+品类词＝应用+品类场景；品类词+内容资源词＝品类+内容资源词场景；型号词+内容资源词＝型号+内容资源词场景；型号词+供应资源词＝型号+供应资源词场景)。

在第二实施例中，如图3所示，本发明还构造了一种识别用户搜索场景的系统，包括：

词元查找模块，用于接收搜索文本，查找出搜索文本中的一个或多个有效词元；

词元分析模块，对有效词元进行级别过滤以及词性过滤，得到具有单一词性的价值词元；

搜索场景设置模块，用于根据价值词元的词性或者词性组合，为搜索文本设置相对应的搜索场景标签。

在本实施例中，该系统还包括：有效词元存储模块，用于预存多个有效词元；

词元查找模块，用于接收搜索文本，查找出搜索文本中的一个或多个词元；根据预存的多个有效词元，对查找出的词元进行词元过滤，得到一个或多个有效词元。

在本实施例中，该系统还包括：词元级别设置模块，用于根据词元搜索价值，为每一预存的有效词元预设一词元级别标签；

词元分析模块包括：词元过滤模块，用于根据词元级别设置模块设置的词元级别标签顺序对查找出的有效词元进行级别过滤，得到价值词元。

该系统还包括：词元词性设置模块，用于根据词性搜索价值，为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签；

词元分析模块包括：词性过滤模块，根据词性级别标签顺序对查找出的具有多词性的有效词元进行词性过滤，保留单一词性。

其中，可先执行词元过滤模块，根据词元级别标签顺序对查找出的有效词元进行级别过滤，得到价值词元；然后再执行词性过滤模块，根据词性级别标签顺序对具有多词性的查找出的价值词元进行词性过滤，保留单一词性，得到具有单一词性的价值词元。

另外，也可先执行词性过滤模块，根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤，保留单一词性；然后再执行词元过滤模块，根据词元级别标签顺序对查找出的有效词元进行级别过滤，保留价值词元，最终得到具有单一词性的价值词元。

在一些实施例中，词元分析模块还包括：词元分组模块，用于根据查找出的有效词元所具有的词性进行分组，判断各组之间是否存在相同的有效词元，若是，则执行词性过滤模块，用于根据词性级别标签顺序对查找出的具有多词性的有效词元进行词性过滤，保留单一词性，即保留级别最高的词性。进一步地，可在分组前或后，执行词元过滤模块，根据词元级别标签顺序对查找出的有效词元进行级别过滤，得到价值词元。

在一些实施例中，词性过滤模块还用于当查找出有效词元时，可获取有效词元所对应的词性个数，根据词性级别标签顺序对具有多词性的有效词元进行词性过滤，保留单一词性，即保留级别最高的词性。

在另外一些实施例中，词元词性设置模块还可根据词性相关性，为每一预存的有效词元预设一种或多种词性以及对应的与其他词性的相关性；

词元过滤模块还用于根据词元级别标签顺序对查找出的有效词元进行级别过滤和排序，得到价值词元，包括价值最高的词元以及其他价值词元；

可通过上述两个实施例中分组或计数的方式来令词性过滤模块用于根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤，保留单一词性。具体地，词元分组模块用于当查找出价值词元时，根据查找出的价值词元所具有的词性进行分组，判断各组之间是否存在相同的价值最高的词元，若是，则执行词性过滤模块，根据词性级别标签顺序对查找出的具有多词性的价值最高的词元进行词性过滤，保留单一词性，即保留级别最高的词性。或者，词性过滤模块用于当查找价值最高的词元时，获取价值最高的词元所对应的词性个数，根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤，保留单一词性，即保留级别最高的词性；

并且，词性过滤模块还用于根据该价值最高的词元的词性与其他词性的相关性，过滤其他价值词元的词性，得到其他价值词元中与价值最高的词元的词性最为相关的单一词性。

在本实施例中，该系统还包括：默认场景设置模块，用于判断词元或有效词元的个数是否为零，若是，则为搜索文本设置一预设的默认场景标签；若否，则执行词元分析模块。

默认场景设置模块，还用于判断价值词元的个数是否符合预设条件，若是，则为搜索文本设置一预设的默认场景标签；若否，则执行词元分析模块。在一些实施例中，可判断价值词元的个数是否小于1或者大于2，若是，则为搜索文本设置一预设的默认场景标签；若否，则根据价值词元的词性或者词性组合，为搜索文本设置相对应的搜索场景标签。具体地：首先对价值词元个数进行判断，如果价值词元总数大于2或者小于1直接赋予默认场景标签，即普通场景。如果价值词元总数等于1，根据价值词元的词性赋予搜索场景标签(厂牌词＝厂牌场景；应用词＝应用词场景；品类词＝品类词场景；型号词＝型号词场景)，如果价值词元总数等于2，根据价值词元的词性组合赋予搜索场景标签(厂牌词+供应资源词＝厂牌+供应资源词场景；厂牌词+商务资源词＝厂牌+商务资源词场景；厂牌词+内容资源词＝厂牌+内容资源词场景；厂牌词+品类词＝厂牌+品类场景；应用词+品类词＝应用+品类场景；品类词+内容资源词＝品类+内容资源词场景；型号词+内容资源词＝型号+内容资源词场景；型号词+供应资源词＝型号+供应资源词场景)。

通过实施本发明，具有以下有益效果：

可以理解的，以上实施例仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，可以对上述技术特点进行自由组合，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，凡跟本发明权利要求范围所做的等同变换与修饰，均应属于本发明权利要求的涵盖范围。

Claims

1.一种识别用户搜索场景的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的识别用户搜索场景的方法，其特征在于，所述步骤根据接收到的搜索文本，查找出所述搜索文本中的一个或多个有效词元，包括：

接收搜索文本，查找出所述搜索文本中的一个或多个词元；

3.根据权利要求1或2所述的识别用户搜索场景的方法，其特征在于，所述步骤对所述有效词元进行级别过滤，包括：

4.根据权利要求1或2所述的识别用户搜索场景的方法，其特征在于，所述步骤对所述有效词元进行词性过滤，包括：

5.根据权利要求4所述的识别用户搜索场景的方法，其特征在于，所述步骤根据词性级别标签顺序对具有多词性的查找出的所述有效词元进行词性过滤，保留单一词性，包括：

6.一种识别用户搜索场景的系统，其特征在于，包括：

7.根据权利要求6所述的识别用户搜索场景的系统，其特征在于，所述系统还包括：有效词元存储模块，用于预存多个有效词元；

8.根据权利要求6或7所述的识别用户搜索场景的系统，其特征在于，所述系统还包括：词元级别设置模块，用于根据词元搜索价值，为每一预存的有效词元预设一词元级别标签；

9.根据权利要求6或7所述的识别用户搜索场景的系统，其特征在于，所述系统还包括：词元词性设置模块，用于根据词性搜索价值，为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签；

所述词元分析模块包括：

10.根据权利要求9所述的识别用户搜索场景的系统，其特征在于，所述词元分析模块还包括：