CN111625619A - 查询省略方法、装置、计算机可读介质及电子设备 - Google Patents
查询省略方法、装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN111625619A CN111625619A CN201910152200.1A CN201910152200A CN111625619A CN 111625619 A CN111625619 A CN 111625619A CN 201910152200 A CN201910152200 A CN 201910152200A CN 111625619 A CN111625619 A CN 111625619A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- determining
- query
- words
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 32
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 238000010438 heat treatment Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000010902 straw Substances 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施例提供了一种查询省略方法、查询省略装置、计算机可读介质及电子设备,涉及自然语言处理技术领域。该方法包括:对查询语句执行切词操作,获得多个待处理词汇;根据待处理词汇的语义确定查询语句的语义;确定待处理词汇的语义和查询语句的语义的相似度;根据相似度确定待省略词汇;将待处理词汇中除待省略词汇之外的词汇确定为待搜索词汇。本发明实施例的技术方案能够增加根据待搜索词汇召回的词条数量,进而提高电商平台的收益。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种查询省略方法、查询省略装置、计算机可读介质及电子设备。
背景技术
在电商领域和网页领域中,用户通常会通过输入查询语句获得与查询语句相关的商品信息或文档信息。但是,用户输入的查询语句通常会与相关文档或相关商品的标题存在语义上的差异,这会导致很多实际上与查询语句相关的商品信息或文档信息被判定为与查询语句无关,进而导致反馈给用户的商品信息或文档信息不全面。
目前,针对上述问题存在如下解决办法:通过TF词频(TermFrequency)和IDF逆向文件频率(Inverse Document Frequency)确定查询语句中tf-idf值高于阈值的词(在某个文档出现次数较高而在其他文档中出现次数较低的词)作为最终的查询语句。但是,由于电商的查询语句较为简短精炼,通过上述方法对电商的查询语句进行信息抽取,容易导致查询语句中的重要词汇被省略。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种查询省略方法、查询省略装置、计算机可读介质及电子设备,进而至少在一定程度上克服查询语句中的重要词汇被过滤的问题。
本发明实施例的第一方面提供了一种查询省略方法,包括:对查询语句执行切词操作,获得多个待处理词汇;根据待处理词汇的语义确定查询语句的语义;确定待处理词汇的语义和查询语句的语义的相似度;根据相似度确定待省略词汇;将待处理词汇中除待省略词汇之外的词汇确定为待搜索词汇。
在本发明的一种示例性实施例中,根据相似度确定待省略词汇包括:根据相似度由高到低的顺序对待处理词汇进行排序;将处于排序结果的目标顺序位以及目标顺序位之后的待处理词汇确定为候选词汇;确定候选词汇的质量分;根据质量分确定待省略词汇。
在本发明的一种示例性实施例中,确定候选词汇的质量分包括:基于历史查询语句召回词条的数量确定待处理词汇的质量分;根据待处理词汇的质量分确定候选词汇的质量分。
在本发明的一种示例性实施例中,根据质量分确定待省略词汇包括:将质量分高于预设质量分的候选词汇确定为待省略词汇。
在本发明的一种示例性实施例中,根据质量分确定待省略词汇包括:如果质量分高于预设质量分的候选词汇中包含预设白名单词汇,则将质量分高于预设质量分的候选词汇中除预设白名单词汇之外的词汇确定为待省略词汇。
在本发明的一种示例性实施例中,根据待处理词汇的语义确定查询语句的语义之前还包括:基于词条的历史点击序列确定所有词汇的词向量;根据所有词汇的词向量确定待处理词汇的语义。
在本发明的一种示例性实施例中,对查询语句执行切词操作之前还包括:判断查询语句的长度是否大于预设阈值,如果大于预设阈值,则执行对查询语句执行切词操作。
根据本发明实施例的第二方面,提供一种查询省略装置,包括:切词单元,用于对查询语句执行切词操作,获得多个待处理词汇;语义确定单元,用于根据待处理词汇的语义确定查询语句的语义;语义相似度确定单元,用于确定待处理词汇的语义和查询语句的语义的相似度;待省略词汇确定单元,用于根据相似度确定待省略词汇;待搜索词汇确定单元,用于将待处理词汇中除待省略词汇之外的词汇确定为待搜索词汇。
在本发明的一个实施例中,待省略词汇确定单元包括:待处理词汇排序单元,用于根据相似度由高到低的顺序对待处理词汇进行排序;候选词汇确定单元,用于将处于排序结果的目标顺序位以及目标顺序位之后的待处理词汇确定为候选词汇;质量分确定单元,用于确定候选词汇的质量分;基于质量分确定待省略词汇单元,用于根据质量分确定待省略词汇。
在本发明的一种示例性实施例中,候选词汇确定单元确定候选词汇的质量分的方式具体为:候选词汇确定单元基于历史查询语句召回词条的数量确定查询语句的质量分;候选词汇确定单元根据查询语句的质量分确定候选词汇的质量分。
在本发明的一种示例性实施例中,基于质量分确定待省略词汇单元根据质量分确定待省略词汇的方式具体为:基于质量分确定待省略词汇单元将质量分高于预设质量分的候选词汇确定为待省略词汇。
在本发明的一种示例性实施例中,基于质量分确定待省略词汇单元根据质量分确定待省略词汇的方式具体为:如果质量分高于预设质量分的候选词汇中包含预设白名单词汇,基于质量分确定待省略词汇单元将质量分高于预设质量分的候选词汇中除预设白名单词汇之外的词汇确定为待省略词汇。
在本发明的一种示例性实施例中,查询省略装置还可以包括:词向量确定单元和待处理词汇语义确定单元。其中,词向量确定单元,用于基于词条的历史点击序列确定所有词汇的词向量;待处理词汇语义确定单元,用于根据所有词汇的词向量确定待处理词汇的语义。此外,在待处理词汇语义确定单元根据所有词汇的词向量确定待处理词汇的语义之后,触发语义确定单元执行根据待处理词汇的语义确定查询语句的语义。
在本发明的一种示例性实施例中,查询省略装置还可以包括:判断单元。判断单元,用于判断查询语句的长度是否大于预设阈值;切词单元,具体用于在判断单元判断出查询语句的长度大于预设阈值之后,对查询语句执行切词操作,获得多个待处理词汇。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中第一方面所述的查询省略方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如上述实施例中第一方面所述的查询省略方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明的一些实施例所提供的技术方案中,首先能够获得至少一个待处理词汇,再根据待处理词汇的语义确定查询语句的语义,以及确定待处理词汇的语义和查询语句的语义的相似度,进而再根据相似度确定待省略词汇,以及将待处理词汇中除待省略词汇之外的词汇确定为待搜索词汇。依据上述方案描述,本发明一方面优于传统的抽取式查询省略方法,能够降低查询语句中的重要词汇被过滤的几率。另一方面能够通过语义相似度最终确定出待搜索词汇,以在确保查询准确率的情况下增加根据待搜索词汇召回的词条数量,进而提高电商平台的收益。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明实施例的查询省略方法的流程图;
图2示意性示出了根据本发明实施例的确定待处理词汇的语义的流程图;
图3示意性示出了根据本发明实施例的确定查询语句的语义的框图;
图4示意性示出了根据本发明实施例的根据相似度确定待省略词汇的流程图;
图5示意性示出了根据本发明实施例的根据相似度确定待省略词汇的框图;
图6示意性示出了根据本发明实施例的另一种查询省略方法的流程图;
图7示意性示出了根据本发明实施例的查询省略装置的框图;
图8示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性示出了根据本发明的第一个实施例的查询省略方法的流程图,该查询省略方法可以由服务器或终端设备来实现。
如图1所示,根据本发明的第一个实施例的查询省略方法,包括如下步骤S110、步骤S120、步骤S130、步骤S140以及步骤S150,以下对各步骤进行详细说明:
在步骤S110中,对查询语句执行切词操作,获得多个待处理词汇。
在本发明的一个实施例中,查询语句可以为用户为了获得指定信息而输入的语句。例如,用户为了获取与枕头套相关的商品信息输入枕头套;其中,枕头套即为查询语句。
在本发明的一个实施例中,对查询语句执行切词操作的切词方法可以包括基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法等;其中,切词方法即为分词方法。上述的基于字符串匹配的分词方法,是按照预设的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配的,若在词典中找到某个字符串,则识别出该词并切分;上述的基于理解的分词方法,是根据计算机模拟人对句子的理解,以达到识别词并切分的效果;上述的基于统计的分词方法,是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律,从而实现对查询语句的切分。例如,对枕头套进行切词操作,可以通过上述切词方法中的一种或多种将枕头套切分为枕头、头套以及枕头套;其中,切分得到的枕头、头套以及枕头套即为待处理词汇。
在本发明的一个实施例中,待处理词汇用于表示该词汇还需要进一步的处理(如,过滤或省略)。
作为一种可选的实施方式,在对查询语句执行切词操作之前,服务器或终端设备还可以执行以下步骤:判断查询语句的长度是否大于预设阈值,如果大于预设阈值,则执行对查询语句执行切词操作。其中,预设阈值可以为预先设置好的一个值,如,10个字或20个字节。
此外,判断查询语句的长度是否大于预设阈值的方法可以为:确定查询语句的长度(如,查询语句所占用的字节),再比对查询语句的长度(如,25个字节)与预设阈值(如,20个字节),若查询语句的长度大于预设阈值,则执行对查询语句执行切词操作。由于输入的查询语句越短召回的商品就越多,因此,如果用户输入的查询语句过长,通过上述方法能够将用户输入的查询语句进行切分,以召回更多的商品;若用户输入的查询语句较短,不用对其进行切分也能够召回较多的商品,则不执行切词操作。可见,实施上述方法能够在查询语句大于预设阈值时才执行切词操作,这样能够降低功耗,节约计算机资源。
在步骤S120中,根据待处理词汇的语义确定查询语句的语义。
作为另一种可选的实施方式,请参阅图2,图2所示的是确定待处理词汇的语义的流程图。在根据待处理词汇的语义确定查询语句的语义之前,还可以包括步骤S160和步骤S170:
在步骤S160中,基于词条的历史点击序列确定所有词汇的词向量。
在本发明的一个实施例中,词条可以为包含商品信息的词条,商品信息可以包含文字信息、图片信息以及视频信息中至少一种,本发明实施例不作限定。此外,词条的历史点击序列为该词条对应的历史查询语句或历史查询词汇,也可以理解为用户曾经输入的历史查询语句所召回的词条中包括该词条且用户点击了该词条。其中,历史点击序列为一段时间内的点击序列,如,一个月内的点击序列。
在本发明的一个实施例中,基于词条的历史点击序列确定所有词汇的词向量的方法具体可以包括:根据词条的历史点击序列,使用word2vec确定出所有词汇在语义空间(Meaning)中的所在位置,根据所在位置确定所有词汇的词向量;其中,词向量用于表征词汇的语义,word2vec是一种训练词嵌入模型的工具。此外,由于每一种符号体系在广义上都是传达意义的语言,因此,它们所表达的意义构成的就是语义空间。自然语言理解中涉及到的每一个概念(如,词汇)都与语义空间的一个位置相对应,这个位置与语义空间的原点之间的关系构成了词向量。
在本发明的一个实施例中,基于词条的历史点击序列确定所有词汇的词向量,能够训练得到词嵌入(word embedding)模型。在词嵌入模型当中,每个词汇在语义空间均对应一个词向量,也可以理解为每个词汇对应一个语义。
在步骤S170中,根据所有词汇的词向量确定待处理词汇的语义。
基于对步骤S160的详细说明,在本发明的一个实施例中,根据所有词汇的词向量确定待处理词汇的语义的方式具体可以为:将待处理词汇与词嵌入模型中的所有词汇进行比对,并将词嵌入模型中与待处理词汇相对应的词汇的语义作为待处理词汇的语义。可见,通过由历史点击序列训练得到的词嵌入模型确定待处理词汇的语义,能够准确地确定出待处理词汇的语义,相较传统的使用堆砌式商品标题训练得到的模型确定出待处理词汇的语义,本发明确定出的待处理词汇的语义的准确度更高,进而能够提高所召回的商品与查询语句的匹配度以及召回的商品数量。
在本发明的一个实施例中,在步骤S170执行完毕之后,执行步骤S120的相应操作。
在本发明的一个实施例中,根据待处理词汇的语义确定查询语句的语义的方式具体可以为:将待处理词汇的语义相加,得到的相加结果可以确定为查询语句的语义。请参阅图3,图3所示的是确定查询语句的语义的框图。其中,待处理词汇1的语义、待处理词汇2的语义、待处理词汇3的语义以及待处理词汇4的语义相加,得到的相加结果为查询语句的语义。需要说明的是,由于词向量可以表征词汇的词义,本发明实施例中的语义相加也可以理解为词向量相加。可见,基于上述详细说明,根据由历史点击序列训练得到的词嵌入模型确定出的待处理词汇语义,相加得到的查询语句的语义准确率更高,以提高召回商品的数量,以及提升电商平台的收益。
在步骤S130中,确定待处理词汇的语义和查询语句的语义的相似度。
在本发明的一个实施例中,可选的,确定待处理词汇的语义和查询语句的语义的相似度的方式具体可以为:确定待处理词汇的词向量和查询语句的句向量在语义空间中的欧氏距离,并将该欧式距离确定为待处理词汇的语义和查询语句的语义的相似度;其中,欧式距离(EuclidDistance)也可以称为欧几里得度量或欧几里得距离,是在m维空间中两个点之间的真实距离;m取值为正整数。
本发明实施例中,可选的,确定待处理词汇的语义和查询语句的语义的相似度的方式还可以为:确定待处理词汇的词向量和查询语句的句向量的余弦距离,并将该余弦距离确定为待处理词汇的语义和查询语句的语义的相似度;其中,余弦距离(Cosinesimilarity)也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个对象之间差异大小的度量。
在步骤S140中,根据相似度确定待省略词汇。
在本发明的一种实施例中,请参阅图4,图4所示的是根据相似度确定待省略词汇的流程图。根据相似度确定待省略词汇的方式具体可以包括步骤S410、步骤S420、步骤S430以及步骤S440:
在步骤S410中,根据相似度由高到低的顺序对待处理词汇进行排序。
在步骤S420中,将处于排序结果的目标顺序位以及目标顺序位之后的待处理词汇确定为候选词汇。
在本发明的一种实施例中,排序结果的目标顺序位可以为预设顺序位或用户自定义顺序位,如排序结果中的第五位,本发明实施例不作限定。
在步骤S430中,确定候选词汇的质量分。
在本发明的一种实施例中,确定候选词汇的质量分的方式具体可以为:基于历史查询语句召回词条的数量确定待处理词汇的质量分;根据待处理词汇的质量分确定候选词汇的质量分。
进一步地,基于历史查询语句召回词条的数量确定待处理词汇的质量分的方式具体可以为:确定历史查询语句召回词条的数量,并从历史查询语句中确定出与待处理词汇相对应的某一查询语句,将某一查询语句的质量分作为待处理词汇的质量分;其中,历史查询语句可以为字、词或句等,本发明实施例不作限定;另外,质量分可以用于表示召回的词条数量。
更进一步地,根据待处理词汇的质量分确定候选词汇的质量分的方式具体可以为:确定所有待处理词汇的质量分之和,并在将候选词汇从待处理词汇中过滤之后确定待处理词汇的目标质量分之和,目标质量分之和减质量分之和的结果作为候选词汇的质量分。举例来说,如果待处理词汇为红色、吸管、自加热以及保温杯,候选词汇为吸管以及自加热,那么,搜索红色、吸管、自加热以及保温杯能够召回2000个商品,即质量分为2000,而除去吸管之后搜索红色、自加热以及保温杯能够召回2500个商品,除去自加热之后搜索红色、吸管以及保温杯能够召回2300个商品。那么,候选词汇吸管的质量分即为500,候选词汇自加热的质量分即为300。可见,除去候选词汇吸管相较除去候选词汇自加热,能够召回更多的商品。
请参阅图5,图5所示的是根据相似度确定待省略词汇的框图。图中示意的待处理词汇1的语义、待处理词汇2的语义、待处理词汇3的语义以及待处理词汇4的语义分别与查询语句的语义进行相似度比对,再将比对结果进行排序,从而根据排序结果能够确定候选词汇,参见对于步骤S140的详细描述。
在步骤S440中,根据质量分确定待省略词汇。
作为一种可选的实施方式,根据质量分确定待省略词汇的方式具体可以为:将质量分高于预设质量分的候选词汇确定为待省略词汇。
在本发明的一种实施例中,预设质量分可以为任一正整数。
作为另一种可选的实施方式,根据质量分确定待省略词汇的方式具体可以为:基于分类模型以及根据历史查询语句召回词条的数量对历史查询语句进行分类,依据分类结果以及预设质量分范围确定待省略词汇;其中,分类模型可以为LR模型、FM模型、fasttext模型或RNN模型等,本发明实施例不作限定。举例来说,按照召回词条数量处于[0-1)、[1-5)、[5-10)、[10-20)、[20-50)、[50-100)、[100-200)、[200-500)以及[500+)对历史查询语句进行分类,若预设质量分范围为[500+),则质量分处于[0-1)、[1-5)、[5-10)、[10-20)、[20-50)、[50-100)、[100-200)以及[200-500)的候选词汇均作为待省略词汇。可见,这样能够将召回商品数量少的候选词汇作为待省略词汇,在过滤了待省略词汇后能够提升待搜索词汇召回的商品数量,进一步提高了平台的收益。
作为又一种可选的实施方式,根据相似度确定待省略词汇的方式还可以为:确定相似度低于预设相似度的待处理词汇并将其作为候选词汇;根据候选词汇的质量分确定待省略词汇。
可见,实施该可选的实施方式,相较上述根据相似度进行排序从而得出候选词汇的方法,能够快速确定出候选词汇,以便根据质量分对候选词汇进行进一步的筛选,提高了确定待省略词汇的效率。
作为又一种可选的实施方式,根据质量分确定待省略词汇的方式具体可以为:如果质量分高于预设质量分的候选词汇中包含预设白名单词汇,则将质量分高于预设质量分的候选词汇中除预设白名单词汇之外的词汇确定为待省略词汇。
在本发明的一个实施例中,预设白名单词汇至少可以包括品牌词、高频短查询语句、优质买词以及产品词。
可见,实施该又一种可选的实施方式,能够在保留白名单词汇的情况下进一步对需要省略的词汇进行筛选,以便最终确定出能够召回较多商品且贴合用户查询本意的词汇,进而提升用户对于召回商品的满意度,改善用户体验。
在步骤S150中,将待处理词汇中除待省略词汇之外的词汇确定为待搜索词汇。
在本发明的一个实施例中,待搜索词汇用于搜索,以使用户获得与待搜索词汇相匹配的词条。
请参阅图6,图6所示的是另一种查询省略方法的流程图,详细说明如下。
步骤S601:检测到输入的查询语句。
步骤S602:查询语句的长度是否大于预设阈值.如果大于预设阈值,则执行步骤S603并在后台加载白名单词汇以便后续进行比对,如果不大于预设阈值则结束流程。
步骤S603:执行切词操作获得多个待处理词汇。
步骤S604:根据查询语句的词义和待处理词汇的词义对待处理词汇进行排序。
步骤S605:根据排序结果产生候选词汇。
步骤S606:根据质量分模型对候选词汇进行排序。
步骤S607:根据排序结果对候选词汇进行过滤,得到待省略词汇。
步骤S608:待省略词汇中是否存在白名单词汇。如果存在,则执行步骤S609,如果不存在,则执行步骤S610。
步骤S609:对待省略词汇中除白名单词汇之外的词汇进行省略。
步骤S610:省略待省略词汇。
步骤S611:得到待搜索词汇。
其中,在检测到用户输入的查询语句之后,可以判断查询语句的长度是否大于预设阈值,如果大于预设阈值,则执行切词操作获得多个待处理词汇并在后台加载白名单词汇以便后续进行比对,如果不大于预设阈值则结束流程;进而,再根据查询语句的词义和待处理词汇的词义对待处理词汇进行排序;进而会根据排序结果产生候选词汇;进而再根据质量分模型对候选词汇进行排序;以根据排序结果对候选词汇进行过滤,得到待省略词汇,如果待省略词汇中存在白名单词汇则不对其中的白名单词汇进行省略,如果不包含,则省略待省略词汇,最终得到待搜索词汇。在图6示例中,白名单词汇可以包括品牌词汇、高频词汇、优质购买词汇以及产品词汇,其中,高频词汇可以理解为历史搜索频率较高的词汇,优质购买词汇可以理解为搜索此类词汇返回的商品被购买的几率较高。此外,需要说明的是,白名单词汇包括上述词汇但不限于上述词汇。
举例来说,若用户输入的query为64G红色苹果手机,且64G红色苹果手机的长度大于阈值,则对64G红色苹果手机进行切词,获得的terms包括64G、红色、苹果、手机;进而根据64G、红色、苹果、手机的词义与64G红色苹果手机的词义的相似度排序,确定出相似度较低的64G和红色作为候选省略词汇;再根据质量分模型对64G和红色排序,确定出64G的质量分为2000,红色的质量分为3000;由于64G的质量分低于红色的质量分,则将64G作为过滤后的term;另外,因为,64G不属于白名单词汇,那么,省略后的query即为红色、苹果、手机。
可见,实施图6所示的另一种查询省略方法能够通过对用户输入的查询语句进行多次筛选,最终确定出与用户搜索本意相符,且能召回较多商品的待搜索词汇,这样不仅能够改善用户体验,还能够提升电商平台的收益。
请参阅图7,图7示意性示出了根据本发明的一个实施例的查询省略装置的框图。
参照图7所示,根据本发明的一个实施例的查询省略装置700,包括:切词单元701、语义确定单元702、语义相似度确定单元703、待省略词汇确定单元704和待搜索词汇确定单元705。
其中,切词单元701用于对查询语句执行切词操作,获得多个待处理词汇;语义确定单元702用于根据待处理词汇的语义确定查询语句的语义;语义相似度确定单元703用于确定待处理词汇的语义和查询语句的语义的相似度;待省略词汇确定单元704用于根据相似度确定待省略词汇;待搜索词汇确定单元705用于将待处理词汇中除待省略词汇之外的词汇确定为待搜索词汇。
可见,本发明实施例中的查询省略装置700,能够在确保查询准确率的情况下增加根据待搜索词汇召回的词条数量,进而提高电商平台的收益。
在本发明的一个实施例中,待省略词汇确定单元704包括:待处理词汇排序单元(未图示),用于根据相似度由高到低的顺序对待处理词汇进行排序;候选词汇确定单元(未图示),用于将处于排序结果的目标顺序位以及目标顺序位之后的待处理词汇确定为候选词汇;质量分确定单元(未图示),用于确定候选词汇的质量分;基于质量分确定待省略词汇单元(未图示),用于根据质量分确定待省略词汇。
可见,实施本发明实施例,能够将召回商品数量少的候选词汇作为待省略词汇,在过滤了待省略词汇后能够提升待搜索词汇召回的商品数量,进一步提高了平台的收益。
在本发明的一个实施例中,候选词汇确定单元确定候选词汇的质量分的方式具体为:候选词汇确定单元基于历史查询语句召回词条的数量确定查询语句的质量分;候选词汇确定单元根据查询语句的质量分确定候选词汇的质量分。
可见,实施本发明实施例,能够根据历史查询语句召回词条的数量确定该查询语句的质量分,提高了确定出的质量分的准确度。
作为一种可选的实施方式,基于质量分确定待省略词汇单元根据质量分确定待省略词汇的方式具体为:基于质量分确定待省略词汇单元将质量分高于预设质量分的候选词汇确定为待省略词汇。
可见,实施该可选的实施方式,能够将质量分高的待省略词汇,即召回商品数量少的词汇确定为待省略词汇,提高了召回商品的数量,为电商平台带来了更多的收益。
作为另一种可选的实施方式,基于质量分确定待省略词汇单元根据质量分确定待省略词汇的方式具体为:如果质量分高于预设质量分的候选词汇中包含预设白名单词汇,基于质量分确定待省略词汇单元将质量分高于预设质量分的候选词汇中除预设白名单词汇之外的词汇确定为待省略词汇。
可见,实施该可选的实施方式,能够降低白名单词汇被确定为待省略词汇的几率,以避免用户输入的白名单词汇(如品牌词)被省略,进一步改善用户体验。
在本发明的一个实施例中,查询省略装置700还可以包括:词向量确定单元(未图示)和待处理词汇语义确定单元(未图示)。其中,词向量确定单元,用于基于词条的历史点击序列确定所有词汇的词向量;待处理词汇语义确定单元,用于根据所有词汇的词向量确定待处理词汇的语义。此外,在待处理词汇语义确定单元根据所有词汇的词向量确定待处理词汇的语义之后,触发语义确定单元702执行根据待处理词汇的语义确定查询语句的语义。
可见,实施该可选的实施方式,能够根据词向量确定查询语句的语句,提升了确定出的查询语句的语义的准确度。
在本发明的一个实施例中,查询省略装置700还可以包括:判断单元(未图示)。判断单元,用于判断查询语句的长度是否大于预设阈值;切词单元701,具体用于在判断单元判断出查询语句的长度大于预设阈值之后,对查询语句执行切词操作,获得多个待处理词汇。
可见,实施图7所示的查询省略装置的框图,能够在一定程度上克服查询语句中的重要词汇被过滤的问题,并且在确保查询准确率的情况下增加根据待搜索词汇召回的词条数量,从而提高电商平台的收益。
由于本发明的示例实施例的查询省略装置的各个功能模块与上述基于查询省略方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的查询省略方法的实施例。
请参阅图8,其示出了适于用来实现本发明实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备的计算机系统800仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的查询省略方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S110,对查询语句执行切词操作,获得多个待处理词汇;步骤S120,根据待处理词汇的语义确定查询语句的语义;步骤S130,确定待处理词汇的语义和查询语句的语义的相似度;步骤S140,根据相似度确定待省略词汇;步骤S150,将待处理词汇中除待省略词汇之外的词汇确定为待搜索词汇。
又如,所述的电子设备可以实现如图2和图4所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种查询省略方法,其特征在于,所述查询省略方法包括:
对查询语句执行切词操作,获得多个待处理词汇;
根据所述待处理词汇的语义确定所述查询语句的语义;
确定所述待处理词汇的语义和所述查询语句的语义的相似度;
根据所述相似度确定待省略词汇;
将所述待处理词汇中除所述待省略词汇之外的词汇确定为待搜索词汇。
2.根据权利要求1所述的查询省略方法,其特征在于,所述根据所述相似度确定待省略词汇包括:
根据所述相似度由高到低的顺序对所述待处理词汇进行排序;
将处于排序结果的目标顺序位以及所述目标顺序位之后的所述待处理词汇确定为候选词汇;
确定所述候选词汇的质量分;
根据所述质量分确定待省略词汇。
3.根据权利要求2所述的查询省略方法,其特征在于,所述确定所述候选词汇的质量分包括:
基于历史查询语句召回词条的数量确定所述待处理词汇的质量分;
根据所述待处理词汇的质量分确定所述候选词汇的质量分。
4.根据权利要求3所述的查询省略方法,其特征在于,所述根据所述质量分确定待省略词汇包括:
将所述质量分高于预设质量分的候选词汇确定为待省略词汇。
5.根据权利要求3所述的查询省略方法,其特征在于,所述根据所述质量分确定待省略词汇包括:
如果所述质量分高于预设质量分的候选词汇中包含预设白名单词汇,则将所述质量分高于预设质量分的候选词汇中除所述预设白名单词汇之外的词汇确定为待省略词汇。
6.根据权利要求4或5所述的查询省略方法,其特征在于,所述根据所述待处理词汇的语义确定所述查询语句的语义之前还包括:
基于所述词条的历史点击序列确定所有词汇的词向量;
根据所述所有词汇的词向量确定所述待处理词汇的语义。
7.根据权利要求6所述的查询省略方法,其特征在于,所述对查询语句执行切词操作之前还包括:
判断查询语句的长度是否大于预设阈值,如果大于所述预设阈值,则执行所述对查询语句执行切词操作。
8.一种查询省略装置,其特征在于,所述查询省略装置包括:
切词单元,用于对查询语句执行切词操作,获得多个待处理词汇;
语义确定单元,用于根据所述待处理词汇的语义确定所述查询语句的语义;
语义相似度确定单元,用于确定所述待处理词汇的语义和所述查询语句的语义的相似度;
待省略词汇确定单元,用于根据所述相似度确定所述待省略词汇;
待搜索词汇确定单元,用于将所述待处理词汇中除所述待省略词汇之外的词汇确定为所述待搜索词汇。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的查询省略方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7中任一项所述的查询省略方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910152200.1A CN111625619B (zh) | 2019-02-28 | 2019-02-28 | 查询省略方法、装置、计算机可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910152200.1A CN111625619B (zh) | 2019-02-28 | 2019-02-28 | 查询省略方法、装置、计算机可读介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625619A true CN111625619A (zh) | 2020-09-04 |
CN111625619B CN111625619B (zh) | 2024-03-01 |
Family
ID=72271717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910152200.1A Active CN111625619B (zh) | 2019-02-28 | 2019-02-28 | 查询省略方法、装置、计算机可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625619B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817916A (zh) * | 2021-02-07 | 2021-05-18 | 中国科学院新疆理化技术研究所 | 基于ipfs的数据获取方法及系统 |
JP2022173084A (ja) * | 2021-05-06 | 2022-11-17 | ネイバー コーポレーション | 埋め込み類似度に基づく商品検索方法、コンピュータ装置、およびコンピュータプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306182A (zh) * | 2011-08-30 | 2012-01-04 | 西华大学 | 基于概念语义背景图挖掘用户兴趣的方法 |
JP2014191777A (ja) * | 2013-03-28 | 2014-10-06 | Nippon Hoso Kyokai <Nhk> | 語義解析装置、及びプログラム |
CN105512334A (zh) * | 2015-12-29 | 2016-04-20 | 成都陌云科技有限公司 | 基于搜索词的数据挖掘方法 |
CN106970912A (zh) * | 2017-04-21 | 2017-07-21 | 北京慧闻科技发展有限公司 | 中文语句相似度计算方法、计算装置以及计算机存储介质 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
-
2019
- 2019-02-28 CN CN201910152200.1A patent/CN111625619B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306182A (zh) * | 2011-08-30 | 2012-01-04 | 西华大学 | 基于概念语义背景图挖掘用户兴趣的方法 |
JP2014191777A (ja) * | 2013-03-28 | 2014-10-06 | Nippon Hoso Kyokai <Nhk> | 語義解析装置、及びプログラム |
CN105512334A (zh) * | 2015-12-29 | 2016-04-20 | 成都陌云科技有限公司 | 基于搜索词的数据挖掘方法 |
CN106970912A (zh) * | 2017-04-21 | 2017-07-21 | 北京慧闻科技发展有限公司 | 中文语句相似度计算方法、计算装置以及计算机存储介质 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
Non-Patent Citations (2)
Title |
---|
张杰;林木辉;包正委;: "基于领域本体的语句相似度研究", 福建师范大学学报(自然科学版), no. 01 * |
杨春龙;顾春华;: "基于概念语义相似度计算模型的信息检索研究", 计算机应用与软件, no. 06 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817916A (zh) * | 2021-02-07 | 2021-05-18 | 中国科学院新疆理化技术研究所 | 基于ipfs的数据获取方法及系统 |
CN112817916B (zh) * | 2021-02-07 | 2023-03-31 | 中国科学院新疆理化技术研究所 | 基于ipfs的数据获取方法及系统 |
JP2022173084A (ja) * | 2021-05-06 | 2022-11-17 | ネイバー コーポレーション | 埋め込み類似度に基づく商品検索方法、コンピュータ装置、およびコンピュータプログラム |
JP7343649B2 (ja) | 2021-05-06 | 2023-09-12 | ネイバー コーポレーション | 埋め込み類似度に基づく商品検索方法、コンピュータ装置、およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN111625619B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11138250B2 (en) | Method and device for extracting core word of commodity short text | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
JP6007784B2 (ja) | 文書分類装置及びプログラム | |
CN107729453B (zh) | 一种提取中心产品词的方法和装置 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN110990533B (zh) | 确定查询文本所对应标准文本的方法及装置 | |
US20190163737A1 (en) | Method and apparatus for constructing binary feature dictionary | |
CN106294505B (zh) | 一种反馈答案的方法和装置 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN110543637A (zh) | 一种中文分词方法及装置 | |
CN110633464A (zh) | 一种语义识别方法、装置、介质及电子设备 | |
WO2015062359A1 (en) | Method and device for advertisement classification, server and storage medium | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
CN112527977B (zh) | 概念抽取方法、装置、电子设备及存储介质 | |
CN111625619B (zh) | 查询省略方法、装置、计算机可读介质及电子设备 | |
CN115086182A (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
CN109753646B (zh) | 一种文章属性识别方法以及电子设备 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN113378015A (zh) | 搜索方法、装置、电子设备、存储介质和程序产品 | |
CN109325096B (zh) | 一种基于知识资源分类的知识资源搜索系统 | |
CN111062219A (zh) | 一种基于张量的潜在语义分析文本处理方法及装置 | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
CN110705308A (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
CN115827867A (zh) | 文本类型的检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |