CN110083679B - 搜索请求的处理方法、装置、电子设备和存储介质 - Google Patents
搜索请求的处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN110083679B CN110083679B CN201910205513.9A CN201910205513A CN110083679B CN 110083679 B CN110083679 B CN 110083679B CN 201910205513 A CN201910205513 A CN 201910205513A CN 110083679 B CN110083679 B CN 110083679B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- key word
- correlation coefficient
- inverted
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种搜索请求的处理方法、装置、电子设备和存储介质,所述方法包括:对目标关键词进行分词处理得到多个关键分词;获取所述关键分词对应的倒排链和类别;确定所述类别之间的相关系数;根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。可以根据相关系数进行求交运算,有助于提高检索速度。
Description
技术领域
本发明实施例涉及搜索推荐技术领域,尤其涉及一种搜索请求的处理方法、装置、电子设备和存储介质。
背景技术
在搜索推荐技术领域中,用户可以输入关键词获取关键词对应的相关信息,即搜索结果。其中,关键词可以为一个简单的名词,也可以为包含若干名词、动词的不规则语句。
现有技术中,关键词对应的搜索结果通过后台服务器计算得到,主要步骤包括:首先,对搜索的关键词进行分析,以生成语法树;然后,对语法树进行扁平化处理,并选取倒排块最短的文档集合作为最小候选集;再然后,遍历最小候选集,并对遍历结果进行评估,以分别生成倒排求交次数和顺排求交次数;最后,对比倒排求交次数和顺排求交次数,取其次数小者为最优求交算法,并按照所述最优求交算法生成搜索结果。
发明人在对上述方案进行研究发现,当用户输入的关键词较多、或语句较长、或倒排块较大时,搜索结果的生成消耗时间较长。
发明内容
本发明提供一种搜索请求的处理方法、装置、电子设备和存储介质,以解决现有技术中的上述问题。
根据本发明的第一方面,提供了一种搜索请求的处理方法,所述方法包括:
对目标关键词进行分词处理得到多个关键分词;
获取所述关键分词对应的倒排链和类别;
确定所述类别之间的相关系数;
根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。
可选地,所述根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果的步骤,包括:
根据所述相关系数对所述关键分词进行升序排列得到关键分词队列;
按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果。
可选地,所述按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果的步骤,包括:
设置标记位置为所述关键分词队列的起始位置;
对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链;
将所述标记位置向后移动一个位置;
将所述参考倒排链作为所述标记位置对应的关键分词对应的倒排链,并进入所述对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链的步骤;
在所述标记位置为所述关键分词队列的结束位置的情况下,将所述参考倒排链作为搜索结果。
可选地,在所述对目标关键词进行分词处理得到多个关键分词的步骤之前,所述方法还包括:
收集关键分词,并对所述关键分词进行分类得到类别;
根据所述关键分词和类别建立类别数据库;
所述获取所述关键分词对应的倒排链和类别的步骤,包括:
获取所述关键分词对应的倒排链;
从所述类别数据库中获取所述关键分词对应的类别。
可选地,所述确定所述类别之间的相关系数的步骤,包括:
针对其中任意两个类别,分别获取属于所述两个类别的关键词对应的倒排链;
获取所述两个类别中相同倒排链的数目和总数目;
根据所述数目和总数目确定所述两个类别之间的相关系数。
可选地,所述根据所述数目和总数目确定所述两个类别之间的相关系数的步骤,包括:
计算所述数目和总数目的比值;
根据所述比值按照预设函数关系计算得到所述两个类别之间的相关系数。
可选地,所述确定所述类别之间的相关系数的步骤之后,所述方法还包括:
将所述类别之间的相关系数保存至预设存储区域。
根据本发明的第二方面,提供了一种搜索请求的处理装置,所述装置包括:
分词模块,用于对目标关键词进行分词处理得到多个关键分词;
倒排链及类别获取模块,用于获取所述关键分词对应的倒排链和类别;
相关系数计算模块,用于确定所述类别之间的相关系数;
搜索结果确定模块,用于根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。
可选地,所述搜索结果确定模块,包括:
关键分词排序子模块,用于根据所述相关系数对所述关键分词进行升序排列得到关键分词队列;
搜索结果生成子模块,用于按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果。
可选地,所述搜索结果生成子模块,包括:
起始位置设置单元,用于设置标记位置为所述关键分词队列的起始位置;
第一参考倒排链生成单元,用于对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链;
标记位置移动单元,用于将所述标记位置向后移动一个位置;
第二参考倒排链生成单元,用于将所述参考倒排链作为所述标记位置对应的关键分词对应的倒排链,并进入所述对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链的步骤;
搜索结果生成单元,用于在所述标记位置为所述关键分词队列的结束位置的情况下,将所述参考倒排链作为搜索结果。
可选地,所述装置还包括:
关键分词类别收集模块,用于收集关键分词,并对所述关键分词进行分类得到类别;
类别数据库建立模块,用于根据所述关键分词和类别建立类别数据库;
所述倒排链及类别获取模块,包括:
倒排链获取子模块,用于获取所述关键分词对应的倒排链;
类别获取子模块,用于从所述类别数据库中获取所述关键分词对应的类别。
可选地,所述相关系数计算模块,包括:
类别倒排链获取子模块,用于针对其中任意两个类别,分别获取属于所述两个类别的关键词对应的倒排链;
数目统计子模块,用于获取所述两个类别中相同倒排链的数目和总数目;
相关系数计算子模块,用于根据所述数目和总数目确定所述两个类别之间的相关系数。
可选地,所述相关系数计算子模块,包括:
比值计算单元,用于计算所述数目和总数目的比值;
相关系数计算单元,用于根据所述比值按照预设函数关系计算得到所述两个类别之间的相关系数。
可选地,所述装置还包括:
相关系数保存模块,用于将所述类别之间的相关系数保存至预设存储区域。
根据本发明的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述的方法。
根据本发明的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述的方法。
本发明实施例提供了一种搜索请求的处理方法、装置、电子设备和存储介质,所述方法包括:对目标关键词进行分词处理得到多个关键分词;获取所述关键分词对应的倒排链和类别;确定所述类别之间的相关系数;根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。可以根据相关系数进行求交运算,有助于提高检索速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种搜索请求的处理方法的具体步骤流程图;
图2是本发明实施例二提供的一种搜索请求的处理方法的具体步骤流程图;
图3是本发明实施例二中生成的关键分词队列及对应的倒排链示意图;
图4是本发明实施例三提供的一种搜索请求的处理装置的结构图;
图5是本发明实施例四提供的一种搜索请求的处理装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参照图1,其示出了本发明实施例一提供的一种搜索请求的处理方法的具体步骤流程图。
步骤101,对目标关键词进行分词处理得到多个关键分词。
其中,目标关键词为用户输入的关键词,用于搜索与该关键词相关的内容。可以理解,目标关键词可以为一个词,也可以为多个词构成的句子或简单堆叠。
分词处理为将目标关键词拆分为多个分词的过程,例如,将“北京旅游”拆分为“北京”和“旅游”两个分词。
分词算法可以按照分为两大类:基于字典的字符串匹配算法、基于统计的分词算法。
其中,基于字典的字符串匹配算法将目标关键字与字典中的每个词进行匹配,匹配成功时,字典中的该词为该目标关键字中的一个分词。具体可以划分为正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法、最佳匹配算法等。
基于统计的分词算法将上下文中出现频率较好的相邻字作为分词。具体可以划分为N元文法模型(N-gram)、隐马尔科夫模型(HMM,Hidden Markov Model)。
可以理解,本发明实施例对分词算法不加以限制。
步骤102,获取所述关键分词对应的倒排链和类别。
其中,倒排链为关键分词对应的检索结果,可以包括但不限于:文字、图表、照片、数字。在搜索推荐领域中,每个检索结果均设置有对应的关键分词,代表该倒排链为该关键分词相关的信息。
关键分词的类别可以根据一定的分类算法进行文本分类得到,文本分类用计算机对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
分类算法由最开始的词匹配法、知识工程演进为基于深度学习的分类算法。基于深度学习的分类算法通常从预先标注的分类样本中学习到分类规则,从而可以对输入的关键分词进行分类。例如,决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、KNN(K-Nearest Neighbor,K最相邻)、遗传算法、最大熵、Generalized Instance、Fast Text等。其中,由于Fast Text算法的速度快且分类效果较好,本发明实施例可以优选使用Fast Text算法。
步骤103,确定所述类别之间的相关系数。
其中,相关系数可以代表类别之间的相关性,相关系数越大,相关性越高;相关系数越小,相关性越低。
步骤104,根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。
其中,求交运算即获取关键分词对应的倒排链中包含的相同倒排链,作为检索结果。
可以理解,相关系数越大,关键分词对应的倒排链包含的相同倒排链越多;相关越小,关键分词对应的倒排链包含的相同倒排链越少。
在本发明实施例中,可以从类别的相关系数较小的关键分词开始进行求交,从而最开始的相同倒排链数目较少,降低了和其他关键分词求交的运算复杂度,有助于提高求交运算的速度。
综上所述,本发明实施例提供了一种搜索请求的处理方法,所述方法包括:对目标关键词进行分词处理得到多个关键分词;获取所述关键分词对应的倒排链和类别;确定所述类别之间的相关系数;根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。可以根据相关系数进行求交运算,有助于提高检索速度。
实施例二
参照图2,其示出了本发明实施例二提供的一种搜索请求的处理方法的具体步骤流程图。
步骤201,收集关键分词,并对所述关键分词进行分类得到类别。
具体地,可以从搜索平台的历史搜索记录中收集用户输入的关键词,并分词,还可以从第三方数据库中获取关键分词。
分类算法可以参照步骤102的详细说明,在此不再赘述。
步骤202,根据所述关键分词和类别建立类别数据库。
具体地,可以将关键分词和类别作为两个字段存储之类别数据库中。
本发明实施例可以预先建立类别数据库,从而在获取关键分词对应的类别时,不需要对其进行再次分类,而直接从该类别数据库中获取,减少分类消耗的时间,有助于提高检索速度。
步骤203,对目标关键词进行分词处理得到多个关键分词。
该步骤可以参照步骤101的详细说明,在此不再赘述。
步骤204,获取所述关键分词对应的倒排链。
该步骤可以参照步骤102的详细说明,在此不再赘述。
步骤205,从所述类别数据库中获取所述关键分词对应的类别。
本步骤205与步骤201至202结合使用。
在实际应用中,当从类别数据库中获取不到关键分词对应的类别时,可以通过分类算法对关键分词进行分类,并将分类添加至所述类别数据库中,从而可以保证效率的同时扩大了类别数据库,有助于提高分类成功率。
步骤206,针对其中任意两个类别,分别获取属于所述两个类别的关键词对应的倒排链。
其中,每个类别包含若干关键词,每个关键词对应若干倒排链。
步骤207,获取所述两个类别中相同倒排链的数目和总数目。
可以理解,总数目不是两个类别下所有关键词对应的倒排链数目之和,首先,需要对倒排链去重,然后统计总数目。
步骤208,根据所述数目和总数目确定所述两个类别之间的相关系数。
具体地,相同倒排链的数目越大,总数目越小,则相关系数越大;相同倒排链的数目越小,总数目越大,则相关系数越小。
可选地,在本发明的另一种实施例中,所述步骤208包括子步骤2081至2082:
子步骤2081,计算所述数目和总数目的比值。
可以理解,比值的精确度可以根据实际应用场景设定。例如通常情况下,对比值的精确度通常可以保留小数点之后两位,若需要更高的精确度,或服务器计算能力较强,可以保留两位以上。
子步骤2082,根据所述比值按照预设函数关系计算得到所述两个类别之间的相关系数。
可以理解,预设函数关系式需要保持比值和相关系数的定性关系,即:比值越小,相关性越小;比值越大,相关性越大。例如,可以采用对数、指数、或线性变换函数。
在实际应用中,函数关系式可以用于对比值进行进一步限定,将相关系数的取值范围调整为合适的范围,有助于提高根据相关系数对关键分词排序的准确度。
步骤209,将所述类别之间的相关系数保存至预设存储区域。
可以理解,预设存储区域可以为内存、缓存、或外部存储器等。
本发明实施例可以将相关系数保存,从而使得其他用户或该用户在后续检索时,直接从存储区域中获取相关系数,可以减少相关系数的计算时间,提高检索速度。
步骤210,根据所述相关系数对所述关键分词进行升序排列得到关键分词队列。
具体地,排序算法可以采用冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序等。本发明实施例对排序算法不加以限制。
步骤211,按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果。
具体地,首先,从关键分词队列中获取前两个关键分词对应的倒排链,并求交得到参考倒排链;然后,再获取排序在该两个关键分词之后的一个关键分词对应的倒排链并与参考倒排链进行求交,得到更新之后的参考倒排链,如此循环,直至最后一个关键分词对应的倒排链求交结束。
本发明实施例可以按照基于相关系数的升序顺序进行倒排求交,有助于提高倒排求交的运算速度。
可选地,在本发明的另一种实施例中,所述步骤211包括子步骤2111至2115:
子步骤2111,设置标记位置为所述关键分词队列的起始位置。
可以理解,该步骤为标记位置的初始化步骤。如图3所述,在初始状态下,标记位置对应关键分词K1的位置。
子步骤2112,对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链。
如图3所示,当标记位置对应关进分词K1时,标记位置之后的关键分词为K2,此时,对K1和K2分别对应的倒排链I1和I2进行求交,得到参考倒排连。
子步骤2113,将所述标记位置向后移动一个位置。
可以理解,在初始状态时,如图3所示,标记位置对应关键分词K1,移动之后,标记位置移动至关键分词K2。
子步骤2114,将所述参考倒排链作为所述标记位置对应的关键分词对应的倒排链,并进入所述对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链的步骤。
具体地,可以将参考倒排链替换掉标记位置对应的关键分词对应的倒排链。如图3所示,当标记位置移动至关键分词K2时,将原关键分词K1和K2的倒排链求交结果(参考倒排链)作为关键分词K2的新的倒排链,此时,得到关键分词K2至关键分词K10形成的新关键分词队列,并继续求交关键分词K2和K3的倒排链。
子步骤2115,在所述标记位置为所述关键分词队列的结束位置的情况下,将所述参考倒排链作为搜索结果。
如图3所示,结束位置对应关键分词K10,从而当标记位置移动至K10时,求交结束,此时关键分词K9和K10对应的倒排链求交结果为参考倒排链,即搜索结果。
本发明实施例可以采用队列的形式控制倒排链的求交运算从相关性最小的类别开始,从而在保证求交速度的同时,可以保证准确度。
综上所述,本发明实施例提供了一种搜索请求的处理方法,所述方法包括:对目标关键词进行分词处理得到多个关键分词;获取所述关键分词对应的倒排链和类别;确定所述类别之间的相关系数;根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。可以根据相关系数进行求交运算,有助于提高检索速度。
实施例三
参照图4,其示出了本发明实施例三提供的一种搜索请求的处理装置的结构图,具体如下。
分词模块301,用于对目标关键词进行分词处理得到多个关键分词。
倒排链及类别获取模块302,用于获取所述关键分词对应的倒排链和类别。
相关系数计算模块303,用于确定所述类别之间的相关系数。
搜索结果确定模块304,用于根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。
综上所述,本发明实施例提供了一种搜索请求的处理装置,所述装置包括:分词模块,用于对目标关键词进行分词处理得到多个关键分词;倒排链及类别获取模块,用于获取所述关键分词对应的倒排链和类别;相关系数计算模块,用于确定所述类别之间的相关系数;搜索结果确定模块,用于根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。可以根据相关系数进行求交运算,有助于提高检索速度。
实施例三为方法实施例一对应的装置实施例,详细信息可以参照实施例一的详细说明,在此不再赘述。
实施例四
参照图5,其示出了本发明实施例四提供的一种搜索请求的处理装置的结构图,具体如下。
关键分词类别收集模块401,用于收集关键分词,并对所述关键分词进行分类得到类别。
类别数据库建立模块402,用于根据所述关键分词和类别建立类别数据库。
分词模块403,用于对目标关键词进行分词处理得到多个关键分词。
倒排链及类别获取模块404,用于获取所述关键分词对应的倒排链和类别;可选地,在本发明实施例中,所述倒排链及类别获取模块404包括:
倒排链获取子模块4041,用于获取所述关键分词对应的倒排链。
类别获取子模块4042,用于从所述类别数据库中获取所述关键分词对应的类别。
相关系数计算模块405,用于确定所述类别之间的相关系数;可选地,在本发明实施例中,所述相关系数计算模块405,包括:
类别倒排链获取子模块4051,用于针对其中任意两个类别,分别获取属于所述两个类别的关键词对应的倒排链。
数目统计子模块4052,用于获取所述两个类别中相同倒排链的数目和总数目。
相关系数计算子模块4053,用于根据所述数目和总数目确定所述两个类别之间的相关系数。
可选地,在本发明的另一种实施例中,所述相关系数计算子模块4053,包括:
比值计算单元,用于计算所述数目和总数目的比值。
相关系数计算单元,用于根据所述比值按照预设函数关系计算得到所述两个类别之间的相关系数。
相关系数保存模块406,用于将所述类别之间的相关系数保存至预设存储区域。
搜索结果确定模块407,用于根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果;可选地,所述搜索结果确定模块,包括:
关键分词排序子模块4071,用于根据所述相关系数对所述关键分词进行升序排列得到关键分词队列。
搜索结果生成子模块4072,用于按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果。
可选地,在本发明的另一种实施例中,所述搜索结果生成子模块4072包括:
起始位置设置单元,用于设置标记位置为所述关键分词队列的起始位置。
第一参考倒排链生成单元,用于对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链。
标记位置移动单元,用于将所述标记位置向后移动一个位置。
第二参考倒排链生成单元,用于将所述参考倒排链作为所述标记位置对应的关键分词对应的倒排链,并进入所述对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链的步骤。
搜索结果生成单元,用于在所述标记位置为所述关键分词队列的结束位置的情况下,将所述参考倒排链作为搜索结果。
综上所述,本发明实施例提供了一种搜索请求的处理装置,所述装置包括:分词模块,用于对目标关键词进行分词处理得到多个关键分词;倒排链及类别获取模块,用于获取所述关键分词对应的倒排链和类别;相关系数计算模块,用于确定所述类别之间的相关系数;搜索结果确定模块,用于根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果。可以结合加密方式、出口IP地址、服务集标识、以及子网关信息、子网掩码、域名系统,综合识别移动热点,有助于进一步提高搜索请求的处理准确度。
实施例四为方法实施例二对应的装置实施例,详细信息可以参照实施例二的详细说明,在此不再赘述。
本发明实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述的方法。
本发明实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的搜索请求的处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种搜索请求的处理方法,其特征在于,所述方法包括:
对目标关键词进行分词处理得到多个关键分词;
获取所述关键分词对应的倒排链和类别;
确定所述类别之间的相关系数;
根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果;
所述根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果的步骤,包括:
根据所述相关系数对所述关键分词进行升序排列得到关键分词队列;
按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果;
其中,所述确定所述类别之间的相关系数的步骤,包括:
针对其中任意两个类别,分别获取属于所述两个类别的关键词对应的倒排链;
获取所述两个类别中相同倒排链的数目和总数目;
根据所述数目和总数目确定所述两个类别之间的相关系数。
2.根据权利要求1所述的方法,其特征在于,所述按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果的步骤,包括:
设置标记位置为所述关键分词队列的起始位置;
对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链;
将所述标记位置向后移动一个位置;
将所述参考倒排链作为所述标记位置对应的关键分词对应的倒排链,并进入所述对所述标记位置对应的关键分词和所述标记位置之后的一个关键分词对应的倒排链进行求交运算,得到参考倒排链的步骤;
在所述标记位置为所述关键分词队列的结束位置的情况下,将所述参考倒排链作为搜索结果。
3.根据权利要求1至2中任一项所述的方法,其特征在于,在所述对目标关键词进行分词处理得到多个关键分词的步骤之前,所述方法还包括:
收集关键分词,并对所述关键分词进行分类得到类别;
根据所述关键分词和类别建立类别数据库;
所述获取所述关键分词对应的倒排链和类别的步骤,包括:
获取所述关键分词对应的倒排链;
从所述类别数据库中获取所述关键分词对应的类别。
4.根据权利要求1所述的方法,其特征在于,所述根据所述数目和总数目确定所述两个类别之间的相关系数的步骤,包括:
计算所述数目和总数目的比值;
根据所述比值按照预设函数关系计算得到所述两个类别之间的相关系数。
5.根据权利要求1至2中任一项所述的方法,其特征在于,所述确定所述类别之间的相关系数的步骤之后,所述方法还包括:
将所述类别之间的相关系数保存至预设存储区域。
6.一种搜索请求的处理装置,其特征在于,所述装置包括:
分词模块,用于对目标关键词进行分词处理得到多个关键分词;
倒排链及类别获取模块,用于获取所述关键分词对应的倒排链和类别;
相关系数计算模块,用于确定所述类别之间的相关系数;
搜索结果确定模块,用于根据所述相关系数对所述关键分词对应的倒排链进行求交运算,得到搜索结果;
所述搜索结果确定模块,包括:
关键分词排序子模块,用于根据所述相关系数对所述关键分词进行升序排列得到关键分词队列;
搜索结果生成子模块,用于按照顺序对所述关键分词队列中相邻的两个关键分词对应的倒排链进行求交运算得到搜索结果;
其中,所述相关系数计算模块,还用于:
针对其中任意两个类别,分别获取属于所述两个类别的关键词对应的倒排链;
获取所述两个类别中相同倒排链的数目和总数目;
根据所述数目和总数目确定所述两个类别之间的相关系数。
7.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任意一项 所述的方法。
8.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任意一项 所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910205513.9A CN110083679B (zh) | 2019-03-18 | 2019-03-18 | 搜索请求的处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910205513.9A CN110083679B (zh) | 2019-03-18 | 2019-03-18 | 搜索请求的处理方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083679A CN110083679A (zh) | 2019-08-02 |
CN110083679B true CN110083679B (zh) | 2020-08-18 |
Family
ID=67413241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910205513.9A Active CN110083679B (zh) | 2019-03-18 | 2019-03-18 | 搜索请求的处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083679B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1609859A (zh) * | 2004-11-26 | 2005-04-27 | 孙斌 | 搜索结果聚类的方法 |
US9424351B2 (en) * | 2010-11-22 | 2016-08-23 | Microsoft Technology Licensing, Llc | Hybrid-distribution model for search engine indexes |
CN102136011A (zh) * | 2011-05-09 | 2011-07-27 | 南开大学 | 倒排索引求交方法 |
CN109388690A (zh) * | 2017-08-10 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 文本检索方法、用于文本检索的倒排表生成方法以及系统 |
CN107577752B (zh) * | 2017-08-31 | 2019-11-08 | 北京印刷学院 | 一种基于关键字的xml检索排序处理系统及方法 |
-
2019
- 2019-03-18 CN CN201910205513.9A patent/CN110083679B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110083679A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241241B (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
CN107102981B (zh) | 词向量生成方法和装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN104199965B (zh) | 一种语义信息检索方法 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN109522465A (zh) | 基于知识图谱的语义搜索方法及装置 | |
WO2021052148A1 (zh) | 基于人工智能的合同敏感词校验方法、装置、计算机设备及存储介质 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
JP2022073981A (ja) | ソースコード取得 | |
CN111090771B (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN109388634B (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
CN116431837B (zh) | 基于大型语言模型和图网络模型的文档检索方法和装置 | |
CN110990533A (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN114090746B (zh) | 一种基于知识图谱的答案查询方法、装置及电子设备 | |
CN110377684A (zh) | 一种基于用户反馈的空间关键字个性化语义查询方法 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110727769A (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN111259126A (zh) | 基于词语特征的相似度计算方法、装置、设备及存储介质 | |
JP7121819B2 (ja) | 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |