CN115827990A - 搜索方法及装置 - Google Patents
搜索方法及装置 Download PDFInfo
- Publication number
- CN115827990A CN115827990A CN202310147779.9A CN202310147779A CN115827990A CN 115827990 A CN115827990 A CN 115827990A CN 202310147779 A CN202310147779 A CN 202310147779A CN 115827990 A CN115827990 A CN 115827990A
- Authority
- CN
- China
- Prior art keywords
- search
- search result
- content
- value
- search content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 239000013598 vector Substances 0.000 claims description 121
- 238000012549 training Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了一种搜索方法及装置,根据用户输入的搜索内容从多个数据库中进行搜索得到若干个搜索结果之后,首先计算每个搜索结果与搜索内容的文本相似度值,再计算每个搜索结果与搜索内容的推荐相关度值,对每个搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值得到最终相关度值之后,按照最终相关度值的大小降序排序后显示,并非直接将从每个数据库中得到的搜索结果进行合并,既考虑到搜索结果与搜索内容的文本相似度,又考虑到与搜索内容的相关程度,将两者结合得到最终相关度值,最终相关度值越高的搜索结果,与用户的真实意图越匹配,使得按照最终相关度值降序排序显示的搜索结果更加准确,更加匹配用户的真实意图。
Description
技术领域
本申请涉及互联网技术领域,更具体地说,涉及一种搜索方法及装置。
背景技术
随着网络技术和应用的不断发展,特别是大数据、云计算、人工智能等的出现和应用,互联网迎来了加速裂变式的新一轮革命,促使社会各方面发生颠覆性变化。随着互联网与现代社会的深度融合,用户对于数据搜索的需求越来越多,相关数据经常被存储到多个数据库中,当涉及到将数据存储到多个数据库中时,现有的搜索方法根据用户输入的搜索内容在多个数据库中获取搜索结果,并将在多个数据库中获取的多个搜索结果直接合并,并返回给用户,然而,若每个数据库所使用的搜索算法或排序规则不相同,对同一搜索内容的排序会存在偏差,若直接将多个搜索结果进行合并,则会造成最终显示的搜索结果排序混乱,不准确的问题,最终的排序结果无法匹配用户的真正意图。
发明内容
有鉴于此,本申请提供了一种搜索方法及装置,用于解决现有搜索方式,直接将从多个数据库中获取的搜索结果合并造成最终显示的搜索结果排序混乱,不准确、无法匹配用户的真正意图的问题。
为了实现上述目的,现提出的方案如下:
一种搜索方法,包括:
获取目标用户输入的搜索内容;
根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果;
计算所述搜索内容与每个所述搜索结果的文本相似度值;
计算所述搜索内容与每个所述搜索结果的推荐相关度值,所述推荐相关度值为用来表征所述搜索内容与每个所述搜索结果的相关程度的值,所述推荐相关度值越大代表相关程度越高;
对每个所述搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值,得到每个所述搜索结果对应的最终相关度值;
根据每个所述搜索结果对应的最终相关度值的大小对每个所述搜索结果降序排序,并显示排序后的每个所述搜索结果。
优选地,计算所述搜索内容与每个所述搜索结果的文本相似度值之前,还包括:
将所述搜索内容向量化,得到所述搜索内容对应的向量;
分别将每个所述搜索结果向量化,得到每个所述搜索结果对应的向量;
计算所述搜索内容与每个所述搜索结果的文本相似度值,包括:
根据所述搜索内容对应的向量及每个所述搜索结果对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
优选地,根据所述搜索内容对应的向量及每个所述搜索结果对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值,包括:
分别计算所述搜索内容对应的向量与每个所述搜索结果对应的向量的夹角的余弦值,得到所述搜索内容与每个所述搜索结果的文本相似度值。
优选地,计算所述搜索内容与每个所述搜索结果的文本相似度值之前,还包括:
获取所述搜索内容的关键词及每个所述搜索结果的关键词;
计算所述搜索内容与每个所述搜索结果的文本相似度值,包括:
根据所述搜索内容的关键词对应的向量及每个所述搜索结果的关键词对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
优选地,获取所述搜索内容的关键词及每个所述搜索结果的关键词之前,还包括:
分别将所述搜索内容及每个所述搜索结果向量化,得到所述搜索内容对应的向量及每个所述搜索结果对应的向量;
分别对所述搜索内容及每个所述搜索结果分词,得到所述搜索内容对应的第一词序列及每个所述搜索结果对应的第二词序列;
分别将所述第一词序列中的每个名词及各所述第二词序列中的每个名词向量化,得到所述第一词序列中的每个名词对应的向量及各所述第二词序列中的每个名词对应的向量;
分别计算所述第一词序列中的每个名词对应的向量与所述搜索内容对应的向量的夹角的余弦值,得到所述第一词序列中的每个名词与所述搜索内容的相似度值;
分别计算各所述搜索结果对应的向量与其对应的所述第二词序列中的每个名词对应的向量的夹角的余弦值,得到各所述搜索结果与其对应的所述第二词序列中的每个名词的相似度值;
获取所述搜索内容的关键词及每个所述搜索结果的关键词,包括:
将所述第一词序列中与所述搜索内容相似度值最高的名词作为所述搜索内容的关键词,将每个所述第二词序列中与其对应的搜索结果相似度值最高的名词作为其对应的搜索结果的关键词。
优选地,计算所述搜索内容与每个所述搜索结果的推荐相关度值,包括:
将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值,所述相关性识别模型为预先以训练搜索内容与训练搜索结果作为训练样本,以训练搜索内容与训练搜索结果是否相关作为样本标签训练得到。
优选地,将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值之前,还包括:
获取与所述目标用户相似的用户集合;
将所有所述搜索结果中被所述目标用户操作过的或没有被所述用户集合中的用户操作过的搜索结果组合成低推荐搜索结果集合;
对所述低推荐搜索结果集合中的所有搜索结果赋予预设的低推荐相关度值;
将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值,包括:
将所述搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果的推荐相关度值。
优选地,所述获取与所述目标用户相似的用户集合之前,还包括:
获取所述目标用户当前时刻之前操作过的第一搜索结果集合;
获取预设的用户群体中每个用户当前时刻之前操作过的第二搜索结果集合;
计算所述第一搜索结果集合与每个所述第二搜索结果集合之间的相似度值,得到所述目标用户与每个所述用户之间的兴趣相似度值;
所述获取与所述目标用户相似的用户集合,包括:
将所述用户群体中所述兴趣相似度值达到预设的兴趣相似度阈值的用户组合成与所述目标用户相似的用户集合。
优选地,所述获取与所述目标用户相似的用户集合之前,还包括:
获取所述目标用户的基本信息及当前时刻之前操作过的第一搜索结果集合,得到第一信息集合;
获取预设的用户群体中每个用户的基本信息及当前时刻之前操作过的第二搜索结果集合,得到第二信息集合;
计算所述第一信息集合与每个所述第二信息集合之间的相似度值,得到所述目标用户与每个所述用户之间的信息相似度值;
所述获取与所述目标用户相似的用户集合,包括:
将所述用户群体中所述信息相似度值达到预设的信息相似度阈值的用户组合成与所述目标用户相似的用户集合。
优选地,根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果,包括:
通过采用I/O多路复用技术根据所述搜索内容同时从预设的多个数据库中进行搜索,得到若干个搜索结果。
一种搜索装置,包括:
搜索内容获取单元,用于获取目标用户输入的搜索内容;
搜索单元,用于根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果;
文本相似度值计算单元,用于计算所述搜索内容与每个所述搜索结果的文本相似度值;
推荐相关度值计算单元,用于计算所述搜索内容与每个所述搜索结果的
推荐相关度值,所述推荐相关度值为用来表征所述搜索内容与每个所述搜索
结果的相关程度的值,所述推荐相关度值越大代表相关程度越高;
最终相关度值获取单元,用于对每个所述搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值,得到每个所述搜索结果对应的最终相关度值;
排序显示单元,用于根据每个所述搜索结果对应的最终相关度值的大小对每个所述搜索结果降序排序,并显示排序后的每个所述搜索结果。
从上述的技术方案可以看出,本申请实施例提供的搜索方法,根据用户输入的搜索内容从多个数据库中进行搜索得到若干个搜索结果之后,并非直接将从每个数据库中得到的搜索结果进行合并,而是首先计算每个搜索结果与搜索内容的文本相似度值,再计算每个搜索结果与搜索内容的推荐相关度值,对每个搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值得到最终相关度值之后,按照最终相关度值的大小降序排序后显示,不仅考虑到搜索结果与搜索内容的文本相似度,还考虑到与搜索内容的相关程度,将两者结合得到最终相关度值,最终相关度值越高的搜索结果,与用户的真实意图越匹配,使得按照最终相关度值降序排序显示的搜索结果更加准确,更加匹配用户的真实意图。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种搜索方法流程图;
图2为本申请实施例公开的一种可选的获取与目标用户相似的用户集合的方法流程图;
图3为本申请实施例公开的另一种可选的获取与目标用户相似的用户集合的方法流程图;
图4为本申请实施例公开的又一种可选的获取与目标用户相似的用户集合的方法流程图;
图5为本申请实施例公开的一种搜索装置结构示意图;
图6为本申请实施例公开的一种搜索设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了基于将数据存储到多个数据库场景下的搜索方法,可以适用于各种类型的数据库,示例如各种关系型数据库,如Mysql,SqlServer等,各种非关系型数据库,如MongoDB、Redis等,同时适用于部署在单独的物理区域的多个数据库以及部署在同一物理区域的多个数据库。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是电脑、服务器、云端等。
本申请实施例提供了一种搜索方案,接下来通过附图1对本申请的搜索方法进行说明,如图1所示,该方法可以包括:
步骤S100、获取目标用户输入的搜索内容。
具体的,本申请实施例可以提供给用户搜索内容的输入界面,以供用户使用客户端在界面中输入搜索内容,结合具体的搜索场景进行说明,以在国家电网数据库中进行搜索为例,用户输入的搜索内容可以为文本,该文本可以是技术标准、设备故障原因等等。
步骤S110、根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果。
具体的,由于本申请实施例将数据存储到多个数据库中,所以获取到目标用户输入的搜索内容之后,会根据目标用户输入的搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果,结合具体的搜索场景进行说明,以在国家电网数据库中进行搜索为例,国家电网将数据分别存储到总部数据库和省侧数据库中,其中总部数据库存储共性知识,示例如技术标准、通用制度等,省侧数据库存储个性知识,示例如故障案例、试验报告等,并且总部数据库和省侧数据库部署在单独的物理区域,在物理层面完全隔离,当获取到目标用户输入的搜索内容时,会根据该搜索内容从总部数据库以及省侧
数据库中进行搜索,得到若干个搜索结果。
步骤S120、计算所述搜索内容与每个所述搜索结果的文本相似度值。
具体的,本申请实施例发现在从多个数据库中搜索到若干个搜索结果之后,若直接将得到的多个搜索结果合并,则可能会造成排序混乱,不准确的问题,使得最终的排序结果无法匹配用户的真正意图,基于此,本申请实施例首先计算搜索内容与每个搜索结果之间的文本相似度值,达到对目标用户输入的搜索内容的语义识别,搜索结果与搜索内容文本相似度值越高,代表越符合搜索内容的语义。
步骤S130、计算所述搜索内容与每个所述搜索结果的推荐相关度值。
其中,所述推荐相关度值为用来表征所述搜索内容与每个所述搜索结果的相关程度的值,所述推荐相关度值越大代表相关程度越高。
具体的,本申请实施例发现文本相似度值越高并不能代表与目标用户的真实意图越匹配,可能出现某搜索结果与目标用户的搜索内容的文本相似度值高,但与搜索内容的相关性差的情况,所以为了使最终排序后的搜索结果更加准确,本申请实施例在计算得到搜索内容与每个搜索结果的文本相似度值之后,还考虑到搜索内容与每个搜索结果的相关程度,搜索结果与搜索内容相关程度越高,越是目标用户想要的搜索结果,为了更好的比较不同搜索结果与搜索内容的相关程度,本申请实施例计算搜索内容与每个搜索结果的推荐相关度值来表征与每个搜索结果的相关程度。
步骤S140、对每个所述搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值,得到每个所述搜索结果对应的最终相关度值。
具体的,计算得出搜索内容与每个搜索结果之间的文本相似度值与推荐相关度值之后,将两者结合,综合考虑文本相似度与推荐相关度,本申请实施例为文本相似度值与推荐相关度值预设了相应的权重,对每个搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值,得到每个搜索结果对应的最终相关度值,最终相关度值越高,代表与目标用户的真实意图越匹配。
步骤S150、根据每个所述搜索结果对应的最终相关度值的大小对每个所述搜索结果降序排序,并显示排序后的每个所述搜索结果。
具体的,搜索结果对应的最终相关度值代表了与目标用户真实意图的匹配程度,最终相关度值越高,与目标用户的真实意图越匹配,所以根据每个搜索结果对应的最终相关度值的大小对每个所述搜索结果降序排序,并显示排序后的每个所述搜索结果,显示的越靠前的搜索结果越符合用户意图,使得最终显示的搜索结果更加准确。
本申请实施例提供的搜索方法,根据用户输入的搜索内容从多个数据库中进行搜索得到若干个搜索结果之后,并非直接将从每个数据库中得到的搜索结果进行合并,而是首先计算每个搜索结果与搜索内容的文本相似度值,再计算每个搜索结果与搜索内容的推荐相关度值,对每个搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值得到最终相关度值之后,按照最终相关度值的大小降序排序后显示,不仅考虑到搜索结果与搜索内容的文本相似度,还考虑到与搜索内容的相关程度,将两者结合得到最终相关度值,最终相关度值越高的搜索结果,与用户的真实意图越匹配,使得按照最终相关度值降序排序显示的搜索结果更加准确,更加匹配用户的真实意图。
本申请的一些实施例中,对上述步骤S110根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果的过程进行介绍,该过程可以包括:
通过采用I/O多路复用技术根据所述搜索内容同时从预设的多个数据库中进行搜索,得到若干个搜索结果。
具体的,本申请实施例发现I/O多路复用技术可以使得系统在单线程的情况下同时处理多个任务请求,并且与传统的多线程模型比,I/O多路复用技术使得系统不需要创建额外进程或者线程,也不需要维护这些进程或线程的运行,所以通过I/O多路复用技术根据所述搜索内容同时从预设的多个数据库中进行搜索。
本申请实施例由于采用I/O多路复用技术根据所述搜索内容同时从预设的多个数据库中进行搜索,节省了搜索时间,减少了搜索实现的成本,提高了搜索效率。
可选的,本申请实施例示例了两种实现上述步骤S120计算搜索内容与每个所述搜索结果的文本相似度值的方法,分别如下:
第一种:
将所述搜索内容向量化,得到所述搜索内容对应的向量。
具体的,本申请实施例发现文本向量化是文本表示的一种重要方式,问文本向量化是指将文本嵌入到向量空间中,将文本表示成一系列能够表达文本语义的向量,所以为了方便计算,本申请实施例首先将搜索内容向量化,得到搜索内容对应的向量,将搜索内容表示成能够表达搜索内容语义的向量。
分别将每个所述搜索结果向量化,得到每个所述搜索结果对应的向量。
具体的,在得到搜索内容对应的向量后,还需将每个搜索结果向量化,得到每个搜索结果对应的向量,将其表示成能够表达其语义的向量。
可选的,可以利用词袋模型、BERT预训练语言模型等将搜索内容以及每个搜索结果向量化。
根据所述搜索内容对应的向量及每个所述搜索结果对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
具体的,在向量空间中,有相同含义的文本对应的向量的位置是非常接近的,所以可以根据搜索内容对应的向量及每个搜索结果对应的向量计算搜索内容与每个搜索结果的文本相似度值。
可选的,可以通过分别计算所述搜索内容对应的向量与每个所述搜索结果对应的向量的夹角的余弦值,得到所述搜索内容与每个所述搜索结果的文本相似度值。
具体的,本申请实施例发现可以通过计算两个向量的夹角的余弦值来评估两者的相似度,两个向量的夹角的余弦值越大,代表两个向量的夹角越小,说明这两个向量越接近,相应的,这两个向量表示的两段文本越接近,相似度也越高,所以将计算得到的搜索内容对应的向量与每个搜索结果对应的向量的夹角的余弦值作为该搜索内容与每个搜索结果的文本相似度值。
本申请实施例考虑到终端只能进行数值计算,所以根据搜索内容对应的向量及每个搜索结果对应的向量计算搜索内容与每个搜索结果的文本相似度值,将高维的语义空间的文本抽象为数学空间的向量,从而站在数学角度去量化其相似性,便于终端计算,并且通过搜索内容与每个搜索结果对应的向量来计算文本相似度值的方式可以使最终得到的文本相似度值更加准确。
第二种:
获取所述搜索内容的关键词及每个所述搜索结果的关键词。
具体的,本申请实施例发现一段文本中的关键词即可代表这段文本的语义,所以获取搜索内容的关键词及每个搜索结果的关键词,通过比较搜索内容及搜索结果的关键词的相似度来得出搜索内容及搜索结果之间的文本相似度值。
其中,可以将最能代表搜索内容的词作为搜索内容的关键词,将最能代表搜索结果的词作为搜索结果的关键词,还可以将搜索内容中满足一定预设条件的词作为搜索内容的关键词,将搜索结果中满足一定预设条件的词作为搜索内容的关键词。
根据所述搜索内容的关键词对应的向量及每个所述搜索结果的关键词对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
具体的,在得到搜索内容的关键词及每个搜索结果的关键词之后,可以将搜索内容的关键词向量化,得到搜索内容的关键词对应的向量,将每个搜索结果的关键词向量化,得到每个搜索结果的关键词对应的向量,根据搜索内容的关键词对应的向量及每个搜索结果的关键词对应的向量计算搜索内容与每个搜索结果的文本相似度。
可选的,可以通过计算所述搜索内容的关键词对应的向量与每个所述搜索结果的关键词对应的向量的夹角的余弦值,得到所述搜索内容与每个所述搜索结果的文本相似度值。
其中,获取的搜索内容及每个搜索结果的关键词均可能为1个,也可能均为多个,当搜索内容的关键词及每个搜索结果的关键词均为1个时,那么只需要计算搜索内容的一个关键词对应的向量与每个搜索结果的一个关键词对应的向量的夹角的余弦值,将得到的余弦值直接作为相应的文本相似度值,可选的,当搜索内容或搜索结果的关键词不唯一时,可以计算搜索内容的每个关键词对应的向量与搜索结果的每个关键词对应的向量的夹角的余弦值,最后将余弦值取平均值,得到相应的的文本相似度值。
本申请实施例获取能够代表搜索内容及搜索结果的关键词,根据搜索内容的关键词对应的向量及每个搜索结果的关键词对应的向量计算搜索内容与每个搜索结果的文本相似度值,用重要部分代替整体,减少了计算量。
本申请实施例示例了一种可选的实现上述获取搜索内容的关键词及每个所述搜索结果的关键词的方法,该方法可以包括:
分别将所述搜索内容及每个所述搜索结果向量化,得到所述搜索内容对应的向量及每个所述搜索结果对应的向量。
分别对所述搜索内容及每个所述搜索结果分词,得到所述搜索内容对应的第一词序列及每个所述搜索结果对应的第二词序列。
具体的,分词是指将句子、段落等长文本分解为以字词为单位的数据结构,示例如,将“北京哪里有好玩的游乐场”分解为“北京、哪里、有、好玩的、游乐场”,为了获取搜索内容及搜索结果的关键词,可以首先对搜索内容及每个搜索结果进行分词,得到搜索内容对应的第一词序列及每个搜索结果对应的第二词序列,再从第一词序列中获取能够代表搜索内容的关键词,从第二词序列中获取能够代表搜索结果的关键词。
可选的,可以使用开源工具分词LTP对搜索内容及每个搜索结果进行分词,为了提高分词的准确性,本申请实施例还预先构建了包含现有的各种字词的词库,当对搜索内容及每个搜索结果进行分词时,在该词库中进行匹配,将在该词库中匹配得到的词作为相应的词序列中的词。
分别将所述第一词序列中的每个名词及各所述第二词序列中的每个名词向量化,得到所述第一词序列中的每个名词对应的向量及各所述第二词序列中的每个名词对应的向量。
具体的,本申请实施例发现一段文本中的名词最能够体现这段文本的语义,所以将第一词序列中的每个名词及各第二词序列中的每个名词向量化,得到第一词序列中的每个名词对应的向量及各第二词序列中的每个名词对应的向量,以便可以通过比较搜索内容中的每个名词对应的向量与搜索内容的向量之间的关系来得出搜索内容的关键词,通过比较各搜索结果中的每个名词的向量与其对应的搜索结果的向量之间的关系来得出各搜索结果的关键词。
可选的,为了准确地查找到上述词序列中的名词,可以对上述词序列中的每个词标注一个词性类别,该词性类别可能是名词、动词、形容词等等。
分别计算所述第一词序列中的每个名词对应的向量与所述搜索内容对应的向量的夹角的余弦值,得到所述第一词序列中的每个名词与所述搜索内容的相似度值。
分别计算各所述搜索结果对应的向量与其对应的所述第二词序列中的每个名词对应的向量的夹角的余弦值,得到各所述搜索结果与其对应的所述第二词序列中的每个名词的相似度值。
具体的,由于在向量空间中,两个向量的夹角越小,说明这两个向量越接近,这两个向量表示的两段文本越接近,相似度也越高,所以计算第一词序列中的每个名词对应的向量与搜索内容对应的向量的夹角的余弦值,将得到的余弦值作为该名词与搜索内容的相似度值,计算搜索结果对应的向量与其对应的第二词序列中每个名词对应的向量的夹角的余弦值,将得到的余弦值作为搜索结果与其对应的第二词序列中的名词的相似度值。
将所述第一词序列中与所述搜索内容相似度值最高的名词作为所述搜索内容的关键词,将每个所述第二词序列中与其对应的搜索结果相似度值最高的名词作为其对应的搜索结果的关键词。
具体的,一段文本中与该文本相似度值最高的词最能够代表该文本的语义,所以将第一词序列中与搜索内容相似度值最高的作为该搜索内容的关键词,将每个第二词序列中与其对应的搜索结果相似度值最高的名词作为其对应的搜索结果的关键词。
可选的,除了选取相似度值最高的名词之外,还可以预先设定相似度阈值,将第一词序列中与搜索内容相似度值达到该相似度阈值的名词作为搜索内容的关键词,同样,将每个第二词序列中与其对应的搜索结果的相似度值达到相似度阈值的名词作为其对应的搜索结果的关键词。
本申请实施例考虑到一段文本中的名词最能够体现这段文本的语义,所以只选取搜索内容中的名词与搜索内容比较相似度,将相似度值高的名词作为搜索内容的关键词,搜索结果的关键词的获取亦是如此,既准确地获取到了搜索内容及搜索结果地关键词,又减少了计算量。
本申请实施例示例了一种可选的实现上述步骤S130计算搜索内容与每个所述搜索结果的推荐相关度值的方法,该方法可以包括:
将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值。
其中,相关性识别模型为预先以训练搜索内容与训练搜索结果作为训练样本,以训练搜索内容与训练搜索结果是否相关作为样本标签训练得到,该相关性识别模型可以包括:
二分类神经网络,用于接收输入的所述搜索内容与每个所述搜索结果,得到相关类别的输出值与不相关类别的输出值;
softmax层或sigmoid层,用于接收上述二分类神经网络输出的相关类别的输出值与不相关类别的输出值,使用softmax函数或sigmoid函数将相关类别的输出值映射到0至1的连续区间中,得到输入上述二分类神经网络的搜索结果对应的推荐相关度值。
本申请实施例将搜索内容与每个搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到搜索内容与每个搜索结果的推荐相关度值,而该相关性识别模型是预先以训练搜索内容与训练搜索结果作为训练样本,以训练搜索内容与训练搜索结果是否相关作为样本标签反复训练得到,并在训练时对神经网络的参数进行训练调整,使得最终得到的搜索内容与每个搜索结果的推荐相关度值十分准确。
本申请实施例发现,相似的用户之间对同一搜索结果感兴趣的概率会很大,基于此,在上述将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值之前,还可以包括:
获取与所述目标用户相似的用户集合。
具体的,由于相似的用户喜欢同一搜索结果的概率会很大,所以可以首先获取与目标用户相似的用户集合。
将所有所述搜索结果中被所述目标用户操作过的或没有被所述用户集合中的用户操作过的搜索结果组合成低推荐搜索结果集合。
具体的,若某项搜索结果曾经被目标用户操作过,而根据目标用户输入的搜索内容再次搜索得到了该搜索结果,说明该搜索结果与目标用户的真实意图匹配度并不高,以至于类似的搜索内容被目标用户不止一次的搜索过,所以将所有搜索结果中被目标用户操作过的搜索结果加入低推荐搜索结果集合,若某些搜索结果没有被上述用户集合中的用户操作过的,说明这些用户并不喜欢这些搜索结果,相应的,与这些用户相似的目标用户可能也不会喜欢这些搜索结果,所以也将所有搜索结果中没有被上述用户集合中的用户操作过的搜索结果组合成低推荐搜索结果集合。
其中,被用户操作过可以指被用户收藏、浏览时长达到预设时长、转发、点赞等等。
对所述低推荐搜索结果集合中的所有搜索结果赋予预设的低推荐相关度值。
具体的,低推荐搜索结果集合中的搜索结果均为目标用户大概率不喜欢的搜索结果,或者说不适合目标用户,与目标用户的意图相对来说匹配度较低,所以可以直接对低推荐搜索结果集合中的所有搜索结果均赋予预设的低推荐相关度值。
其中,低推荐相关度值可以设置为0,还可以设置为例如0.001、0.002等较低的值。
基于此,对上述将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值的过程进一步介绍,可以包括:
将搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果分别一一对应输入上述相关性识别模型,分别得到所述搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果的推荐相关度值。
具体的,在所有搜索结果中除了低推荐搜索结果集合中的搜索结果之外的搜索结果,均为与目标用户的搜索内容相关性较高的搜索结果,为了度量这些相关性较高的搜索结果的推荐相关度,可以将搜索内容与这些搜索结果分别一一对应输入上述相关性识别模型,分别得到搜索内容与这些搜索结果的推荐相关度值。
本申请实施例考虑到相似的用户之间对同一搜索结果感兴趣的概率会很大,所以所有搜索结果中被目标用户操作过的或没有被与目标相似的用户操作过的搜索结果均为与目标用户真实意图匹配度较低的结果,直接将这些搜索结果赋予预设的低推荐相关度值,再将剩下的搜索结果输入相关性识别模型得到推荐相关度值,使得最终赋予所有搜索结果的推荐相关度值更加准确。
可选的,本申请实施例发现上述获取的与目标用户相似的用户集合可以为与目标用户兴趣相似的用户集合,若两个用户之间兴趣相似,那么这两个用户对同一搜索结果感兴趣的概率也会很大,基于此,本申请实施例提供了一种可选实现上述获取与所述目标用户相似的用户集合的方法,如图2所示,该方法可以包括:
步骤S200、获取所述目标用户当前时刻之前操作过的第一搜索结果集合。
步骤S210、获取预设的用户群体中每个用户当前时刻之前操作过的第二搜索结果集合。
具体的,与目标用户相似的用户集合可以为与目标用户兴趣相似的用户集合,为了找到与目标用户兴趣相似的用户集合,可以获取目标用户当前时刻之前操作过的第一搜索结果集合,获取预设的用户群体中每个用户当前时刻之前操作过的第二搜索结果集合,通过比较曾经操作过的搜索结果来比较
用户之间的兴趣相似度。
步骤S220、计算所述第一搜索结果集合与每个所述第二搜索结果集合之间的相似度值,得到所述目标用户与每个所述用户之间的兴趣相似度值。
具体的,由于第一搜索结果集合与某一第二搜索结果集合越相似,第一搜索结果集合对应的目标用户与第二搜索结果集合对应的用户的兴趣相似度也越高,所以可以通过计算上述第一搜索结果集合与每个第二搜索结果集合之间的相似度值来得到目标用户与每个用户之间的兴趣相似度值。
可选的,可以通过余弦相似度、皮尔逊相关系数、杰卡德相似度等算法计算第一搜索结果集合与每个第二搜索结果集合之间的相似度值,得到目标用户与每个用户之间的兴趣相似度值。
步骤S230、将所述用户群体中所述兴趣相似度值达到预设的兴趣相似度阈值的用户组合成与所述目标用户相似的用户集合。
具体的,可以预先设定一个兴趣相似度阈值,将用户群体中兴趣相似度值达到该兴趣相似度阈值的用户组合成与目标用户相似的用户集合。
本申请实施例将与目标用户兴趣相似的用户作为与目标用户相似的用户,考虑到若两个用户之间兴趣相似,那么这两个用户对同一搜索结果感兴趣的概率也会很大,使得最终赋予所有搜索结果的推荐相关度值更加准确。
可选的,本申请实施例发现上述获取的与目标用户相似的用户集合还可以为与目标用户基本信息相似的用户集合,若两个用户之间的基本信息相似,示例如,两个人的岗位、专业、特长等类似,那么这两个用户对同一搜索结果感兴趣的概率也会很大,基于此,本申请实施例提供了另一种可选的实现
上述获取与所述目标用户相似的用户集合的方法,如图3所示,该方法可以包括:
步骤S300、获取所述目标用户的基本信息,得到第一基本信息集合。
步骤S310、获取预设的用户群体中每个用户的基本信息,得到第二基本信息集合。
其中,基本信息可以为用户岗位、所处专业、技术特长、所在公司、所在班组、工作时间等个人信息。
步骤S320、计算所述第一基本信息集合与每个所述第二基本信息集合之间的相似度值,得到所述目标用户与每个所述用户之间的基本信息相似度值。
步骤S330、将所述用户群体中基本信息相似度值达到预设的基本信息相似度阈值的用户组合成与所述目标用户相似的用户集合。
上述步骤S300-S330与前述实施例中步骤S200-230类似,区别仅在于上述步骤S200-230的处理的对象为各用户当前时刻之间操作过的搜索结果集合,上述步骤S300-S330的处理的对象为各用户的基本信息集合,详细参照前述介绍,此处不再赘述。
本申请实施例将与目标用户基本信息相似的用户作为与目标用户相似的用户,考虑到若两个用户之间基本信息相似,那么这两个用户对同一搜索结果感兴趣的概率也会很大,同样使得最终赋予所有搜索结果的推荐相关度值更加准确。
可选的,本申请实施例发现上述获取的与目标用户相似的用户集合还可以为与目标用户的基本信息与兴趣均相似的用户集合,若两个用户之间的基本信息与兴趣均相似,那么这两个用户对同一搜索结果感兴趣的概率也会很大,基于此,本申请实施例提供了又一种可选的实现上述获取与所述目标用户相似的用户集合的方法,如图4所示,该方法包括:
步骤S400、获取所述目标用户的基本信息及当前时刻之前操作过的第一搜索结果集合,得到第一信息集合。
步骤S410、获取预设的用户群体中每个用户的基本信息及当前时刻之前操作过的第二搜索结果集合,得到第二信息集合。
步骤S420、计算所述第一信息集合与每个所述第二信息集合之间的相似度值,得到所述目标用户与每个所述用户之间的信息相似度值。
步骤S430、将所述用户群体中所述信息相似度值达到预设的信息相似度阈值的用户组合成与所述目标用户相似的用户集合。
上述步骤S300-S330与前述实施例中步骤S200-230类似,区别仅在于上述步骤S200-230的处理的对象为各用户当前时刻之间操作过的搜索结果集合,上述步骤S300-S330的处理的对象为将各用户的基本信息集合与当前时刻操作过的搜索结果组合成的信息集合,详细参照前述介绍,此处不再赘述。
本申请实施例不仅考虑到与目标用户之间的兴趣相似度,还考虑到了与目标用户之间的基本信息相似度,将两者结合成信息相似度,将与目标用户信息相似的用户作为与目标用户相似的用户,使得最终赋予所有搜索结果的推荐相关度值更加准确。
下面对本申请实施例提供的搜索装置进行描述,下文描述的搜索装置与上文描述的搜索方法可相互对应参照。
首先,结合图5,对搜索装置进行介绍,如图5所示,该搜索装置可以包括:
搜索内容获取单元10,用于获取目标用户输入的搜索内容。
搜索单元20,用于根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果。
文本相似度值计算单元30,用于计算所述搜索内容与每个所述搜索结果的文本相似度值。
推荐相关度值计算单元40,用于计算所述搜索内容与每个所述搜索结果的推荐相关度值,所述推荐相关度值为用来表征所述搜索内容与每个所述搜索结果的相关程度的值,所述推荐相关度值越大代表相关程度越高。
最终相关度值获取单元50,用于对每个所述搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值,得到每个所述搜索结果对应的最终相关度值。
排序显示单元60,用于根据每个所述搜索结果对应的最终相关度值的大小对每个所述搜索结果降序排序,并显示排序后的每个所述搜索结果。
可选的,所述搜索装置,还可以包括:
第一向量化单元,用于将所述搜索内容向量化,得到所述搜索内容对应的向量;
第二向量化单元,用于分别将每个所述搜索结果向量化,得到每个所述搜索结果对应的向量;
基于此,所述文本相似度值计算单元计算所述搜索内容与每个所述搜索结果的文本相似度值的过程,可以包括:
根据所述搜索内容对应的向量及每个所述搜索结果对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
基于此,根据所述搜索内容对应的向量及每个所述搜索结果对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值的过程,可以包括:
分别计算所述搜索内容对应的向量与每个所述搜索结果对应的向量的夹
角的余弦值,得到所述搜索内容与每个所述搜索结果的文本相似度值。
可选的,所述搜索装置,还可以包括:
关键词获取单元,用于获取所述搜索内容的关键词及每个所述搜索结果的关键词;
基于此,所述文本相似度值计算单元计算所述搜索内容与每个所述搜索结果的文本相似度值的过程,可以包括:
根据所述搜索内容的关键词对应的向量及每个所述搜索结果的关键词对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
可选的,所述搜索装置,还可以包括:
第三向量化单元,用于分别将所述搜索内容及每个所述搜索结果向量化,得到所述搜索内容对应的向量及每个所述搜索结果对应的向量;
分词单元,用于分别对所述搜索内容及每个所述搜索结果分词,得到所述搜索内容对应的第一词序列及每个所述搜索结果对应的第二词序列;
第四向量化单元,用于分别将所述第一词序列中的每个名词及各所述第二词序列中的每个名词向量化,得到所述第一词序列中的每个名词对应的向量及各所述第二词序列中的每个名词对应的向量;
第一余弦值计算单元,用于分别计算所述第一词序列中的每个名词对应的向量与所述搜索内容对应的向量的夹角的余弦值,得到所述第一词序列中的每个名词与所述搜索内容的相似度值;
第二余弦值计算单元,用于分别计算各所述搜索结果对应的向量与其对应的所述第二词序列中的每个名词对应的向量的夹角的余弦值,得到各所述搜索结果与其对应的所述第二词序列中的每个名词的相似度值;
基于此,所述关键词获取单元获取所述搜索内容的关键词及每个所述搜索结果的关键词的过程,可以包括:
将所述第一词序列中与所述搜索内容相似度值最高的名词作为所述搜索内容的关键词,将每个所述第二词序列中与其对应的搜索结果相似度值最高的名词作为其对应的搜索结果的关键词。
可选的,所述推荐相关度值计算单元计算所述搜索内容与每个所述搜索结果的推荐相关度值的过程,可以包括:
将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值,所述相关性识别模型为预先以训练搜索内容与训练搜索结果作为训练样本,以训练搜索内容与训练搜索结果是否相关作为样本标签训练得到。
可选的,所述搜索装置,还可以包括:
用户集合获取单元,用于获取与所述目标用户相似的用户集合;
低推荐搜索结果集合获取单元,用于将所有所述搜索结果中被所述目标用户操作过的或没有被所述用户集合中的用户操作过的搜索结果组合成低推荐搜索结果集合;
低推荐相关度值赋予单元,用于对所述低推荐搜索结果集合中的所有搜索结果赋予预设的低推荐相关度值;
基于此,将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值的过程,可以包括:
将所述搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果的推荐相关度值。
可选的,所述搜索装置,还可以包括:
第一搜索结果集合获取单元,用于获取所述目标用户当前时刻之前操作过的第一搜索结果集合;
第二搜索结果集合获取单元,用于获取预设的用户群体中每个用户当前时刻之前操作过的第二搜索结果集合;
兴趣相似度值计算单元,用于计算所述第一搜索结果集合与每个所述第二搜索结果集合之间的相似度值,得到所述目标用户与每个所述用户之间的兴趣相似度值;
基于此,所述用户集合获取单元获取与所述目标用户相似的用户集合的过程,可以包括:
将所述用户群体中所述兴趣相似度值达到预设的兴趣相似度阈值的用户组合成与所述目标用户相似的用户集合。
可选的,所述搜索装置,还可以包括:
第一信息集合获取单元,用于获取所述目标用户的基本信息及当前时刻之前操作过的第一搜索结果集合,得到第一信息集合;
第二信息获取单元,用于获取预设的用户群体中每个用户的基本信息及当前时刻之前操作过的第二搜索结果集合,得到第二信息集合;
信息相似度值计算单元,用于计算所述第一信息集合与每个所述第二信息集合之间的相似度值,得到所述目标用户与每个所述用户之间的信息相似度值;
基于此,所述用户集合获取单元获取与所述目标用户相似的用户集合的过程,可以包括:
将所述用户群体中所述信息相似度值达到预设的信息相似度阈值的用户组合成与所述目标用户相似的用户集合。
可选的,所述搜索单元根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果的过程,可以包括:
通过采用I/O多路复用技术根据所述搜索内容同时从预设的多个数据库中进行搜索,得到若干个搜索结果。
本申请实施例提供的搜索装置可应用于搜索设备。图6示出了搜索设备的硬件结构框图,参照图6,搜索设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:实现前述搜索方案中的各个处理流程。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:实现前述搜索方案中的各个处理流程。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种搜索方法,其特征在于,包括:
获取目标用户输入的搜索内容;
根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果;
计算所述搜索内容与每个所述搜索结果的文本相似度值;
计算所述搜索内容与每个所述搜索结果的推荐相关度值,所述推荐相关度值为用来表征所述搜索内容与每个所述搜索结果的相关程度的值,所述推荐相关度值越大代表相关程度越高;
对每个所述搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值,得到每个所述搜索结果对应的最终相关度值;
根据每个所述搜索结果对应的最终相关度值的大小对每个所述搜索结果降序排序,并显示排序后的每个所述搜索结果。
2.根据权利要求1所述的方法,其特征在于,计算所述搜索内容与每个所述搜索结果的文本相似度值之前,还包括:
将所述搜索内容向量化,得到所述搜索内容对应的向量;
分别将每个所述搜索结果向量化,得到每个所述搜索结果对应的向量;
计算所述搜索内容与每个所述搜索结果的文本相似度值,包括:
根据所述搜索内容对应的向量及每个所述搜索结果对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
3.根据权利要求2所述的方法,其特征在于,根据所述搜索内容对应的向量及每个所述搜索结果对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值,包括:
分别计算所述搜索内容对应的向量与每个所述搜索结果对应的向量的夹角的余弦值,得到所述搜索内容与每个所述搜索结果的文本相似度值。
4.根据权利要求1所述的方法,其特征在于,计算所述搜索内容与每个所述搜索结果的文本相似度值之前,还包括:
获取所述搜索内容的关键词及每个所述搜索结果的关键词;
计算所述搜索内容与每个所述搜索结果的文本相似度值,包括:
根据所述搜索内容的关键词对应的向量及每个所述搜索结果的关键词对应的向量计算所述搜索内容与每个所述搜索结果的文本相似度值。
5.根据权利要求4所述的方法,其特征在于,获取所述搜索内容的关键词及每个所述搜索结果的关键词之前,还包括:
分别将所述搜索内容及每个所述搜索结果向量化,得到所述搜索内容对应的向量及每个所述搜索结果对应的向量;
分别对所述搜索内容及每个所述搜索结果分词,得到所述搜索内容对应的第一词序列及每个所述搜索结果对应的第二词序列;
分别将所述第一词序列中的每个名词及各所述第二词序列中的每个名词向量化,得到所述第一词序列中的每个名词对应的向量及各所述第二词序列中的每个名词对应的向量;
分别计算所述第一词序列中的每个名词对应的向量与所述搜索内容对应的向量的夹角的余弦值,得到所述第一词序列中的每个名词与所述搜索内容的相似度值;
分别计算各所述搜索结果对应的向量与其对应的所述第二词序列中的每个名词的向量的夹角的余弦值,得到各所述搜索结果与其对应的所述第二词序列中的每个名词的相似度值;
获取所述搜索内容的关键词及每个所述搜索结果的关键词,包括:
将所述第一词序列中与所述搜索内容相似度值最高的名词作为所述搜索内容的关键词,将每个所述第二词序列中与其对应的搜索结果相似度值最高的名词作为其对应的搜索结果的关键词。
6.根据权利要求1所述的方法,其特征在于,计算所述搜索内容与每个所述搜索结果的推荐相关度值,包括:
将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值,所述相关性识别模型为预先以训练搜索内容与训练搜索结果作为训练样本,以训练搜索内容与训练搜索结果是否相关作为样本标签训练得到。
7.根据权利要求6所述的方法,其特征在于,将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值之前,还包括:
获取与所述目标用户相似的用户集合;
将所有所述搜索结果中被所述目标用户操作过的或没有被所述用户集合中的用户操作过的搜索结果组合成低推荐搜索结果集合;
对所述低推荐搜索结果集合中的所有搜索结果赋予预设的低推荐相关度值;
将所述搜索内容与每个所述搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与每个所述搜索结果的推荐相关度值,包括:
将所述搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果分别一一对应输入预先训练好的相关性识别模型,分别得到所述搜索内容与所有所述搜索结果中除了所述低推荐搜索结果集合中的搜索结果之外的每个搜索结果的推荐相关度值。
8.根据权利要求7所述的方法,其特征在于,所述获取与所述目标用户相似的用户集合之前,还包括:
获取所述目标用户当前时刻之前操作过的第一搜索结果集合;
获取预设的用户群体中每个用户当前时刻之前操作过的第二搜索结果集合;
计算所述第一搜索结果集合与每个所述第二搜索结果集合之间的相似度值,得到所述目标用户与每个所述用户之间的兴趣相似度值;
所述获取与所述目标用户相似的用户集合,包括:
将所述用户群体中所述兴趣相似度值达到预设的兴趣相似度阈值的用户组合成与所述目标用户相似的用户集合。
9.根据权利要求7所述的方法,其特征在于,所述获取与所述目标用户相似的用户集合之前,还包括:
获取所述目标用户的基本信息及当前时刻之前操作过的第一搜索结果集合,得到第一信息集合;
获取预设的用户群体中每个用户的基本信息及当前时刻之前操作过的第二搜索结果集合,得到第二信息集合;
计算所述第一信息集合与每个所述第二信息集合之间的相似度值,得到所述目标用户与每个所述用户之间的信息相似度值;
所述获取与所述目标用户相似的用户集合,包括:
将所述用户群体中所述信息相似度值达到预设的信息相似度阈值的用户组合成与所述目标用户相似的用户集合。
10.根据权利要求1-9任一项所述的方法,其特征在于,根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果,包括:
通过采用I/O多路复用技术根据所述搜索内容同时从预设的多个数据库中进行搜索,得到若干个搜索结果。
11.一种搜索装置,其特征在于,包括:
搜索内容获取单元,用于获取目标用户输入的搜索内容;
搜索单元,用于根据所述搜索内容从预设的多个数据库中进行搜索,得到若干个搜索结果;
文本相似度值计算单元,用于计算所述搜索内容与每个所述搜索结果的文本相似度值;
推荐相关度值计算单元,用于计算所述搜索内容与每个所述搜索结果的推荐相关度值,所述推荐相关度值为用来表征所述搜索内容与每个所述搜索结果的相关程度的值,所述推荐相关度值越大代表相关程度越高;
最终相关度值获取单元,用于对每个所述搜索结果对应的文本相似度值及推荐相关度值按照预设的权重取加权平均值,得到每个所述搜索结果对应的最终相关度值;
排序单元,用于根据每个所述搜索结果对应的最终相关度值的大小对每个所述搜索结果降序排序,并显示排序后的每个所述搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310147779.9A CN115827990B (zh) | 2023-02-10 | 2023-02-10 | 搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310147779.9A CN115827990B (zh) | 2023-02-10 | 2023-02-10 | 搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115827990A true CN115827990A (zh) | 2023-03-21 |
CN115827990B CN115827990B (zh) | 2023-11-21 |
Family
ID=85522079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310147779.9A Active CN115827990B (zh) | 2023-02-10 | 2023-02-10 | 搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115827990B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194801A (zh) * | 2023-11-06 | 2023-12-08 | 枣庄市云端互联网产业园管理有限公司 | 基于技术转移公共服务系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1681653A1 (en) * | 2005-01-14 | 2006-07-19 | Adsclick S.A. | Platform for managing the targeted display of advertisements in a computer network |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
JP2009259039A (ja) * | 2008-04-17 | 2009-11-05 | Hitachi Ltd | 複数のデータベースの検索方法及びメタ検索サーバ |
CN103218373A (zh) * | 2012-01-20 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 一种相关搜索系统、方法及装置 |
CN109196588A (zh) * | 2016-05-31 | 2019-01-11 | 高通股份有限公司 | 多周期搜索内容可寻址的存储器 |
US20210103622A1 (en) * | 2018-06-20 | 2021-04-08 | Baidu Online Network Technology (Beijing) Co., Ltd. | Information search method, device, apparatus and computer-readable medium |
US11321538B1 (en) * | 2021-10-15 | 2022-05-03 | Dovel Technologies, Llc | Ensemble natural language processing model with compliance verification |
-
2023
- 2023-02-10 CN CN202310147779.9A patent/CN115827990B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1681653A1 (en) * | 2005-01-14 | 2006-07-19 | Adsclick S.A. | Platform for managing the targeted display of advertisements in a computer network |
JP2009259039A (ja) * | 2008-04-17 | 2009-11-05 | Hitachi Ltd | 複数のデータベースの検索方法及びメタ検索サーバ |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
CN103218373A (zh) * | 2012-01-20 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 一种相关搜索系统、方法及装置 |
CN109196588A (zh) * | 2016-05-31 | 2019-01-11 | 高通股份有限公司 | 多周期搜索内容可寻址的存储器 |
US20210103622A1 (en) * | 2018-06-20 | 2021-04-08 | Baidu Online Network Technology (Beijing) Co., Ltd. | Information search method, device, apparatus and computer-readable medium |
US11321538B1 (en) * | 2021-10-15 | 2022-05-03 | Dovel Technologies, Llc | Ensemble natural language processing model with compliance verification |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194801A (zh) * | 2023-11-06 | 2023-12-08 | 枣庄市云端互联网产业园管理有限公司 | 基于技术转移公共服务系统及方法 |
CN117194801B (zh) * | 2023-11-06 | 2024-03-08 | 枣庄市云端互联网产业园管理有限公司 | 基于技术转移公共服务系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115827990B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN109992646B (zh) | 文本标签的提取方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN111460251A (zh) | 数据内容个性化推送冷启动方法、装置、设备和存储介质 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
US20220058464A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN109063171B (zh) | 基于语义的资源匹配方法 | |
CN111737558A (zh) | 一种资讯推荐方法、装置及计算机可读存储介质 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN115827990B (zh) | 搜索方法及装置 | |
CN112685635A (zh) | 基于分类标签的项目推荐方法、装置、服务器和存储介质 | |
JP4891638B2 (ja) | 目的データをカテゴリに分類する方法 | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN109783736B (zh) | 一种意图推测方法及系统 | |
CN113704617A (zh) | 物品推荐方法、系统、电子设备及存储介质 | |
CN112711717A (zh) | 房间产品搜索方法、装置、电子设备 | |
Ferdous et al. | Assortment of bangladeshi e-commerce site reviews using machine learning approaches | |
Arora et al. | Evaluation Of Product Reviews Using Deep Learning Classifier Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |