CN111782975A - 一种检索方法、装置和电子设备 - Google Patents
一种检索方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111782975A CN111782975A CN202010596314.8A CN202010596314A CN111782975A CN 111782975 A CN111782975 A CN 111782975A CN 202010596314 A CN202010596314 A CN 202010596314A CN 111782975 A CN111782975 A CN 111782975A
- Authority
- CN
- China
- Prior art keywords
- search
- retrieval
- word
- result
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 61
- 238000012163 sequencing technique Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000013136 deep learning model Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000005065 mining Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 240000002871 Tectona grandis Species 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013456 study Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000012535 impurity Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种检索方法、装置和电子设备,涉及计算机技术领域中的智能搜索,深度学习领域。可用于云计算或云平台。具体实现方案为:一种检索方法,包括:获取用户输入的检索词;对所述检索词进行逐字切分,得到至少两个检索字;依据所述至少两个检索字进行检索,以得到检索结果。本申请提供的一种检索方法、装置和电子设备,可以解决现有技术中基于简称检索全称时,存在的召回效果差的问题。
Description
技术领域
本申请涉及计算机技术领域中的智能搜索领域,具体涉及一种检索方法、装置和电子设备。
背景技术
在信息点(Point of Information,POI)检索的过程中,经常需要涉及到基于简称检索全称的问题。现有技术中,为了实现基于简称检索全称,通常是人为挖掘各种内容对象的简称,并将简称与全称关联存储,这样,当用户以简称作为检索条件时,可以在数据库中查询到与检索条件相对应的简称,然后基于简称与全称之间的对应关系,得到与所述简称对应的全称。
发明内容
本申请提供一种检索方法、装置和电子设备,可以解决现有技术中基于简称检索全称时,存在的召回效果差的问题。
第一方面,本申请提供一种检索方法,包括:
获取用户输入的检索词;
对所述检索词进行逐字切分,得到至少两个检索字;
依据所述至少两个检索字进行检索,以得到检索结果。
第二方面,本申请提供一种检索装置,包括:
获取模块,用于获取用户输入的检索词;
切分模块,用于对所述检索词进行逐字切分,得到至少两个检索字;
检索模块,用于依据所述至少两个检索字进行检索,以得到检索结果。
第三方面,本申请提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的检索方法步骤。
第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请提供的检索方法步骤。
上述申请中的一个实施例具有如下优点或有益效果:通过对检索词逐字切分,得到至少两个检索字,并依据至少两个检索字进行检索,得到检索结果,相对于现有技术中采用人为挖掘简称,并将所挖掘的简称与全称关联存储,以实现基于简称检索全称的方法而言,可以提高基于简称检索全称的召回效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是现有技术中基于简称检索全称的方法的流程图之一;
图2是现有技术中基于简称检索全称的方法的流程图之二;
图3是本申请实施例中所提供的检索方法的流程图之一;
图4是本申请实施例中所提供的检索方法的流程图之二;
图5是本申请实施例中所提供的检索方法的流程图之三;
图6是本申请实施例中所提供的检索方法的流程图之四;
图7是本申请实施例中训练过程的流程图;
图8是本申请实施例中所提供的检索装置的结构示意图;
图9是用来实现本申请实施例的检索方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
传统的检索召回方式是基于词索引,例如,检索词(query)为“北京师范大学”,会被切分为“北京”、“师范”、“大学”三个词,同样,被检索对象(POI)也会被切分成多个词,例如,被检索对象为“北京师范大学”时,其同样会被切分为“北京”、“师范”、“大学”三个词,这样,通过词匹配以召回命中较好的检索结果。
然而,采样这种召回方式在基于简称检索全称时,存在无法召回的问题,例如,query为简称“北师大”,POI为全称“北京师范大学”时,query被切分后仍为“北师大”,但POI被切分之后为“北京”、“师范”、“大学”三个词,这样,基于query切分之后的词无法匹配到POI切分后的词,从而导致基于query无法召回POI的问题。
为此,现有技术中,为了实现基于简称检索全称,通常是人为挖掘各种内容对象的简称,并将简称与全称关联存储,这样,当用户以简称作为检索条件时,可以在数据库中查询到与检索条件相对应的简称,然后基于简称与全称之间的对应关系,得到与所述简称对应的全称。例如,请参见图1,通过将简称“北师大”与全称“北京师范大学”关联存储,这样,在基于query“北师大”进行检索时,可以在数据库中查询到简称“北师大”,进而确定POI为全称“北京师范大学”。
这种基于挖掘的简称召回方法,能较好的解决常见简称的召回问题,但对于冷门或新出现的简称,难以做到较高的覆盖和及时挖掘。如poi为“蓝色港湾”,query为简称“蓝港”,是相对冷门的一种叫法,冷门意味着挖掘“蓝色港湾”的相关语料中出现“蓝港”的频次很低,为了保证准确率,这个简称被过滤的可能性很大。在这种简称缺失的情况下,召回就会出现问题,如图2。
请参见图3,图1是本申请实施例提供的一种检索方法,包括:
步骤S301、获取用户输入的检索词。
上述检索词可以是用户在地图应用中搜索地名时所输入的检索词,其中,所述检索词可以是地名的全称或者地名的简称,例如,用户在需要在地图应用中查询“北京师范大学”时,可以在搜索框中输入“北师大”作为所述检索词。此外,上述检索词也可以是用户在购物网站或者购物应用中查找商品时所输入的商品的全称或者简称等。
步骤S302、对所述检索词进行逐字切分,得到至少两个检索字。
具体地,上述对检索词进行逐字切分得到至少两个检索字可以是指,将检索词中的每个文字作为从检索词中切分出,以作为独立的检索字进行检索。例如,当所述检索词为“北京师范大学”时,对该检索词切分之后得到为“北”、“京”、“师”、“范”、“大”和“学”六个检索字。又例如,将所述检索词为“北大”时,对该检索词切分之后得到为“北”和“大”两个检索字。
步骤S303、依据所述至少两个检索字进行检索,以得到检索结果。
具体地,可以将所述至少两个检索字作为并列检索条件进行检索。应当理解地,在进行检索匹配时,可以将存储被检索对象的数据库中的内容对象同样逐字切分,以便于将检索字与内容对象进行匹配,进而得到检索结果。例如,请参见图4,当所述检索词为简称“蓝港”,所要检索的内容对象为全称“蓝色港湾”时,通过将检索词切分为“蓝”和“港”,将内容对象切分为“蓝”、“色”、“港”和“湾”,这样,第一个检索字“蓝”可以匹配到“蓝色港湾”的第一个文字,第二个检索字“湾”可以匹配到蓝色港湾”的第三个文字,从而可以基于简称“蓝港”召回全称“蓝色港湾”。又例如,在未将简称“北师大”与“北京师范大学”关联存储于数据库的情况下,请参见图5,同样可以实现基于简称“北师大”召回“北京师范大学”。可见,采样上述实施例所提供的方法,相对于现有技术中采样人工挖掘简称的方式而已,其召回效果更好,针对冷门或新出现的简称同样可以召回。
该实施方式中,通过对检索词逐字切分,得到至少两个检索字,并依据至少两个检索字进行检索,得到检索结果,相对于现有技术中采用人为挖掘简称,并将所挖掘的简称与全称关联存储,以实现基于简称检索全称的方法而言,可以提高基于简称检索全称的召回效果。
本申请实施例所提供的检索方法可用于云平台或云服务中。例如,云平台中的服务器在执行职能搜索命令的过程中,可以采用上述检索方法为用户提供检索服务。
可选地,所述步骤S303、依据所述至少两个检索字进行检索,以得到检索结果,包括:
依据所述至少两个检索字在数据库中进行检索,以得到包括所述至少两个检索字的检索结果,其中,所述数据库中存储有多个内容对象的切字信息,每个内容对象的切字信息是对所述内容对象进行逐字切分得到的信息。
上述内容对象可以是指各种被检索对象的名称,例如,可以是地点名称的全称、商品名称的全称等。所述切字信息是对内容对象进行逐字切分处理之后得到的信息,例如,当所述内容对象为“上海交通大学”时,所述切字信息为“上”、“海”、“交”、“通”、“大”和“学”。
具体地,可以在数据库中建立每个所述切字信息与该切字信息对应的内容对象的映射关系,例如,将所述内容对象“上海交通大学”与所述切字信息“上”、“海”、“交”、“通”、“大”和“学”关联存储。这样,当用户输入检索词时,可以基于检索词检索到对应的切字信息,然后基于切字信息与内容对象之间的映射关系搜索到所述内容对象。
上述检索结果可以是基于所述至少两个检索字在数据库中检索到的切字信息,也可以是基于所述至少两个检索字在所述数据库中检索到的内容对象。
该实施方式中,通过在数据库中存储每个内容对象的切字信息,以便于基于检索词的切字信息,在数据库中检索到与检索词对应的内容对象的切字信息,进而检索到内容对象。
在基于上述实施例所提供的方法,利用简称检索全称时,可能存在召回大量杂质的问题,例如,请参见图6,当基于简称“北师大”检索“北京师范大学”时,可能召回“北大名师”的错误结果。为此,本申请实施例可以针对召回的结果进行排序,以便于将用户最可能点击的结果靠前排序。
可选地,所述步骤303、依据所述至少两个检索字进行检索,以得到检索结果之后,所述方法还包括:
在依据所述至少两个检索字检索到至少两个检索结果的情况下,基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,其中,所述排序结果为所述排序模型基于所述检索结果与所述检索词之间的语义相关度对所述至少两个检索结果进行排序得到的排序结果。
具体地,可以通过预先对所述排序模型进行训练,使得所述排序模型可以学习到各简称与全称之间的语义关系。此外,也可以通过对排序模型进行训练,使得排序模型可以学习到简称对全称的常规表达,例如,经过训练后排序模型可以学习到:当全称为四个字时,简称可以是由全称的第一个字和第三个字组合而成等规律。这样,在将至少两个检索结果与检索词输入排序模型之后,排序模型可以分别输出每组检索结果与检索词之间的语义相关度。
该实施方式中,通过对基于排序模型对至少两个检索结果进行排序,以便于向用户展示排序之后的排序结果,从而方便用户在众多检索结果中快速找到目标检索结果,提高了用户的检索体验。
可选地,所述获取用户输入的检索词之前,所述方法还包括:
从用户的检索日志中,抽取第一样本,其中,所述第一样本包括第一检索词和第一检索结果,所述第一检索结果为基于所述第一检索词在数据库中检索得到的至少两个检索结果中,用户点击的检索结果;
基于所述第一样本对所述深度学习模型进行训练,得到所述排序模型。
其中,用户的检索日志通常包括用户输入的检索词、基于用户输入的检索词检索到的所有检索结果,以及用户发生了点击操作的检索结果。而用户点击的检索结果通常是与检索词相对应的检索结果,例如,用户基于检索词“北师大”时,在众多检索结果中,用户通常会点击“北京师范大学”,因此,本实施例中,通过基于用户的点击操作自动挖掘第一样本,以用于对模型进行训练,这样,可以及时挖掘到新出的简称或者挖掘到冷门的简称,从而弥补了现有技术中采用人工挖掘简称而导致的简称挖掘不够全面的问题。
具体地,可以将所述第一样本作为正样本输入所述排序模型,使得排序模型可以识别所述正样本中的简称与全称之间的相关性关系。通过采用深度学习模型训练得到排序模型,使得所训练处的排序模型具备一定的泛化能力,进而提高对新的简称的识别能力。
可选地,所述获取用户输入的检索词之前,所述方法还包括:
从用户的检索日志中,抽取第二样本,其中,所述第二样本包括第一检索词和第二检索结果,所述第二检索结果为基于所述第一检索词在数据库中检索得到的至少两个检索结果中,用户未点击的检索结果;
所述基于所述第一样本对所述深度学习模型进行训练,得到所述排序模型,包括:
基于所述第一样本和第二样本分别对所述深度学习模型进行训练,得到所述排序模型。
其中,当基于所述第一检索词在数据库中得到的第二检索结果的数量超过n个时,可以从所述n个第二检索结果中随机抽取m个第二检索结果,并基于所抽取出的每个第二检索结果分别生成第二样本。然后将所生成的第二样本分别输入深度学习模型进行训练,所述m<n。这样,可以避免由于负样本数量过多而导致训练过程花费的时间过长的问题。
该实施方式中,通过在基于第一样本对深度学习模型进行训练的基础上,进一步获取第二样本作为负样本,并同时将正样本和负样本输入模型进行训练,从而提高训练得到的排序模型对简称的识别精度。
可选地,所述获取用户输入的检索词之前,所述方法还包括:
获取第三样本,其中,所述第三样本包括第一简称和第一全称,所述第一简称为所述第一全称的简称;
所述基于所述第一样本和第二样本对所述深度学习模型进行训练,得到所述排序模型,包括:
基于所述第一样本、第二样本和第三样本分别对所述深度学习模型进行训练,得到所述排序模型。
其中,所述第三样本可以是人为从互联网中挖掘到的已知的全称及其对应的简称。可以将所述第三样本作为正样本对所述深度学习模型进行训练。
该实施方式中,通过进一步将已知的简称及全称输入深度学习模型进行训练,以确保有足够的训练数据对深度学习模型进行训练,提高模型训练的效果。
具体地,请参见图7,图7所示为将目标样本输入所述深度学习模型进行训练的流程图,其中,所述目标样本可以是上述第一样本、第二样本和第三样本中的任意一一者。
通过将目标样本中的简称和全称分别输入深度学习模型,由深度学习模型将所述简称转换成第一向量,将所述全称转换成第二向量,再计算第一向量和第二向量之间的向量距离,由优化函数对所述第一向量与第二向量之间的向量距离进行优化,以实现对深度学习模型进行训练的过程。
上述优化函数可以是常见的损失函数,例如,可以是交叉熵(cross entropy)损失函数,通过该cross entropy损失函数可以对第一向量与第二向量之间的向量距离进行优化,当所述目标样本为正样本时,可以将所述第一向量与二向量之间的向量距离优化至小于第一预设距离,当所述目标样本为负样本时,可以将所述第一向量与二向量之间的向量距离优化至大于第二预设距离,其中所述第一预设距离小于所述第二预设距离。
可选地,所述基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,包括:
将所述检索词和所述至少两个检索结果分别输入所述排序模型,得到第一向量和至少两个第二向量,其中,所述第一向量为所述排序模型对所述检索词进行转换得到的向量,所述第二向量为所述排序模型对所述检索结果进行转换得到的向量,所述至少两个第二向量与所述至少两个排序结果一一对应;
分别计算所述检索词与每个所述检索结果之间的语义相关度,其中,所述检索词与目标检索结果之间的语义相关度为所述第一向量与所述目标检索结果所对应的第二向量之间的向量距离,所述目标检索结果为所述至少两个检索结果中的任一检索结果;
按照每个所述检索结果与所述检索词之间的语义相关度的大小,对所述至少两个检索结果进行排序。
该实施方式中,通过计算每个检索结果与所述检索词之间的语义相关度,并基于语义相关度对所述至少两个检索结果进行排序,例如,可以按照语义相关度由高至低依次排列所述至少两个检索结果。这样,可以确保与检索词具有较高语义相关度的检索结果靠前排列,以便于用户在所有检索结果中快速查找到目标检索结果。从而解决了由于召回大量杂质而导致的用户无法快速查找到目标检索结果的问题。
可选地,所述依据所述至少两个检索字进行检索,以得到检索结果之前,所述方法还包括:
对所述至少两个检索字进行去重操作,以得到目标检索字;
所述依据所述至少两个检索字进行检索,以得到检索结果,包括:
所述依据所述至少两个目标检索字进行检索,以得到检索结果。
具体地,所述对所述至少两个检索字进行去重操作可以是字将所述检索字中重复的文字予以剔除,例如,当所述检索字为“北京理工大学珠海学院”时,得到的切词结果为“北”、“京”、“理”、“工”、“大”、“学”、“珠”、“海”、“学”和“院”10个检索字,此时,基于该检索词在数据库中进行匹配时,需要执行10词匹配工作,且其中包括两次重复的匹配工作,为此,本申请实施例通过对所述至少两个检索字进行去重操作,以避免在检索过程中执行重复的步骤。具体地,在对上述切词结果执行去重操作之后,得到的目标检索字包括“北”、“京”、“理”、“工”、“大”、“学”、“珠”、“海”和“院”9个检索字,从而去除了重复的匹配工作,提高了检索的效率。
可选地,所述依据所述至少两个检索字进行检索,以得到检索结果,包括:
依据所述至少两个检索字在数据库中进行检索,以得到包括所述至少两个检索字的检索结果,其中,所述数据库中存储有多个内容对象的切字信息,每个内容对象的切字信息是对所述内容对象进行逐字切分得到的信息。
可选地,所述依据所述至少两个检索字进行检索,以得到检索结果之后,所述方法还包括:
在依据所述至少两个检索字检索到至少两个检索结果的情况下,基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,其中,所述排序结果为所述排序模型基于所述检索结果与所述检索词之间的语义相关度对所述至少两个检索结果进行排序得到的排序结果。
可选地,所述基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,包括:
将所述检索词和所述至少两个检索结果分别输入所述排序模型,得到第一向量和至少两个第二向量,其中,所述第一向量为所述排序模型对所述检索词进行转换得到的向量,所述第二向量为所述排序模型对所述检索结果进行转换得到的向量,所述至少两个第二向量与所述至少两个排序结果一一对应;
分别计算所述检索词与每个所述检索结果之间的语义相关度,其中,所述检索词与目标检索结果之间的语义相关度为所述第一向量与所述目标检索结果所对应的第二向量之间的向量距离,所述目标检索结果为所述至少两个检索结果中的任一检索结果;
按照每个所述检索结果与所述检索词之间的语义相关度的大小,对所述至少两个检索结果进行排序。
请参见图8,图8是本申请实施例提供的一种检索装置800,包括:
获取模块801,用于获取用户输入的检索词;
切分模块802,用于对所述检索词进行逐字切分,得到至少两个检索字;
检索模块803,用于依据所述至少两个检索字进行检索,以得到检索结果。
可选地,所述检索模块803,具体用于依据所述至少两个检索字在数据库中进行检索,以得到包括所述至少两个检索字的检索结果,其中,所述数据库中存储有多个内容对象的切字信息,每个内容对象的切字信息是对所述内容对象进行逐字切分得到的信息。
可选地,所述检索装置800还包括:
排序模块,用于在依据所述至少两个检索字检索到至少两个检索结果的情况下,基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,其中,所述排序结果为所述排序模型基于所述检索结果与所述检索词之间的语义相关度对所述至少两个检索结果进行排序得到的排序结果。
可选地,所述排序模块,包括:
转换子模块,用于将所述检索词和所述至少两个检索结果分别输入所述排序模型,得到第一向量和至少两个第二向量,其中,所述第一向量为所述排序模型对所述检索词进行转换得到的向量,所述第二向量为所述排序模型对所述检索结果进行转换得到的向量,所述至少两个第二向量与所述至少两个排序结果一一对应;
计算子模块,用于分别计算所述检索词与每个所述检索结果之间的语义相关度,其中,所述检索词与目标检索结果之间的语义相关度为所述第一向量与所述目标检索结果所对应的第二向量之间的向量距离,所述目标检索结果为所述至少两个检索结果中的任一检索结果;
排序子模块,用于按照每个所述检索结果与所述检索词之间的语义相关度的大小,对所述至少两个检索结果进行排序。
本实施例提供的检索装置800能够实现图1-7所示的方法实施例中的各个过程,且可以达到相同有益效果,为避免重复,这里不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的检索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的检索方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的检索方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的检索方法对应的程序指令/模块(例如,附图8所示的获取模块801、切分模块802和检索模块803)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的检索方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据检索方法的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至检索方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
检索方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与检索方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过对检索词逐字切分,得到至少两个检索字,并依据至少两个检索字进行检索,得到检索结果,相对于现有技术中采用人为挖掘简称,并将所挖掘的简称与全称关联存储,以实现基于简称检索全称的方法而言,可以提高基于简称检索全称的召回效果。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种检索方法,包括:
获取用户输入的检索词;
对所述检索词进行逐字切分,得到至少两个检索字;
依据所述至少两个检索字进行检索,以得到检索结果。
2.根据权利要求1所述的方法,其中,所述依据所述至少两个检索字进行检索,以得到检索结果,包括:
依据所述至少两个检索字在数据库中进行检索,以得到包括所述至少两个检索字的检索结果,其中,所述数据库中存储有多个内容对象的切字信息,每个内容对象的切字信息是对所述内容对象进行逐字切分得到的信息。
3.根据权利要求1所述的方法,其中,所述依据所述至少两个检索字进行检索,以得到检索结果之后,所述方法还包括:
在依据所述至少两个检索字检索到至少两个检索结果的情况下,基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,其中,所述排序结果为所述排序模型基于所述检索结果与所述检索词之间的语义相关度对所述至少两个检索结果进行排序得到的排序结果。
4.根据权利要求3所述的方法,其中,所述基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,包括:
将所述检索词和所述至少两个检索结果分别输入所述排序模型,得到第一向量和至少两个第二向量,其中,所述第一向量为所述排序模型对所述检索词进行转换得到的向量,所述第二向量为所述排序模型对所述检索结果进行转换得到的向量,所述至少两个第二向量与所述至少两个排序结果一一对应;
分别计算所述检索词与每个所述检索结果之间的语义相关度,其中,所述检索词与目标检索结果之间的语义相关度为所述第一向量与所述目标检索结果所对应的第二向量之间的向量距离,所述目标检索结果为所述至少两个检索结果中的任一检索结果;
按照每个所述检索结果与所述检索词之间的语义相关度的大小,对所述至少两个检索结果进行排序。
5.一种检索装置,包括:
获取模块,用于获取用户输入的检索词;
切分模块,用于对所述检索词进行逐字切分,得到至少两个检索字;
检索模块,用于依据所述至少两个检索字进行检索,以得到检索结果。
6.根据权利要求5所述的装置,其中,所述检索模块,具体用于依据所述至少两个检索字在数据库中进行检索,以得到包括所述至少两个检索字的检索结果,其中,所述数据库中存储有多个内容对象的切字信息,每个内容对象的切字信息是对所述内容对象进行逐字切分得到的信息。
7.根据权利要求5所述的装置,其中,所述装置还包括:
排序模块,用于在依据所述至少两个检索字检索到至少两个检索结果的情况下,基于预先训练得到的排序模型,对所述至少两个检索结果进行排序,得到排序结果,其中,所述排序结果为所述排序模型基于所述检索结果与所述检索词之间的语义相关度对所述至少两个检索结果进行排序得到的排序结果。
8.根据权利要求7所述的装置,其中,所述排序模块,包括:
转换子模块,用于将所述检索词和所述至少两个检索结果分别输入所述排序模型,得到第一向量和至少两个第二向量,其中,所述第一向量为所述排序模型对所述检索词进行转换得到的向量,所述第二向量为所述排序模型对所述检索结果进行转换得到的向量,所述至少两个第二向量与所述至少两个排序结果一一对应;
计算子模块,用于分别计算所述检索词与每个所述检索结果之间的语义相关度,其中,所述检索词与目标检索结果之间的语义相关度为所述第一向量与所述目标检索结果所对应的第二向量之间的向量距离,所述目标检索结果为所述至少两个检索结果中的任一检索结果;
排序子模块,用于按照每个所述检索结果与所述检索词之间的语义相关度的大小,对所述至少两个检索结果进行排序。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010596314.8A CN111782975A (zh) | 2020-06-28 | 2020-06-28 | 一种检索方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010596314.8A CN111782975A (zh) | 2020-06-28 | 2020-06-28 | 一种检索方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111782975A true CN111782975A (zh) | 2020-10-16 |
Family
ID=72761330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010596314.8A Pending CN111782975A (zh) | 2020-06-28 | 2020-06-28 | 一种检索方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782975A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766607A (zh) * | 2021-02-02 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 出行路线的推荐方法、装置、电子设备及可读存储介质 |
CN114048304A (zh) * | 2021-10-26 | 2022-02-15 | 盐城金堤科技有限公司 | 有效关键词确定方法、装置、存储介质和电子设备 |
CN117056459A (zh) * | 2023-08-07 | 2023-11-14 | 北京网聘信息技术有限公司 | 一种向量召回方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049442A (zh) * | 2011-10-12 | 2013-04-17 | 卢玉成 | 手机网络检索用语简称-全称转换识别方法及装置 |
CN106547871A (zh) * | 2016-10-31 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN108073655A (zh) * | 2016-11-15 | 2018-05-25 | 南京途牛科技有限公司 | 一种数据查询方法及装置 |
CN110427463A (zh) * | 2019-08-08 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 搜索语句响应方法、装置及服务器和存储介质 |
-
2020
- 2020-06-28 CN CN202010596314.8A patent/CN111782975A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049442A (zh) * | 2011-10-12 | 2013-04-17 | 卢玉成 | 手机网络检索用语简称-全称转换识别方法及装置 |
CN106547871A (zh) * | 2016-10-31 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN108073655A (zh) * | 2016-11-15 | 2018-05-25 | 南京途牛科技有限公司 | 一种数据查询方法及装置 |
CN110427463A (zh) * | 2019-08-08 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 搜索语句响应方法、装置及服务器和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766607A (zh) * | 2021-02-02 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 出行路线的推荐方法、装置、电子设备及可读存储介质 |
CN112766607B (zh) * | 2021-02-02 | 2023-02-17 | 腾讯科技(深圳)有限公司 | 出行路线的推荐方法、装置、电子设备及可读存储介质 |
CN114048304A (zh) * | 2021-10-26 | 2022-02-15 | 盐城金堤科技有限公司 | 有效关键词确定方法、装置、存储介质和电子设备 |
CN117056459A (zh) * | 2023-08-07 | 2023-11-14 | 北京网聘信息技术有限公司 | 一种向量召回方法和装置 |
CN117056459B (zh) * | 2023-08-07 | 2024-05-10 | 北京网聘信息技术有限公司 | 一种向量召回方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198940B (zh) | Faq方法、问答检索系统、电子设备和存储介质 | |
CN111782975A (zh) | 一种检索方法、装置和电子设备 | |
CN111709247A (zh) | 数据集处理方法、装置、电子设备和存储介质 | |
US20210200813A1 (en) | Human-machine interaction method, electronic device, and storage medium | |
US20220027575A1 (en) | Method of predicting emotional style of dialogue, electronic device, and storage medium | |
CN113344089B (zh) | 模型训练方法、装置及电子设备 | |
CN110543558A (zh) | 问题匹配方法、装置、设备和介质 | |
CN111767334A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN112084150A (zh) | 模型训练、数据检索方法,装置,设备以及存储介质 | |
CN112506949A (zh) | 结构化查询语言查询语句生成方法、装置及存储介质 | |
CN112380847A (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
CN112101013A (zh) | 地点抽取方法、装置、设备以及存储介质 | |
CN113342946B (zh) | 客服机器人的模型训练方法、装置、电子设备及介质 | |
US11468236B2 (en) | Method and apparatus for performing word segmentation on text, device, and medium | |
CN111259058B (zh) | 数据挖掘方法、数据挖掘装置和电子设备 | |
CN111339314B (zh) | 一种三元组数据的生成方法、装置和电子设备 | |
CN110795456B (zh) | 图谱的查询方法、装置、计算机设备以及存储介质 | |
CN111767477A (zh) | 一种检索方法、装置、电子设备和存储介质 | |
CN112528146A (zh) | 内容资源推荐方法、装置、电子设备及存储介质 | |
CN111984876A (zh) | 兴趣点处理方法、装置、设备及计算机可读存储介质 | |
CN114860913B (zh) | 智能问答系统构建方法、问答处理方法及装置 | |
CN111310481A (zh) | 语音翻译方法、装置、计算机设备和存储介质 | |
CN113595770B (zh) | 群组点击率预估方法、装置、电子设备和存储介质 | |
CN113836377A (zh) | 信息关联方法、装置、电子设备及存储介质 | |
CN112487313A (zh) | 兴趣点识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |