CN115640445A - 搜索请求响应方法、装置、计算机设备及存储介质 - Google Patents

搜索请求响应方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115640445A
CN115640445A CN202211322683.3A CN202211322683A CN115640445A CN 115640445 A CN115640445 A CN 115640445A CN 202211322683 A CN202211322683 A CN 202211322683A CN 115640445 A CN115640445 A CN 115640445A
Authority
CN
China
Prior art keywords
entity
effective
words
entity words
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211322683.3A
Other languages
English (en)
Inventor
鲁俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Himalaya Technology Co ltd
Original Assignee
Shanghai Himalaya Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Himalaya Technology Co ltd filed Critical Shanghai Himalaya Technology Co ltd
Priority to CN202211322683.3A priority Critical patent/CN115640445A/zh
Publication of CN115640445A publication Critical patent/CN115640445A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种搜索请求响应方法、装置、计算机设备及存储介质,涉及计算机技术领域。所述方法,首先,获取用户搜索请求,用户搜索请求包括用户输入的搜索文本;然后,利用预先训练的实体识别模型和预先构建的词典,获得搜索文本中的有效实体词;接着,基于预先构建的标准实体词库,获得有效实体词对应的标准实体词;最后,根据标准实体词,确定推送内容,以响应用户搜索请求,从而降低了用户非标准输入对搜索引擎解析用户意图的影响,提高了用户的搜索体验。

Description

搜索请求响应方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种搜索请求响应方法、装置、计算机设备及存储介质。
背景技术
在搜索应用中,尤其是图书、音频、视频等搜索引擎中,存在大量的作品的专有名词,而用户在输入搜索文本时,表述方式可能与专有名词不统一,例如多字、漏字、标点不一致、英文大小写、数字和中文不统一等。
举例来说,假设作品的专有名词叫做“小明上学记一二三年级”,用户输入的搜索文本可能为“小明上学记123年级”,同样地,假设作品的专有名称是“侠客五六七”,用户输入的搜索文本可能为“侠客567”。
由于用户输入的搜索文本与作品的专有名词的表述方式不一致,使得搜索引擎解析出的搜索文本中的实体词不准确,在后续不能准确召回符合用户意图的内容,无法保障用户的搜索体验。
发明内容
为了克服现有技术的不足,本发明实施例提供了一种搜索请求响应方法、装置、计算机设备及存储介质。
本发明实施例的技术方案可以这样实现:
第一方面,本发明实施例提供一种搜索请求响应方法,所述方法包括:
获取用户搜索请求,所述用户搜索请求包括用户输入的搜索文本;
利用预先训练的实体识别模型和预先构建的词典,获得所述搜索文本中的有效实体词;
基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词;
根据所述标准实体词,确定推送内容,以响应所述用户搜索请求。
可选地,所述利用预先训练的实体识别模型和预先构建的词典,获得所述搜索文本中的有效实体词的步骤包括:
将所述搜索文本输入所述实体识别模型,得到第一实体词;
将所述搜索文本输入所述词典,得到第二实体词;
对所述第一实体词和所述第二实体词进行融合去重处理,得到所述有效实体词。
可选地,所述标准实体词库包括多个候选实体词,所述基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词的步骤包括:
计算所述有效实体词与每个所述候选实体词的相似度,并将与所述有效实体词的相似度最大的所述候选实体词作为待定实体词;
若所述待定实体词与所述有效实体词的相似度大于预设阈值,则将所述待定实体词作为所述有效实体词对应的标准实体词。
可选地,所述计算所述有效实体词与每个所述候选实体词的相似度的步骤包括:
针对每个所述候选实体词,统计所述候选实体词中目标字符的个数,所述目标字符为所述候选实体词和所述有效实体词中均存在的字符;
若所述候选实体词的总字符数小于所述有效实体词的总字符数,则将所述目标字符的个数与所述候选实体词的总字符数的比值,作为所述候选实体词与所述有效实体词的相似度;
若所述候选实体词的总字符数不小于所述有效实体词的总字符数,则将所述目标字符的个数与所述有效实体词的总字符数的比值,作为所述候选实体词与所述有效实体词的相似度。
可选地,所述基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词的步骤还包括:
若所述待定实体词与所述有效实体词的相似度不大于预设阈值、且所述有效实体词中存在字符串为阿拉伯数字,则将所述字符串作为待转换字符串;
利用预先训练的转换方式预测模型,确定所述待转化字符串的转换方式;
根据所述转换方式,将所述待转换字符串从阿拉伯数字转换为中文数字,得到转换后的有效实体词;
计算转换后的有效实体词与每个所述候选实体词的相似度,并根据转换后的有效实体词与每个所述候选实体词的相似度,确定所述有效实体词对应的标准实体词。
可选地,所述根据所述转换方式,将所述待转换字符串从阿拉伯数字转换为中文数字的步骤包括:
若所述转换方式为单字符转换,则针对所述待转换字符串中的每个字符,按照所述字符的数值,将所述字符从阿拉伯数字转化为中文数字;
若所述转换方式为所述整体转换,则按照所述待转换字符串的数值,将所述待转换字符串从阿拉伯数字转化为中文数字。
可选地,所述基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词的步骤还包括:
若所述待定实体词与所述有效实体词的相似度不大于预设阈值、且所述有效实体词中存在字符串为中文数字,则将所述字符串作为待转换字符串;
若所述待转换字符串中存在预设字符,则按照所述待转换字符串的数值,将所述待转换字符串从中文数字转换为阿拉伯数字,得到转换后的有效实体词,所述预设字符表征计数单位;
若所述待转换字符串中不存在预设字符,则针对所述待转换字符串中的每个字符,按照所述字符的数值,将所述字符从中文数字转化为阿拉伯数字,得到转换后的有效实体词;
计算转换后的有效实体词与每个所述候选实体词的相似度,并根据转换后的有效实体词与每个所述候选实体词的相似度,确定所述有效实体词对应的标准实体词。
第二方面,本发明实施例提供一种搜索请求响应装置,所述装置包括:
获取模块,用于获取用户搜索请求,所述用户搜索请求包括用户输入的搜索文本;
处理模块,用于:
利用预先训练的实体识别模型和预先构建的词典,获得所述搜索文本中的有效实体词;
基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词;
响应模块,用于根据所述标准实体词,确定推送内容,以响应所述用户搜索请求。
第三方面,本发明实施例提供一种计算机设备,其包括存储器和处理器,所述存储器存储计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的搜索请求响应方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的搜索请求响应方法。
相较于现有技术,本发明实施例提供的一种搜索请求响应方法、装置、计算机设备及存储介质,首先,获取用户搜索请求,用户搜索请求包括用户输入的搜索文本;然后,利用预先训练的实体识别模型和预先构建的词典,获得搜索文本中的有效实体词;接着,基于预先构建的标准实体词库,获得有效实体词对应的标准实体词;最后,根据标准实体词,确定推送内容,以响应用户搜索请求。由于本发明实施例通过预先构建的标准实体词库,获得搜索文本中有效实体词对应的标准实体词,再根据标准实体词,确定符合用户意图的推送内容,从而降低了用户非标准输入对搜索引擎解析用户意图的影响,提高了用户的搜索体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种搜索请求响应方法的流程示意图一;
图2为本发明实施例提供的一种搜索请求响应方法的流程示意图二;
图3为本发明实施例提供的一种搜索请求响应方法的流程示意图三;
图4为本发明实施例提供的一种搜索请求响应装置的功能单元框图;
图5为本发明实施例提供的一种计算机设备的结构示意框图。
图标:100-搜索请求响应装置;101-获取模块;102-处理模块;103-响应模块;200-计算机设备;210-存储器;220-处理器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
为了降低用户的非标准输入对搜索引擎解析用户意图的影响,保障用户搜索体验,本发明实施例提供了一种搜索请求响应方法,下面将进行详细介绍。
请参照图1,该搜索请求响应方法包括步骤S101~S104。
S101,获取用户搜索请求。
其中,用户搜索请求包括用户输入的搜索文本。
S102,利用预先训练的实体识别模型和预先构建的词典,获得搜索文本中的有效实体词。
其中,有效实体词是指搜索文本中能反映用户真实意图的实体词,在图书、音频、视频等搜索场景中,有效实体词通常是作品名。
实体识别模型的训练过程可以如下:首先,对用户输入的历史搜索文本进行人工标注,标注其中的作品名,得到训练语料;然后将训练语料输入预先构建的bert模型,得到实体识别模型。
词典的构建过程可以如下:首先,离线构建初始词典;然后,通过站外知识图谱和用户日志中进行实体词挖掘;接着,对挖掘出的实体词进行清洗处理后,再加入初始词典,得到用于获取有效实体词的词典。
作为一种可能的实现方式,步骤S102的实现过程可以如此:
首先,将搜索文本输入实体识别模型,得到第一实体词。
然后,将搜索文本输入词典,得到第二实体词。
接着,对第一实体词和第二实体词进行融合去重处理,得到有效实体词。
示例性地,假设用户输入的搜索文本为“趣读侠客567”,将其分别输入实体识别模型和词典,实体识别模型输出的第一实体词为“侠客567”,词典输出的第二实体词为“侠客567”,通过对第一实体词和第二实体词进行融合去重处理,得到有效实体词为“侠客567”。
S103,基于预先构建的标准实体词库,获得有效实体词对应的标准实体词。
其中,预先构建的标准实体词库多个候选实体词,每个候选实体词均是从图书、音频和视频的出版信息或者版权信息中获取的图书、音频和视频的专有名称。
作为一种可能的实现方式,请参照图2,步骤S103可以包括子步骤S103-1~S103-2。
S103-1,计算有效实体词与每个候选实体词的相似度,并将与有效实体词的相似度最大的候选实体词作为待定实体词。
在本发明实施例中,“计算有效实体词与每个候选实体词的相似度”的过程可以如下:
首先,针对每个候选实体词,统计候选实体词中目标字符的个数;
其中,目标字符为候选实体词和有效实体词中均存在的字符。
若候选实体词的总字符数小于有效实体词的总字符数,则将目标字符的个数与候选实体词的总字符数的比值,作为候选实体词与有效实体词的相似度;
若候选实体词的总字符数不小于有效实体词的总字符数,则将目标字符的个数与有效实体词的总字符数的比值,作为候选实体词与有效实体词的相似度。
示例性地,假设有效实体词为“侠客5678”,一候选实体词为“侠客五六七”,由于字符“侠”和“客”在有效实体词和候选实体词中均存在,所以字符“侠”和“客”目标字符,也就是说,有效实体词中的目标字符的个数为2。
而有效实体词的总字符数为6,候选实体词的总字符数为5,由于候选实体词的总字符数小于有效实体词的总字符数,因此,候选实体词与有效实体词的相似度为目标字符的个数与候选实体词的总字符数的比值,即2/5=0.4。
S103-2,若待定实体词与有效实体词的相似度大于预设阈值,则将待定实体词作为有效实体词对应的标准实体词。
其中,预设阈值可以根据实际需要进行设定。
示例性地,假设候选实体词1与有效实体词的相似度为0.75,候选实体词2与有效实体词的相似度为0.88,候选实体词3与有效实体词的相似度为0.91,由于候选实体词3与有效实体词的相似度最高,因此将候选实体词3作为待定实体词。
假设预设阈值为0.90,由于待定实体词与有效实体词的相似度为0.91,大于0.90,因此,可以将待定实体词,即候选实体词3作为有效实体词对应的标准实体词。
而当待定实体词与有效实体词的相似度不大于预设阈值时,请参照图3,步骤S103还包括与子步骤S103-2并列的子步骤S103-3~S103-6。
S103-3,若待定实体词与有效实体词的相似度不大于预设阈值、且有效实体词中存在字符串为阿拉伯数字,则将字符串作为待转换字符串。
示例性地,假设有效实体词为“侠客567”,对于该有效实体词,由于通过步骤S103-1~S103-2得到的待定实体词与该有效实体词的相似度不大于预设阈值,且该有效实体词中存在字符串“567”为阿拉伯数字,因此,将字符串“567”作为待转换字符串。
S103-4,利用预先训练的转换方式预测模型,确定待转化字符串的转换方式。
其中,转换方式包括单字符转换和整体转换。
可以理解地,单字符转换是指将字符串中的每个字符按照数值单独进行转换,而整体转换是指将字符串看作一个整体,根据整体数值进行转换。例如,字符串“567”,按照单字符转换,需依次将字符“5”转换为字符“五”、字符“6”转换为字符“六”、字符“7”转换为字符“七”,得到的最终结果为字符串“五六七”,而按照整体转换,得到的最终结果为“五百六十七”。
在本发明实施例中,待转换字符串的转换方式是由预先训练的转换方式预测模型确定的,转换方式预测模型的训练过程可以如下:首先,从用户日志中抽取用户输入发包含阿拉伯数字的搜索文本,人工标注阿拉伯数字部分的转化方式,得到训练语料;然后,将训练语料输入预先构建的bert模型进行训练,得到转换方式预测模型。
S103-5,根据转换方式,将待转换字符串从阿拉伯数字转换为中文数字,得到转换后的有效实体词。
在本发明实施例中,步骤S103-5的实现过程可以如下:
若转换方式为单字符转换,则针对待转换字符串中的每个字符,按照字符的数值,将字符从阿拉伯数字转化为中文数字。
若转换方式为整体转换,则按照待转换字符串的数值,将待转换字符串从阿拉伯数字转化为中文数字。
示例性地,假设有效实体词“1001夜”中的待转换字符串为“1001”,通过转换方式预测模型,确定出“1001”的转换方式为整体转换,因此,将“1001”转化为“一千零一”,进而得转换后的有效实体词为“一千零一夜”。
S103-6,计算转换后的有效实体词与每个候选实体词的相似度,并根据转换后的有效实体词与每个候选实体词的相似度,确定有效实体词对应的标准实体词。
其中,步骤S103-6中的“计算转换后的有效实体词与每个候选实体词的相似度”的实现原理与步骤S103-1中“计算有效实体词与每个候选实体词的相似度”的实现原理相同,在此不再进行赘述。
步骤S103-6中“根据转换后的有效实体词与每个候选实体词的相似度,确定有效实体词对应的标准实体词”的实现过程可以如下:
首先,判断是否存在候选实体词与转换后的有效实体词的相似度大于预设阈值;
若存在一个候选实体词与转换后的有效实体词的相似度大于预设阈值,则将该候选实体词作为有效实体词对应的标准实体词;
若存在多个候选实体词与转换后的有效实体词的相似度大于预设阈值,则将多个候选实体词中与转换后的有效实体词的相似度最大者,作为有效实体词对应的标准实体词;
若不存在候选实体词与转换后的有效实体词的相似度大于预设阈值,则将有效实体词本身作为其对应的标准实体词。
请再次参照图3,步骤S103还包括与子步骤S103-2、子步骤S103-3~S103-6并列的子步骤S103-7~S103-10。
S103-7,若待定实体词与有效实体词的相似度不大于预设阈值、且有效实体词中存在字符串为中文数字,则将字符串作为待转换字符串。
示例性地,假设有效实体词为“小明上学记一二三年纪”,对于该有效实体词,由于通过步骤S103-1~S103-2得到的待定实体词与该有效实体词的相似度不大于预设阈值,且该有效实体词中存在字符串“一二三”为中文数字,因此,将字符串“一二三”作为待转换字符串。
S103-8,若待转换字符串中存在预设字符,则按照待转换字符串的数值,将待转换字符串从中文数字转换为阿拉伯数字,得到转换后的有效实体词。
其中,预设字符表征计数单位,例如十、百、千、万、亿等。
示例性地,假设有效实体词为“第一百零一次告白”,其待转换字符串为“一百零一”,由于“一百零一”中存在预设字符“百”,因此,按照该待转换字符串的整体数值进行转换的结果为“101”,进而得到转换后的有效实体词为“第101次告白”。
S103-9,若待转换字符串中不存在预设字符,则针对待转换字符串中的每个字符,按照字符的数值,将字符从中文数字转化为阿拉伯数字,得到转换后的有效实体词。
示例性地,假设有效实体词为“大内密探零零九”,其待转换字符串为“零零九”,由于“零零九”中不存在任何预设字符,因此,依次将“零零九”中的每个字符按照数值进行转换,即将字符“零”转换为字符“0”、字符“零”转换为“0”、字符“九”转换为字符“9”。
S103-10,计算转换后的有效实体词与每个候选实体词的相似度,并根据转换后的有效实体词与每个候选实体词的相似度,确定有效实体词对应的标准实体词。
其中,步骤S103-10的实现原理与步骤S103-6的实现原理相同,在此不再进行赘述。
可以理解地,对于通过步骤S103-1确定出的待定实体词,若其与有效实体词的相似度不大于预设阈值,且有效实体词中也不存在字符串为阿拉伯数字或中文数字,则直接将有效实体词自身作为其标准实体词。
S104,根据所述标准实体词,确定推送内容,以响应所述用户搜索请求。
在本发明实施例中,利用搜索文本中的有效实体词对应的标准实体词,进行推送内容匹配,对于确定出推送内容,按照与标准实体词反映的用户真实意图的匹配度进行排序后,再依次推送给用户。
相较于现有技术,本发明实施例的技术效果为通过预先构建的标准实体词库,获得搜索文本中有效实体词对应的标准实体词,再根据标准实体词,确定的推送内容,从而降低了用户非标准输入对搜索引擎解析用户意图的影响,使得搜索引擎在搜索召回阶段能够召回更多符合用户意图的推送内容、且推送内容的排序更加准确,进而提高了用户的搜索体验。
为了执行上述方法实施例及各个可能的实施方式中的相应步骤,下面给出一种搜索请求响应装置100的实现方式。
请参照图4,该搜索请求响应装置100包括获取模块101、处理模块102和响应模块103。
获取模块103,用于获取用户搜索请求,用户搜索请求包括用户输入的搜索文本。
处理模块102,用于利用预先训练的实体识别模型和预先构建的词典,获得搜索文本中的有效实体词;基于预先构建的标准实体词库,获得有效实体词对应的标准实体词。
响应模块103,用于根据标准实体词,确定推送内容,以响应用户搜索请求。
可选地,处理模块102具体用于将搜索文本输入所述实体识别模型,得到第一实体词;将搜索文本输入词典,得到第二实体词;对第一实体词和第二实体词进行融合去重处理,得到有效实体词。
可选地,处理模块102还具体用于计算有效实体词与每个候选实体词的相似度,并将与有效实体词的相似度最大的候选实体词作为待定实体词;若待定实体词与有效实体词的相似度大于预设阈值,则将待定实体词作为有效实体词对应的标准实体词。
可选地,处理模块102在用于计算有效实体词与每个候选实体词的相似度时,具体用于针对每个候选实体词,统计候选实体词中目标字符的个数,目标字符为候选实体词和有效实体词中均存在的字符;若候选实体词的总字符数小于有效实体词的总字符数,则将目标字符的个数与候选实体词的总字符数的比值,作为候选实体词与有效实体词的相似度;若候选实体词的总字符数不小于有效实体词的总字符数,则将目标字符的个数与有效实体词的总字符数的比值,作为候选实体词与有效实体词的相似度。
可选地,处理模块102还具体用于若待定实体词与有效实体词的相似度不大于预设阈值、且有效实体词中存在字符串为阿拉伯数字,则将字符串作为待转换字符串;利用预先构建的转换方式预测模型,确定待转化字符串的转换方式;根据转换方式,将待转换字符串从阿拉伯数字转换为中文数字,得到转换后的有效实体词;计算转换后的有效实体词与每个候选实体词的相似度,并根据转换后的有效实体词与每个候选实体词的相似度,确定有效实体词对应的标准实体词。
可选地,处理模块102在用于根据转换方式,将待转换字符串从阿拉伯数字转换为中文数字时,具体用于若转换方式为单字符转换,则针对待转换字符串中的每个字符,按照字符的数值,将字符从阿拉伯数字转化为中文数字;若转换方式为整体转换,则按照待转换字符串的数值,将待转换字符串从阿拉伯数字转化为中文数字。
可选地,处理模块102还具体用于若待定实体词与有效实体词的相似度不大于预设阈值、且有效实体词中存在字符串为中文数字,则将字符串作为待转换字符串;若待转换字符串中存在预设字符,则按照待转换字符串的数值,将待转换字符串从中文数字转换为阿拉伯数字,得到转换后的有效实体词,预设字符表征计数单位;若待转换字符串中不存在预设字符,则针对待转换字符串中的每个字符,按照字符的数值,将字符从中文数字转化为阿拉伯数字,得到转换后的有效实体词;计算转换后的有效实体词与每个候选实体词的相似度,并根据转换后的有效实体词与每个候选实体词的相似度,确定有效实体词对应的标准实体词。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的搜索请求响应装置100的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
进一步地,本发明实施例还提供了一种计算机设备200,请参照图5,计算机设备200可以包括存储器210和处理器220。
其中,处理器220可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制上述方法实施例提供的搜索请求响应方法的程序执行的集成电路。
存储器210可以是ROM或可存储静态信息和指令的其它类型的静态存储设备,RAM或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only MEMory,EEPROM)、只读光盘(CompactdiscRead-Only MEMory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器210可以是独立存在,通过通信总线与处理器220相连接。存储器210也可以和处理器220集成在一起。其中,存储器210用于存储执行本申请方案的机器可执行指令。处理器220用于执行存储器210中存储的机器可执行指令,以实现上述的方法实施例。
本发明实施例还提供一种包含计算机程序的计算机可读存储介质,计算机程序在被执行时可以用于执行上述的方法实施例提供的搜索请求响应方法中的相关操作。
综上,本发明实施例提供的一种搜索请求响应方法、装置、计算机设备及存储介质,首先,获取用户搜索请求,用户搜索请求包括用户输入的搜索文本;然后,利用预先训练的实体识别模型和预先构建的词典,获得搜索文本中的有效实体词;接着,基于预先构建的标准实体词库,获得有效实体词对应的标准实体词;最后,根据标准实体词,确定推送内容,以响应用户搜索请求。由于本发明实施例通过预先构建的标准实体词库,获得搜索文本中有效实体词对应的标准实体词,再根据标准实体词,确定符合用户意图的推送内容,从而降低了用户非标准输入对搜索引擎解析用户意图的影响,提高了用户的搜索体验。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种搜索请求响应方法,其特征在于,所述方法包括:
获取用户搜索请求,所述用户搜索请求包括用户输入的搜索文本;
利用预先训练的实体识别模型和预先构建的词典,获得所述搜索文本中的有效实体词;
基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词;
根据所述标准实体词,确定推送内容,以响应所述用户搜索请求。
2.如权利要求1所述的方法,其特征在于,所述利用预先训练的实体识别模型和预先构建的词典,获得所述搜索文本中的有效实体词的步骤包括:
将所述搜索文本输入所述实体识别模型,得到第一实体词;
将所述搜索文本输入所述词典,得到第二实体词;
对所述第一实体词和所述第二实体词进行融合去重处理,得到所述有效实体词。
3.如权利要求1所述的方法,其特征在于,所述标准实体词库包括多个候选实体词,所述基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词的步骤包括:
计算所述有效实体词与每个所述候选实体词的相似度,并将与所述有效实体词的相似度最大的所述候选实体词作为待定实体词;
若所述待定实体词与所述有效实体词的相似度大于预设阈值,则将所述待定实体词作为所述有效实体词对应的标准实体词。
4.如权利要求3所述的方法,其特征在于,所述计算所述有效实体词与每个所述候选实体词的相似度的步骤包括:
针对每个所述候选实体词,统计所述候选实体词中目标字符的个数,所述目标字符为所述候选实体词和所述有效实体词中均存在的字符;
若所述候选实体词的总字符数小于所述有效实体词的总字符数,则将所述目标字符的个数与所述候选实体词的总字符数的比值,作为所述候选实体词与所述有效实体词的相似度;
若所述候选实体词的总字符数不小于所述有效实体词的总字符数,则将所述目标字符的个数与所述有效实体词的总字符数的比值,作为所述候选实体词与所述有效实体词的相似度。
5.如权利要求3所述的方法,其特征在于,所述基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词的步骤还包括:
若所述待定实体词与所述有效实体词的相似度不大于预设阈值、且所述有效实体词中存在字符串为阿拉伯数字,则将所述字符串作为待转换字符串;
利用预先训练的转换方式预测模型,确定所述待转化字符串的转换方式;
根据所述转换方式,将所述待转换字符串从阿拉伯数字转换为中文数字,得到转换后的有效实体词;
计算转换后的有效实体词与每个所述候选实体词的相似度,并根据转换后的有效实体词与每个所述候选实体词的相似度,确定所述有效实体词对应的标准实体词。
6.如权利要求5所述的方法,其特征在于,所述根据所述转换方式,将所述待转换字符串从阿拉伯数字转换为中文数字的步骤包括:
若所述转换方式为单字符转换,则针对所述待转换字符串中的每个字符,按照所述字符的数值,将所述字符从阿拉伯数字转化为中文数字;
若所述转换方式为所述整体转换,则按照所述待转换字符串的数值,将所述待转换字符串从阿拉伯数字转化为中文数字。
7.如权利要求3所述的方法,其特征在于,所述基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词的步骤还包括:
若所述待定实体词与所述有效实体词的相似度不大于预设阈值、且所述有效实体词中存在字符串为中文数字,则将所述字符串作为待转换字符串;
若所述待转换字符串中存在预设字符,则按照所述待转换字符串的数值,将所述待转换字符串从中文数字转换为阿拉伯数字,得到转换后的有效实体词,所述预设字符表征计数单位;
若所述待转换字符串中不存在预设字符,则针对所述待转换字符串中的每个字符,按照所述字符的数值,将所述字符从中文数字转化为阿拉伯数字,得到转换后的有效实体词;
计算转换后的有效实体词与每个所述候选实体词的相似度,并根据转换后的有效实体词与每个所述候选实体词的相似度,确定所述有效实体词对应的标准实体词。
8.一种搜索请求响应装置,其特征在于,所述装置包括:
获取模块,用于获取用户搜索请求,所述用户搜索请求包括用户输入的搜索文本;
处理模块,用于:
利用预先训练的实体识别模型和预先构建的词典,获得所述搜索文本中的有效实体词;
基于预先构建的标准实体词库,获得所述有效实体词对应的标准实体词;
响应模块,用于根据所述标准实体词,确定推送内容,以响应所述用户搜索请求。
9.一种计算机设备,其特征在于,其包括存储器和处理器,所述存储器存储计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的搜索请求响应方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的搜索请求响应方法。
CN202211322683.3A 2022-10-27 2022-10-27 搜索请求响应方法、装置、计算机设备及存储介质 Pending CN115640445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211322683.3A CN115640445A (zh) 2022-10-27 2022-10-27 搜索请求响应方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211322683.3A CN115640445A (zh) 2022-10-27 2022-10-27 搜索请求响应方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115640445A true CN115640445A (zh) 2023-01-24

Family

ID=84946070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211322683.3A Pending CN115640445A (zh) 2022-10-27 2022-10-27 搜索请求响应方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115640445A (zh)

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN106776544B (zh) 人物关系识别方法及装置和分词方法
US20160328377A1 (en) System and method for inputting text into electronic devices
EP1691299A2 (en) Efficient language identification
US20080208566A1 (en) Automated word-form transformation and part of speech tag assignment
CN110741376B (zh) 用于不同自然语言的自动文档分析
US20080077397A1 (en) Dictionary creation support system, method and program
US11393237B1 (en) Automatic human-emulative document analysis
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
CN111310440A (zh) 文本的纠错方法、装置和系统
CN111460793A (zh) 纠错方法、装置、设备及存储介质
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN112528681A (zh) 跨语言检索及模型训练方法、装置、设备和存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
JPWO2015166606A1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
WO2015075920A1 (ja) 入力支援装置、入力支援方法及び記録媒体
CN109727591B (zh) 一种语音搜索的方法及装置
CN115640445A (zh) 搜索请求响应方法、装置、计算机设备及存储介质
JP2000148754A (ja) マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination