CN115033797A - 内容搜索方法及装置、存储介质、计算机设备 - Google Patents

内容搜索方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
CN115033797A
CN115033797A CN202210763002.0A CN202210763002A CN115033797A CN 115033797 A CN115033797 A CN 115033797A CN 202210763002 A CN202210763002 A CN 202210763002A CN 115033797 A CN115033797 A CN 115033797A
Authority
CN
China
Prior art keywords
keyword
candidate
keywords
search
display content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210763002.0A
Other languages
English (en)
Inventor
郑思琪
刘传宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN202210763002.0A priority Critical patent/CN115033797A/zh
Publication of CN115033797A publication Critical patent/CN115033797A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本申请公开了一种内容搜索方法及装置、存储介质、计算机设备,该方法包括:接收搜索输入信息;在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,其中,所述候选关键词通过对候选展示内容进行初始关键词分析,并基于所述初始关键词与所述候选展示内容的语义相关性对所述初始关键词进行筛选而得到;依据所述目标关键词获取所述候选展示内容中的目标展示内容,并基于所述目标展示内容进行搜索结果展示。本申请基于候选展示内容进行关键词提炼,有助于得到更丰富、全面的用来描述候选搜索对象的候选关键词,从而在用户进行搜索时,利用这些候选关键词进行结果召回,有助于得到更丰富的搜索结果,提升搜索结果的准确性、全面性。

Description

内容搜索方法及装置、存储介质、计算机设备
技术领域
本申请涉及互联网技术领域,尤其是涉及到一种内容搜索方法及装置、存储介质、计算机设备。
背景技术
随着互联网技术的飞速发展,越来越多的人选择在网络平台进行消费购物。其中,线上找店功能广受用户的青睐。用户在平台中输入一些想要搜索的关键词,系统根据用户输入的关键词,对店铺名称、店铺菜品进行匹配,确定搜索结果,并进行店铺列表的展示。这种结果匹配方式是否精准依赖于商家的店铺名称和制定的菜品名称,例如用户搜索“烤肉”,而一家售卖烤肉的店铺如果店铺名称和菜品名称不包含“烤肉”这个关键词,那么用户就无法通过这种方式搜索到这家店铺。通过现有技术的这种方式进行搜索,得到的搜索结果往往很少,用户很难在每次搜索中都得到丰富的内容。
发明内容
有鉴于此,本申请提供了一种内容搜索方法及装置、存储介质、计算机设备,有助于得到更丰富的搜索结果,提升搜索结果的准确性、全面性。
根据本申请的一个方面,提供了一种内容搜索方法,所述方法包括:
接收搜索输入信息;
在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,其中,所述候选关键词通过对候选展示内容进行初始关键词分析,并基于所述初始关键词与所述候选展示内容的语义相关性对所述初始关键词进行筛选而得到;
依据所述目标关键词获取所述候选展示内容中的目标展示内容,并基于所述目标展示内容进行搜索结果展示。
可选地,所述接收搜索输入信息之前,所述方法还包括:
获取至少一个候选展示内容,并分别对每个所述候选展示内容进行关键词分析确定初始关键词;
针对任一候选展示内容,分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性,并依据所述语义相关性筛选所述初始关键词,确定所述任一候选展示内容对应的标签关键词;
对全部候选展示内容的标签关键词进行去重处理得到所述候选关键词,并标注每个所述候选关键词对应的待展示内容;
相应地,所述依据所述目标关键词获取所述候选展示内容中的目标展示内容,具体包括:
获取所述目标关键词对应的待展示内容标注信息,作为所述目标展示内容。
可选地,所述分别对每个所述候选展示内容进行关键词分析确定初始关键词,具体包括:
对每个所述候选展示内容进行实体词识别,得到第一关键词;和/或,
对每个所述候选展示内容进行关键词识别,并基于识别出的关键词在预设语料库中出现的频率进行关键词筛选,得到第二关键词;和/或,
识别每个所述候选展示内容中包含预设符号的待提取文本,并对所述待提取文本进行字符提取,得到第三关键词;和/或,
依据预设关键词词库,获取每个所述候选展示内容命中的第四关键词;
分别对每个所述候选展示内容对应的所述第一关键词和/或所述第二关键词和/或所述第三关键词和/或所述第四关键词进行去重处理,确定每个所述候选展示内容对应的所述初始关键词。
可选地,所述针对任一候选展示内容,分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性,具体包括:
计算所述任一候选展示内容的第一语义表征以及所述任一候选展示内容对应的每个初始关键词的第二语义表征;
通过预设的多层感知器,分别计算所述第一语义表征与每个所述第二语义表征的语义相关性,其中,所述多层感知器被配置为leaky relu激活函数。
可选地,所述接收搜索输入信息之后,所述方法还包括:
获取所述搜索输入信息对应的搜索关键词,并依据预设关键词扩展词词表,对所述搜索关键词进行扩展;
相应地,所述在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,具体包括:
在所述候选关键词中,获取与扩展后的搜索关键词匹配的目标关键词。
可选地,所述依据预设关键词扩展词词表,对所述搜索关键词进行扩展,具体包括:
在预设同义词词表中获取所述搜索关键词对应的同义关键词,并依据预设原词词表对所述同义关键词进行筛选,获取命中所述预设原词词表的第一扩展词;
在所述预设原词词表中获取所述搜索关键词命中的第二扩展词,以及在预设扩展词词表中,获取所述搜索关键词对应的第三扩展词;
对所述第一扩展词、所述第二扩展词以及所述第三扩展词进行合并去重,得到扩展后的搜索关键词。
可选地,所述候选展示内容包括针对候选店铺的用户原创内容UGC(UGC,UserGenerated Content);所述接收搜索输入信息,具体包括:
接收在店铺搜索页面中的搜索输入信息;
相应地,所述基于所述目标展示内容进行搜索结果展示,具体包括:
确定所述目标展示内容对应的目标店铺,并展示所述目标店铺以及所述目标展示内容。
根据本申请的另一方面,提供了一种内容搜索装置,所述装置包括:
信息接收模块,用于接收搜索输入信息;
关键词获取模块,用于在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,其中,所述候选关键词通过对候选展示内容进行初始关键词分析,并基于所述初始关键词与所述候选展示内容的语义相关性对所述初始关键词进行筛选而得到;
结果展示模块,用于依据所述目标关键词获取所述候选展示内容中的目标展示内容,并基于所述目标展示内容进行搜索结果展示。
可选地,所述候选展示内容包括针对候选店铺的用户原创内容UGC(UGC,UserGenerated Content);
所述信息接收模块,具体用于:接收在店铺搜索页面中的搜索输入信息;
相应地,所述结果展示模块,具体用于:确定所述目标展示内容对应的目标店铺,并展示所述目标店铺以及所述目标展示内容。
可选地,所述装置还包括:关键词构建模块,用于:
获取至少一个候选展示内容,并分别对每个所述候选展示内容进行关键词分析确定初始关键词;
针对任一候选展示内容,分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性,并依据所述语义相关性筛选所述初始关键词,确定所述任一候选展示内容对应的标签关键词;
对全部候选展示内容的标签关键词进行去重处理得到所述候选关键词,并标注每个所述候选关键词对应的待展示内容;
相应地,所述结果展示模块,具体用于:获取所述目标关键词对应的待展示内容标注信息,作为所述目标展示内容。
可选地,所述关键词构建模块,还用于:
对每个所述候选展示内容进行实体词识别,得到第一关键词;和/或,
对每个所述候选展示内容进行关键词识别,并基于识别出的关键词在预设语料库中出现的频率进行关键词筛选,得到第二关键词;和/或,
识别每个所述候选展示内容中包含预设符号的待提取文本,并对所述待提取文本进行字符提取,得到第三关键词;和/或,
依据预设关键词词库,获取每个所述候选展示内容命中的第四关键词;
分别对每个所述候选展示内容对应的所述第一关键词和/或所述第二关键词和/或所述第三关键词和/或所述第四关键词进行去重处理,确定每个所述候选展示内容对应的所述初始关键词。
可选地,所述关键词构建模块,还用于:
计算所述任一候选展示内容的第一语义表征以及所述任一候选展示内容对应的每个初始关键词的第二语义表征;
通过预设的多层感知器,分别计算所述第一语义表征与每个所述第二语义表征的语义相关性,其中,所述多层感知器被配置为leaky relu激活函数。
可选地,所述装置还包括:
搜索信息扩展模块,用于所述接收搜索输入信息之后,获取所述搜索输入信息对应的搜索关键词,并依据预设关键词扩展词词表,对所述搜索关键词进行扩展;
相应地,所述关键词获取模块,还用于:在所述候选关键词中,获取与扩展后的搜索关键词匹配的目标关键词。
可选地,所述搜索信息扩展模块,具体用于:
在预设同义词词表中获取所述搜索关键词对应的同义关键词,并依据预设原词词表对所述同义关键词进行筛选,获取命中所述预设原词词表的第一扩展词;
在所述预设原词词表中获取所述搜索关键词命中的第二扩展词,以及在预设扩展词词表中,获取所述搜索关键词对应的第三扩展词;
对所述第一扩展词、所述第二扩展词以及所述第三扩展词进行合并去重,得到扩展后的搜索关键词。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述内容搜索方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述内容搜索方法。
借由上述技术方案,本申请提供的一种内容搜索方法及装置、存储介质、计算机设备,通过预先对候选展示内容进行初始关键词分析,并基于初始关键词和候选展示内容之间的语义相关性对初始关键词进行筛选得到候选关键词,从而在用户进行内容搜索时,在候选关键词中获取与搜索输入信息匹配的目标关键词,进而依据目标关键词对应的目标展示内容以及所描述的店铺等对象,确定搜索结果并进行展示。本申请实施例基于候选展示内容进行关键词提炼,有助于得到更丰富、全面的用来描述候选搜索对象的候选关键词,从而在用户进行搜索时,利用这些候选关键词进行结果召回,有助于得到更丰富的搜索结果,提升搜索结果的准确性、全面性
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种内容搜索方法的流程示意图;
图2示出了本申请实施例提供的另一种内容搜索方法的流程示意图;
图3示出了本申请实施例提供的搜索关键词扩展方法的流程示意图;
图4示出了本申请实施例提供的一种内容搜索装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种内容搜索方法,如图1所示,该方法包括:
步骤101,接收搜索输入信息;
步骤102,在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,其中,所述候选关键词通过对候选展示内容进行初始关键词分析,并基于所述初始关键词与所述候选展示内容的语义相关性对所述初始关键词进行筛选而得到;
步骤103,依据所述目标关键词获取所述候选展示内容中的目标展示内容,并基于所述目标展示内容进行搜索结果展示。
本申请实施例中,候选展示内容可以包括商家提供的店铺介绍内容、互联网用户创作的店铺介绍内容,例如用户到店体验后分享在平台上的探店感受,当然候选展示内容描述的对象不限于店铺,也可以包括公园、景点、图书馆等线下场景对象,或者也可以包括VR等线上场景对象,本申请仅以店铺为例进行说明。为了丰富搜索结果,提高搜索准确性,本申请实施例中,预先对各店铺的候选展示内容进行预处理,基于候选展示内容提炼出能够用来描述店铺的关键词,即候选关键词,从而在用户进行内容搜索时,可以利用这些候选关键词对用户输入的搜索信息进行结果匹配,避免商家提供的店铺名称、菜品名称不够贴合消费者搜索习惯导致店铺无法被搜索到。
本申请实施例中,可选地,所述候选展示内容包括针对候选对象的用户原创内容UGC(UGC,User Generated Content),所述候选对象包括候选店铺。
以候选展示内容为互联网用户的原创内容为例,提炼候选关键词时,先对候选展示内容进行初始关键词分析,具体可以通过实体词识别、关键词提取、词库匹配等方式初步在候选展示内容中提取出初始关键词,再分别计算每个初始关键词与候选展示内容之间的语义相关性,从而在初始关键词中筛选出与候选展示内容语义相关性较高的候选关键词,由于候选展示内容也是普通消费者创作的内容,因此提炼出的这些候选关键词就可以作为更贴近消费者表述习惯且能够描述店铺的关键词。
提炼出候选关键词之后,在用户进行内容搜索时,可以通过计算各候选关键词与搜索输入信息的匹配度,并获取候选关键词中与搜索输入信息匹配度较高的目标关键词,进一步,根据目标关键词,确定目标关键词描述的是展示内容是哪些,即可以根据候选关键词与候选展示内容的对应关系,确定目标关键词对应的目标展示内容,从而将目标展示内容直接作为搜索结果进行展示,或者将目标展示内容所描述的店铺作为搜索结果进行展示。得到更丰富、准确的搜索结果。
通过应用本实施例的技术方案,通过预先对候选展示内容进行初始关键词分析,并基于初始关键词和候选展示内容之间的语义相关性对初始关键词进行筛选得到候选关键词,从而在用户进行内容搜索时,在候选关键词中获取与搜索输入信息匹配的目标关键词,进而依据目标关键词对应的目标展示内容以及所描述的店铺等对象,确定搜索结果并进行展示。本申请实施例基于候选展示内容进行关键词提炼,有助于得到更丰富、全面的用来描述候选搜索对象的候选关键词,从而在用户进行搜索时,利用这些候选关键词进行结果召回,有助于得到更丰富的搜索结果,提升搜索结果的准确性、全面性。
本申请实施例中,可选地,候选关键词通过以下方法得到:
S1,获取至少一个候选展示内容,并分别对每个所述候选展示内容进行关键词分析确定初始关键词;
S2,针对任一候选展示内容,分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性,并依据所述语义相关性筛选所述初始关键词,确定所述任一候选展示内容对应的标签关键词;
S3,对全部候选展示内容的标签关键词进行去重处理得到所述候选关键词,并标注每个所述候选关键词对应的待展示内容。
在上述实施例中,以候选展示内容为候选店铺的用户原创内容UGC为例,针对每个候选展示内容,先进行关键词分析得到描述候选展示内容的初始关键词,而后计算每个初始关键词与所在候选展示内容的语义相关性,并根据语义相关性筛选其中与候选展示内容的语义相关性较高的一组标签关键词,这些标签关键词可以作为描述候选展示内容的标签,最后针对各候选展示内容提炼出的全部标签关键词进行汇总统计,去掉重复的标签关键词,例如标签关键词“烤肉”出现了3次,分别对应候选展示内容1、候选展示内容2、候选展示内容3,去重处理后将3个标签关键词“烤肉”合并为1个候选关键词“烤肉”,并对这个候选关键词“烤肉”标注上对应选展示内容1、候选展示内容2、候选展示内容3,或者对这个候选关键词“烤肉”标注选展示内容1、候选展示内容2、候选展示内容3各自对应的店铺标识。
本申请实施例中,可选地,S1具体包括:
S1-1,对每个所述候选展示内容进行实体词识别,得到第一关键词;和/或,对每个所述候选展示内容进行关键词识别,并基于识别出的关键词在预设语料库中出现的频率进行关键词筛选,得到第二关键词;和/或,识别每个所述候选展示内容中包含预设符号的待提取文本,并对所述待提取文本进行字符提取,得到第三关键词;和/或,依据预设关键词词库,获取每个所述候选展示内容命中的第四关键词;
S1-2,分别对每个所述候选展示内容对应的所述第一关键词和/或所述第二关键词和/或所述第三关键词和/或所述第四关键词进行去重处理,确定每个所述候选展示内容对应的所述初始关键词。
在该实施例中,可以通过多种方式获取候选展示内容的初始关键词,例如实体词识别、关键词抽取、模式匹配、词库匹配。通过不同方式获取关键词(即第一关键词、第二关键词、第三关键词、第四关键词)之后,对通过不同方式获得的候选展示内容对应的关键词进行去重处理,得到候选展示内容对应的初始关键词。
实体词识别方式:实体词识别主要识别出文本中的品类词、品类修饰词等,比如披萨、西餐等实体词。具体步骤包括:(1)对候选展示内容进行分词,并去掉其中的停用词;(2)对上一步骤得到的词组进行实体次词识别,例如对于应用在电商平台场景下的方案,调用电商模式下的实体词识别插件;(3)通过自定义特征UDF质检过滤,过滤掉不需要的实体词类型,得到第一关键词。
关键词抽取方式:关键词抽取是为了识别出在文本中比较“重要”的词,字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。具体步骤包括:(1)对候选展示内容进行分词,并去掉其中的停用词;(2),本实施例先对候选展示内容进行关键词识别,再根据关键词在语料库中出现的频率对上述识别出的关键词进行筛选,例如通过tf-idf和textrank两种方式进行关键词识别,再调用实体词识别插件识别出其中的名词类的关键词,最后计算关键词在预设语料库中出现的频率,过滤其中频率较高的关键词;(3)UDF质检过滤:用udf去筛选出评分较高的关键词,得到第二关键词。
模式匹配方式:主要去识别出易出现商品关键词的模式,如「」【】。具体步骤为:(1)匹配【】「」中的词。例如「蟹粉豆腐」匹配出蟹粉豆腐,【招牌虾饺皇】匹配出招牌虾饺皇。(2)UDF质检过滤:去掉经常出现在这种模式里的“城市”“推荐菜”“店铺环境”“必点招牌菜”等词,因为这些词与主题无关,以及去掉英文+数字,得到第三关键词。
词库匹配方式:通过词库匹配找到候选展示内容中存在的预设品类的商品词、类目词,例如餐饮类和生活服务类。具体步骤为:(1)建立预设品类的词库(即预设关键词词库),例如餐饮+生活服务词库:将经过简单过滤的餐饮词库里的3字以上的词构建为餐饮词库,将top类目+内容的生活服务词构建为生活服务词库。(2)用清洗过的候选展示内容直接和词库进行匹配,获取候选展示内容命中的关键词作为第四关键词。
本申请实施例中,可选地,S2中“分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性”具体包括:
S2-1,计算所述任一候选展示内容的第一语义表征以及所述任一候选展示内容对应的每个初始关键词的第二语义表征;
S2-2,通过预设的多层感知器,分别计算所述第一语义表征与每个所述第二语义表征的语义相关性,其中,所述多层感知器被配置为leaky relu激活函数。
在该实施例中,对于每个候选展示内容来说,首先可以利用bert模型(Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型)分别计算候选展示内容(具体可以对候选展示内容+对应的店铺名称进行计算)对应的第一语义表征以及该候选展示内容对应的每个初始关键词的第二语义表征,再通过多层感知器MLP(Multilayer Perceptron是一种前馈人工神经网络模型)分别计算每个第二语义表征与第一语义表征的语义相关性,以此来确定每个初始关键词与候选展示内容的相关性,以便后续筛选出与候选展示内容相关性较高的若干个初始关键词作为该候选展示内容的候选关键词。其中,为增加各初始关键词的差异性,使得计算出的相关性值分布较为分散,方便更好的进行候选关键词选择,对多层感知器的三层神经网络部分配置leaky relu激活函数,以增大三层神经网络部分的输出logits值的差异,并将多层感知器的输出层Sigmoid函数的温度参数temperature parameter设置为预设值,当temperatureparameter很大时,即趋于正无穷时,所有的激活值对应的激活概率趋近于相同(激活概率差异性较小);而当temperature parameter很低时,即趋于0时,不同的激活值对应的激活概率差异也就越大,例如将temperature parameter设置为0.5,以使logits值输入到输出层后得到的语义相关性值的差异被进一步增大。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种内容搜索方法,利用上述的候选关键词进行内容搜索,如图2所示,该方法包括:
步骤201,接收在店铺搜索页面中的搜索输入信息。
步骤202,获取所述搜索输入信息对应的搜索关键词,并依据预设关键词扩展词词表,对所述搜索关键词进行扩展。
在该实施例中,以用户使用“搜店铺”功能为例,用户可以在店铺搜索页面输入搜索信息,具体可以为句子,也可以为词组等。接收搜索输入信息后,先对搜索输入信息进行预处理,在搜索输入信息中提取出搜索关键词,为得到更丰富、全面且满足用户搜索意图的内容,进一步可以对搜索关键词进行扩展,得到与搜索关键词相关的关键词,以便利用扩展得到的更丰富且贴合用户搜索意图的关键词进行结果召回。
在本申请实施例中,可选地,步骤202中“依据预设关键词扩展词词表,对所述搜索关键词进行扩展”具体包括:
步骤202-1,在预设同义词词表中获取所述搜索关键词对应的同义关键词,并依据预设原词词表对所述同义关键词进行筛选,获取命中所述预设原词词表的第一扩展词;
步骤202-2,在所述预设原词词表中获取所述搜索关键词命中的第二扩展词,以及在预设扩展词词表中,获取所述搜索关键词对应的第三扩展词;
步骤202-3,对所述第一扩展词、所述第二扩展词以及所述第三扩展词进行合并去重,得到扩展后的搜索关键词。
在该实施例中,预先构建预设同义词词表A、预设原词词表B以及预设扩展词词表C。其中,预设同义词词表A指的是一个词对应的同义词,例如肉蟹煲:蟹煲,蟹肉煲。预设原词词表B中一个词对应的原词就是这个词本身,例如肉蟹煲:肉蟹煲;蟹煲:蟹煲。预设扩展词表C指的是一个词对应的下位词,或菜系词对应的推荐词词,例如肉蟹煲:凤爪肉蟹煲,小肉蟹煲,香辣肉蟹煲,鸡爪肉蟹煲,鸡肉蟹煲;京菜:京菜,北京烤鸭,葱爆羊肉,酱爆鸡丁,京酱肉丝,炸灌肠。如图3所示,以搜索关键词为“肉蟹煲”为例,首先,在预设同义词词表A中获取“肉蟹煲”的同义关键词“蟹煲”、“蟹肉煲”,并在预设原词词表B中查询是否包含同义关键词“蟹煲”、“蟹肉煲”,如果包含则确定为第一扩展词,如果不包含则删除该同义关键词;其次,在预设原词词表B中查询是否包含搜索关键词“肉蟹煲”,如果包含则将搜索关键词作为第二扩展词,如果不包含则删除该搜索关键词;然后,在预设扩展词词表C中获取搜索关键词对应的第三扩展词;最后,对第一扩展词、第二扩展词、第三扩展词进行合并和去重处理,实现对搜索关键词的扩展。
步骤203,在所述候选关键词中,获取与扩展后的搜索关键词匹配的目标关键词。
步骤204,获取所述目标关键词对应的待展示内容标注信息,作为所述目标展示内容,并确定所述目标展示内容对应的目标店铺,展示所述目标店铺以及所述目标展示内容。
在该实施例中,对搜索关键词进行扩展后,在候选关键词中获取扩展后的搜索关键词命中的目标关键词。由于候选关键词标注了对应的候选店铺,因此确定目标关键词之后,就可以根据目标关键词对应的标注信息确定目标关键词对应的待展示内容,将其作为目标展示内容,进而还可以确定目标展示内容所描述的目标店铺,对目标店铺和目标展示内容进行展示。例如某篇用户原创内容“美味的烤肉”,其中描述了“某店的烤肉非常好吃,口感细腻,奥尔良烤翅很正宗”,从这篇内容中提取出了对应的候选关键词包括“烤肉”、“奥尔良烤翅”,该候选关键词对应的标注信息则包括这篇用户原创内容,如果搜索关键词命中了“烤肉”,就可以根据命中的目标关键词“烤肉”对应的标注信息,确定目标展示内容“美味的烤肉”,并进一步还可以获取文章“美味的烤肉”所描述的店铺名称,在结果展示页面中展示该店铺和文章“美味的烤肉”。当然也可以仅展示目标店铺或仅展示目标展示内容。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种内容搜索装置,如图4所示,该装置包括:
信息接收模块,用于接收搜索输入信息;
关键词获取模块,用于在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,其中,所述候选关键词通过对候选展示内容进行初始关键词分析,并基于所述初始关键词与所述候选展示内容的语义相关性对所述初始关键词进行筛选而得到;
结果展示模块,用于依据所述目标关键词获取所述候选展示内容中的目标展示内容,并基于所述目标展示内容进行搜索结果展示。
可选地,所述装置还包括:关键词构建模块,用于:
获取至少一个候选展示内容,并分别对每个所述候选展示内容进行关键词分析确定初始关键词;
针对任一候选展示内容,分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性,并依据所述语义相关性筛选所述初始关键词,确定所述任一候选展示内容对应的标签关键词;
对全部候选展示内容的标签关键词进行去重处理得到所述候选关键词,并标注每个所述候选关键词对应的待展示内容;
相应地,所述结果展示模块,具体用于:获取所述目标关键词对应的待展示内容标注信息,作为所述目标展示内容。
可选地,所述关键词构建模块,还用于:
对每个所述候选展示内容进行实体词识别,得到第一关键词;和/或,
对每个所述候选展示内容进行关键词识别,并基于识别出的关键词在预设语料库中出现的频率进行关键词筛选,得到第二关键词;和/或,
识别每个所述候选展示内容中包含预设符号的待提取文本,并对所述待提取文本进行字符提取,得到第三关键词;和/或,
依据预设关键词词库,获取每个所述候选展示内容命中的第四关键词;
分别对每个所述候选展示内容对应的所述第一关键词和/或所述第二关键词和/或所述第三关键词和/或所述第四关键词进行去重处理,确定每个所述候选展示内容对应的所述初始关键词。
可选地,所述关键词构建模块,还用于:
计算所述任一候选展示内容的第一语义表征以及所述任一候选展示内容对应的每个初始关键词的第二语义表征;
通过预设的多层感知器,分别计算所述第一语义表征与每个所述第二语义表征的语义相关性,其中,所述多层感知器被配置为leaky relu激活函数。
可选地,所述装置还包括:
搜索信息扩展模块,用于所述接收搜索输入信息之后,获取所述搜索输入信息对应的搜索关键词,并依据预设关键词扩展词词表,对所述搜索关键词进行扩展;
相应地,所述关键词获取模块,还用于:在所述候选关键词中,获取与扩展后的搜索关键词匹配的目标关键词。
可选地,所述搜索信息扩展模块,具体用于:
在预设同义词词表中获取所述搜索关键词对应的同义关键词,并依据预设原词词表对所述同义关键词进行筛选,获取命中所述预设原词词表的第一扩展词;
在所述预设原词词表中获取所述搜索关键词命中的第二扩展词,以及在预设扩展词词表中,获取所述搜索关键词对应的第三扩展词;
对所述第一扩展词、所述第二扩展词以及所述第三扩展词进行合并去重,得到扩展后的搜索关键词。
可选地,所述候选展示内容包括针对候选店铺的用户原创内容UGC(UGC,UserGenerated Content);
所述信息接收模块,具体用于:接收在店铺搜索页面中的搜索输入信息;
相应地,所述结果展示模块,具体用于:确定所述目标展示内容对应的目标店铺,并展示所述目标店铺以及所述目标展示内容。
需要说明的是,本申请实施例提供的一种内容搜索装置所涉及各功能单元的其他相应描述,可以参考图1至图3方法中的对应描述,在此不再赘述。
基于上述如图1至图3所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图3所示的内容搜索方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图3所示的方法,以及图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图3所示的内容搜索方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现通过预先对候选展示内容进行初始关键词分析,并基于初始关键词和候选展示内容之间的语义相关性对初始关键词进行筛选得到候选关键词,从而在用户进行内容搜索时,在候选关键词中获取与搜索输入信息匹配的目标关键词,进而依据目标关键词对应的目标展示内容以及所描述的店铺等对象,确定搜索结果并进行展示。本申请实施例基于候选展示内容进行关键词提炼,有助于得到更丰富、全面的用来描述候选搜索对象的候选关键词,从而在用户进行搜索时,利用这些候选关键词进行结果召回,有助于得到更丰富的搜索结果,提升搜索结果的准确性、全面性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种内容搜索方法,其特征在于,所述方法包括:
接收搜索输入信息;
在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,其中,所述候选关键词通过对候选展示内容进行初始关键词分析,并基于所述初始关键词与所述候选展示内容的语义相关性对所述初始关键词进行筛选而得到;
依据所述目标关键词获取所述候选展示内容中的目标展示内容,并基于所述目标展示内容进行搜索结果展示。
2.根据权利要求1所述的方法,其特征在于,所述候选展示内容包括针对候选对象的用户原创内容UGC(UGC,User Generated Content),所述候选对象包括候选店铺;所述接收搜索输入信息,具体包括:
接收在店铺搜索页面中的搜索输入信息;
相应地,所述基于所述目标展示内容进行搜索结果展示,具体包括:
确定所述目标展示内容对应的目标店铺,并展示所述目标店铺以及所述目标展示内容。
3.根据权利要求1所述的方法,其特征在于,所述接收搜索输入信息之前,所述方法还包括:
获取至少一个候选展示内容,并分别对每个所述候选展示内容进行关键词分析确定初始关键词;
针对任一候选展示内容,分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性,并依据所述语义相关性筛选所述初始关键词,确定所述任一候选展示内容对应的标签关键词;
对全部候选展示内容的标签关键词进行去重处理得到所述候选关键词,并标注每个所述候选关键词对应的待展示内容;
相应地,所述依据所述目标关键词获取所述候选展示内容中的目标展示内容,具体包括:
获取所述目标关键词对应的待展示内容标注信息,作为所述目标展示内容。
4.根据权利要求3所述的方法,其特征在于,所述分别对每个所述候选展示内容进行关键词分析确定初始关键词,具体包括:
对每个所述候选展示内容进行实体词识别,得到第一关键词;和/或,
对每个所述候选展示内容进行关键词识别,并基于识别出的关键词在预设语料库中出现的频率进行关键词筛选,得到第二关键词;和/或,
识别每个所述候选展示内容中包含预设符号的待提取文本,并对所述待提取文本进行字符提取,得到第三关键词;和/或,
依据预设关键词词库,获取每个所述候选展示内容命中的第四关键词;
分别对每个所述候选展示内容对应的所述第一关键词和/或所述第二关键词和/或所述第三关键词和/或所述第四关键词进行去重处理,确定每个所述候选展示内容对应的所述初始关键词。
5.根据权利要求3所述的方法,其特征在于,所述针对任一候选展示内容,分别计算所述任一候选展示内容对应的每个初始关键词与所述任一候选展示内容之间的语义相关性,具体包括:
计算所述任一候选展示内容的第一语义表征以及所述任一候选展示内容对应的每个初始关键词的第二语义表征;
通过预设的多层感知器,分别计算所述第一语义表征与每个所述第二语义表征的语义相关性,其中,所述多层感知器被配置为leaky relu激活函数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述接收搜索输入信息之后,所述方法还包括:
获取所述搜索输入信息对应的搜索关键词,并依据预设关键词扩展词词表,对所述搜索关键词进行扩展;
相应地,所述在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,具体包括:
在所述候选关键词中,获取与扩展后的搜索关键词匹配的目标关键词。
7.根据权利要求6所述的方法,其特征在于,所述依据预设关键词扩展词词表,对所述搜索关键词进行扩展,具体包括:
在预设同义词词表中获取所述搜索关键词对应的同义关键词,并依据预设原词词表对所述同义关键词进行筛选,获取命中所述预设原词词表的第一扩展词;
在所述预设原词词表中获取所述搜索关键词命中的第二扩展词,以及在预设扩展词词表中,获取所述搜索关键词对应的第三扩展词;
对所述第一扩展词、所述第二扩展词以及所述第三扩展词进行合并去重,得到扩展后的搜索关键词。
8.一种内容搜索装置,其特征在于,所述装置包括:
信息接收模块,用于接收搜索输入信息;
关键词获取模块,用于在候选关键词中,获取与所述搜索输入信息匹配的目标关键词,其中,所述候选关键词通过对候选展示内容进行初始关键词分析,并基于所述初始关键词与所述候选展示内容的语义相关性对所述初始关键词进行筛选而得到;
结果展示模块,用于依据所述目标关键词获取所述候选展示内容中的目标展示内容,并基于所述目标展示内容进行搜索结果展示。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述内容搜索的方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述内容搜索的方法。
CN202210763002.0A 2022-06-30 2022-06-30 内容搜索方法及装置、存储介质、计算机设备 Pending CN115033797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210763002.0A CN115033797A (zh) 2022-06-30 2022-06-30 内容搜索方法及装置、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210763002.0A CN115033797A (zh) 2022-06-30 2022-06-30 内容搜索方法及装置、存储介质、计算机设备

Publications (1)

Publication Number Publication Date
CN115033797A true CN115033797A (zh) 2022-09-09

Family

ID=83129078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210763002.0A Pending CN115033797A (zh) 2022-06-30 2022-06-30 内容搜索方法及装置、存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN115033797A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455861A (zh) * 2023-04-17 2023-07-18 江苏鑫翊翔智能化工程有限公司 一种基于大数据的计算机网络安全监测系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455861A (zh) * 2023-04-17 2023-07-18 江苏鑫翊翔智能化工程有限公司 一种基于大数据的计算机网络安全监测系统及方法
CN116455861B (zh) * 2023-04-17 2023-11-24 福建数智闽政科技有限公司 一种基于大数据的计算机网络安全监测系统及方法

Similar Documents

Publication Publication Date Title
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN110795627B (zh) 信息推荐方法及装置、电子设备
CN104268175B (zh) 一种数据搜索的装置及其方法
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN111400507B (zh) 实体匹配方法及其装置
CN104462126A (zh) 一种实体链接方法及装置
EP2682880A1 (en) Set-expansion device, set-expansion method, program, and non-transitory storage medium
KR20190079829A (ko) 이미지를 이용한 상품 정보 자동 등록 방법
CN110851571B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN112395867B (zh) 同义词挖掘方法、装置、存储介质及计算机设备
CN111260428A (zh) 一种商品推荐方法和装置
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
CN110688455A (zh) 基于人工智能过滤无效评论的方法、介质及计算机设备
CN115033797A (zh) 内容搜索方法及装置、存储介质、计算机设备
CN107092621A (zh) 信息搜索方法及装置
CN114691990A (zh) 查询选项的推荐方法、装置、服务器、存储介质及产品
CN109472025B (zh) 菜品名称提取方法及装置
CN107665222B (zh) 关键词的拓展方法和装置
CN112434173A (zh) 搜索内容输出方法、装置、计算机设备及可读存储介质
CN115168567A (zh) 一种基于知识图谱的对象推荐方法
JP6696344B2 (ja) 情報処理装置及びプログラム
US20180005300A1 (en) Information presentation device, information presentation method, and computer program product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination