CN113010752A - 召回内容的确定方法、装置、设备以及存储介质 - Google Patents

召回内容的确定方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN113010752A
CN113010752A CN202110258226.1A CN202110258226A CN113010752A CN 113010752 A CN113010752 A CN 113010752A CN 202110258226 A CN202110258226 A CN 202110258226A CN 113010752 A CN113010752 A CN 113010752A
Authority
CN
China
Prior art keywords
determining
keywords
candidate
candidate keywords
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110258226.1A
Other languages
English (en)
Other versions
CN113010752B (zh
Inventor
杨新涛
连义江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110258226.1A priority Critical patent/CN113010752B/zh
Publication of CN113010752A publication Critical patent/CN113010752A/zh
Application granted granted Critical
Publication of CN113010752B publication Critical patent/CN113010752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种召回内容的确定方法、装置、设备以及存储介质,涉及大数据、智能搜索等领域。具体实现方案为:确定与原始查询词相似的至少一个扩展查询词;根据原始查询词和扩展查询词,确定多个候选关键词;从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。利用相似性查询的方式对原始查询词和关键词进行扩展,从而在面对低频查询词时,可以充分扩展从而提高确定出召回内容的概率。

Description

召回内容的确定方法、装置、设备以及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及大数据、智能搜索等领域。
背景技术
涉及内容召回的搜索包括三种角色,用户、内容提供方和搜索引擎。搜索过程大致为:用户提交原始查询词或原始查询短句,内容提供方向搜索引擎提供关键词和内容信息,其中,内容信息可以作为关键词的关联信息。搜索引擎用于根据用户提交的原始查询词或原始查询短句,确定出与之匹配的关键词,并确认出关键词的关联信息作为召回内容反馈给用户。
相关技术中,在确定原始查询词或原始查询短句与关键词匹配的过程中,采用整体目标最优化的方式。因此会造成覆盖性差的缺陷,尤其对于低频查询词或查询短句很难确定出召回内容。
发明内容
本公开提供了一种召回内容的确定方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种召回内容的确定方法,该方法可以包括以下步骤:
确定与原始查询词相似的至少一个扩展查询词;
根据原始查询词和扩展查询词,确定多个候选关键词;
从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。
根据本公开的另一方面,提供了一种召回内容的确定装置,该装置可以包括:
扩展查询词确定模块,用于确定与原始查询词相似的至少一个扩展查询词;
候选关键词确定模块,用于根据原始查询词和扩展查询词,确定多个候选关键词;
召回内容确定模块,用于从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术,利用相似性查询的方式对原始查询词和关键词进行扩展,从而在面对低频查询词时,可以充分扩展从而提高确定出召回内容的概率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开召回内容的确定方法的流程图;
图2是根据本公开确定目标关键词的流程图;
图3是根据本公开确定目标关键词的流程图;
图4是根据本公开从多个候选关键词确定出多个第一候选关键词的流程图;
图5是根据本公开确定扩展查询词的流程图;
图6是根据本公开确定候选关键词的流程图;
图7是根据本公开相似性模型的训练过程的流程图;
图8是根据本公开相似性模型的训练示意图;
图9是根据本公开召回内容的确定方法的流程图;
图10是根据本公开确定候选关键词的示意图;
图11是根据本公开对候选关键词进行过滤的示意图;
图12是根据本公开召回内容的确定装置的示意图;
图13是用来实现本公开实施例的召回内容的确定方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本申请提供一种召回内容的确定方法,该方法可以包括以下步骤:
S101:确定与原始查询词相似的至少一个扩展查询词;
S102:根据原始查询词和扩展查询词,确定多个候选关键词;
S103:从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。
本公开的上述方法的执行主体可以是搜索引擎对应的服务器或云端等,后文简称为搜索引擎。
原始查询词可以是搜索引擎接收到的,由用户上传的检索词或检索短语等。
关键词(候选关键词、目标关键词),以及与关键词对应的关联信息可以是内容提供方预先上传至搜索引擎的。在搜索引擎中,可以构建关键词库,用以存储内容提供方预先上传的关键词。
内容提供方可以包括广告创意提供方、课业辅导内容提供方、各行业项目解决方案提供方等。
搜索引擎在接收到原始查询词的情况下,首先对原始查询词进行相似性查询。以确定出与原始查询词相似的至少一个扩展查询词。例如,可以根据历史数据、经验或人工标注等方式预先确定出<查询词,关键词>的种子库。种子库中的查询词和关键词匹配对可以被认为是高质量的,例如历史数据中出现的点击率高的情况,或者人工利用经验进行标注出的等情况。
种子库以及前述关键词库可以共同构建成搜索引擎的数据库。
搜索引擎可以利用相似性,在种子库中确定出与原始查询词相似度较高的扩展查询词。
在得到扩展查询词后,可以根据前述种子库中的匹配情况,分别确定出与每个扩展查询词具有匹配关系的关键词。
进一步的,还可以利用相似性查询得到关键词。例如,可以在关键词库中查询到与前述确定出的关键词具有较高相似度的其他关键词。另外,还可以在种子库已包含的关键词中查询到与前述确定出的关键词具有较高相似度的其他关键词。
前述确定出的关键词,以及与确定出的关键词具有较高相似度的其他关键词都可以作为候选关键词。
对候选关键词进行筛选,可以通过相似性比较的方式进行。例如,可以将原始查询词依次与每个候选关键词组成匹配对。进而进行匹配对与种子库中匹配对的相似度比较,将相似度大于对应阈值的匹配对中的候选关键词确定为目标关键词。
另外,对于候选关键词的筛选还可以通过过滤的方式进行。例如,可以预先构建坏例集合,坏例集合中包括有点击率低或者人工标注的坏例匹配对。将原始查询词依次与每个候选关键词组成匹配对。在组成的匹配对已存在于坏例集合中的情况下,可以将其删除。删除后保留下来的匹配对中的候选关键词,可以作为目标关键词。
通过目标关键词,即可迅速锁定与其对应的关联信息。该关联信息即可作为确定出的召回内容。以查询广告创意的场景为例,例如,搜索引擎接收到的原始查询词为“饮料广告创意”,根据相似性查询,可以得出与原始查询词相似的多个扩展查询词,例如“果汁饮料广告创意”、“碳酸饮料广告创意”、“咖啡饮料广告创意”等。根据原始查询词、扩展查询词,可以匹配出多个候选关键词,例如候选关键词可以包括“营养”、“富含维生素”、“0卡”、“0脂肪”、“提神”等。根据筛选出的目标关键词,可以利用预先建立的对应关系,将与目标关键词对应的关联信息作为确定出的召回内容。由于关键词以及其对应的关联信息可以是由不同的广告创意提供方提供的。对于用户而言,可以根据对广告创意内容的满意程度选择广告创意提供方。
同理,可以应用于项目解决方案提供方场景。例如,原始查询词可以是“如何优化骑手配送线路”。根据上述匹配过程,可以在不同的项目解决方案提供方提供的优化骑手配送线路解决方案中匹配出与原始查询词相关的解决方案(关联内容)。
通过上述方案,利用相似性查询的方式对原始查询词和关键词进行扩展,从而在面对低频查询词时,可以充分扩展从而提高确定出召回内容的概率。
如图2所示,在一种实施方式中,步骤S103中涉及的从多个候选关键词中确定出目标关键词,可以包括以下步骤:
S201:分别将原始查询词与多个候选关键词组成多个第一匹配对;
S202:在至少一个扩展查询词和多个候选关键词中,筛选出符合预定条件的多个第二匹配对,每个第二匹配对中包括一个扩展查询词和一个候选关键词;
S203:计算每个第一匹配对与每个第二匹配对的相似度,根据相似度计算结果选择至少一个第一匹配对;
S204:将选择出的每个第一匹配对中的候选关键词确定为目标关键词。
符合预定条件的第二匹配对可以是已收录于前述种子库中的<查询词,关键词>的匹配对。或者,还可以是出现频次高于对应阈值、点击率高于对应阈值的<查询词,关键词>的匹配对等。
在获取到(多个)扩展查询词与(多个)候选关键词组成多个第二匹配对的情况下,可以根据第二匹配对在种子库中遍历,将出现在种子库中的第二匹配对确定为符合预定条件的第二匹配对。即,第二匹配对中的扩展查询词和候选关键词可以认为是高质量的匹配对。
利用相似度计算,可以得到每个第一匹配对与每个第二匹配对的相似度值。匹配对的相似度可以利用公式Q=Q1+Q2计算,式中,Q1可以表示为第一匹配对中的原始查询词与第二匹配对中的扩展查询词之间的相似度,Q2可以表示为第二匹配对中的候选关键词与第二匹配对中的候选关键词之间的相似度。
根据相似度计算结果,选择至少一个第一匹配对。例如,可以选择相似度最高的N个第一匹配对。或者,在相似度差异小于对应阈值的多个第一匹配对中,随机选择N个第一匹配对等。
最终,将选择出的每个第一匹配对中的候选关键词确定为目标关键词。
通过上述方案,第一匹配对作为待评估对象,第二匹配对作为评估标准。采用计算相似性的方式确定组建出的匹配对的准确程度,从而确定出最合适的关键词。
如图3所示,在一种实施方式中,步骤S103中涉及的从多个候选关键词中确定出目标关键词,可以包括以下步骤:
S301:利用第一筛选规则,从多个候选关键词中确定多个第一候选关键词;
S302:利用第二筛选规则,从多个候选关键词中确定多个第二候选关键词;
S303:将多个第一候选关键词和多个第二候选关键词进行求交集运算,将运算结果中包括的候选关键词作为确定出的目标关键词。
本公开实施方式中,第一筛选规则可以是利用坏例识别的方式,从多个候选关键词确定多个第一候选关键词。例如,在利用原始查询词、扩展查询词得出多个候选关键词后,将原始查询词、扩展查询词分别与每个关键词组成匹配对。在识别出组成的匹配对中存在坏例的情况下,将坏例对应的匹配对过滤掉。
第二筛选规则可以是采用常规方式筛选,例如,在原始查询词与关键词所表征的地域不一致的情况下,可以过滤掉。示例性地,原始查询词为“北京”,但关候选键词为“上海”,则可以认为地域不一致。或者,在原始查询词与候选关键词所表征的实体信息不一致或行业信息不一致的情况下,将出现不一致的匹配对过滤掉。
将多个第一候选关键词和多个第二候选关键词进行求交集运算,将运算结果中包括的候选关键词作为确定出的目标关键词。
通过上述方案,利用坏例识别的方式对通过传统方式确定出的候选关键词进行精确度筛查,从而可以提高最终确定出的目标关键词的准确度。
如图4所示,在一种实施方式中,步骤S301中涉及的利用第一筛选规则,从多个候选关键词确定出多个第一候选关键词,可以进一步包括以下子步骤:
S401:将原始查询词及扩展查询词,分别与多个候选关键词组成多个第三匹配对;
S402:将出现在坏例集合中的第三匹配对删除,坏例集合中包含多个已经被确定为坏例的匹配对;
S403:将删除后剩余的第三匹配对中的候选关键词确定为第一候选关键词。
坏例集合可以是预先构建的。坏例集合中包含有多个已经被确定为坏例的匹配对。基于此,在原始查询词与候选关键词组成的第三匹配对,或者在扩展查询词与候选关键词组成的第三匹配对出现在坏例集合中的情况下,可以将对应的第三匹配对确定为坏例。从而可以将坏例删除。
将删除坏例后剩余的第三匹配对,可以认为是高质量的匹配对。可以将剩余的第三匹配对中的候选关键词确定为第一候选关键词。
通过上述方法,利用过滤的思路,将属于坏例的匹配对删除。可以作为辅助的确定关键词的方式,提高确定出的关键词的准确度。这种方式在样本量极少的低频数据上具有很大优势,是现有召回和判别系统的一种补充。
如图5所示,在一种实施方式中,步骤S101中涉及的确定与原始查询词相似的至少一个扩展查询词,可以进一步包括以下步骤:
S501:利用预先训练的相似性模型,在数据库中查询与原始查询词相似的多个扩展查询词;数据库保存扩展查询词正例;
S502:从多个扩展查询词中选择至少一个扩展查询词。
当前实施方式中的数据库可以对应前述由种子库和关键词库所组成的数据库。
相似性模型可以是利用小样本学习(Few-shot Leaning)方式训练得到的。
利用该相似性模型,可以在数据库中查询与原始查询词相似的多个扩展查询词。在得到多个扩展查询词的情况下,可以根据相似度值由高至低选择预定数量的扩展查询词。或者,还可以设置相似度值的对应阈值,可以随机选择预定数量的高于相似度值的对应阈值的扩展查询词。
通过上述方案,由于数据库中保存的都是扩展查询词正例,因此利用相似度模型在数据库中进行相似性查询,可以得到与原始查询词相关度较高,且通过验证的扩展查询词。
如图6所示,在一种实施方式中,数据库还保存候选关键词正例,以及每个扩展查询词正例与每个候选关键词正例的映射关系;
基于上述情况,步骤S102中涉及的根据原始查询词和扩展查询词,确定出多个候选关键词,可以包括以下子步骤:
S601:利用映射关系,确定与原始查询词或扩展查询词具有映射关系的匹配关键词;
S602:根据匹配关键词,利用预先训练的相似性模型,得到多个候选关键词。
前已述及,扩展查询词可以是在数据库(种子库)中确定出的与原始查询词相似度较高的其他查询词。
另外,数据库(种子库)中还包括与扩展查询词组成匹配对的候选关键词,与扩展查询词组成匹配对的关键词可以对应候选关键词正例。匹配对中的查询词和关键词,可以通过映射关系进行彼此关联。
利用映射关系,可以在数据库中确定与扩展查询词关联的匹配关键词。
根据匹配关键词,利用预先训练的相似性模型,可以在数据库中进行相似性搜索,以得到与匹配关键词相似的多个候选关键词。
通过上述方案,可以在候选关键词的选择过程中,提高泛化能力。尽可能多的匹配出候选关键词。
如图7所示,在一种实施方式中,相似性模型的训练过程,包括:
S701:将查询词样本、与查询词样本相似度不低于阈值的正样本以及与查询词样本相似度低于阈值的负样本输入待训练的相似性模型;
S702:确定相似性模型输出的查询词样本与正样本的第一差异值,以及相似性模型输出的查询词样本与负样本的第二差异值;
S703:计算第一差异值标注结果与第一差异值的第一差值,以及第二差异值标注结果与第二差异值的第二差值;
S704:利用第一差值和第二差值对待训练的相似性模型进行训练。
结合图8所示的训练示意图,待训练的相似性模型可以是前述的小样本学习方法训练得到的。训练过程可以包括以下过程。首先将查询词样本、与查询词样本相似度不低于阈值的正样本(对应图8中的正样本)以及与查询词样本相似度低于阈值的负样本(对应图8中的负样本)进行词嵌入(Word Embedding)处理,得到编码形式的处理结果。
利用深度自注意力变换网络(Transformer)模型对编码形式的处理结果进行转换,可以对应得到查询词样本向量、正样本向量和负样本向量。
计算查询词样本向量和正样本向量之间的差异值,即对应为第一差异值。计算查询词样本向量和负样本向量之间的差异值,即对应为第二差异值。
利用预先标注的第一差异值标注结果,计算第一差异值标注结果与第一差异值的差值,计算结果作为第一差值。利用预先标注出的第二差异值标注结果,计算第二差异值标注结果与第二差异值的差值,计算结果作为第二差值。
利用第一差值和第二差值,对待训练的相似性模型进行训练。第一差值以及第二差值所表示的误差会在模型中的每一层进行反向传播,模型中每一层的参数都会根据这个误差进行调整,直到模型的输出收敛或达到预期的效果才结束。
通过上述方案,利用学习样本之间的映射关系,用少量的样本就可以实现对未知样本的预测。
结合图9所示,本申请提供一种召回内容的确定方法,包括以下步骤:
S901:获取原始查询词,基于小样本学习方式确定与原始查询词匹配的候选关键词;
S902:获取原始查询词,利用传统方式确定与原始查询词匹配的候选关键词;
S903:对利用传统方式对确定出的候选关键词进行过滤;
S904:利用小样本学习方式对确定出的候选关键词进行过滤;
S905:对步骤S903和步骤S904的过滤结果进行交集运算,得到目标关键词;
S906:利用目标关键词,确定关联内容;
S907:将关联内容排序;
S908:展现被选中的关联内容。
结合图10所示,步骤S901具体可以包括:
离线步骤:
预先构建种子库。种子库可以与前述示例方式中的种子库相同,包括高质量的查询词和关键词匹配对。
另外,预先构建关键词库,用以存储内容提供方预先上传的关键词。
利用小样本学习方式生成种子库中查询词向量索引,记为index1
利用小样本学习方式生成关键词库中所有关键词的向量索引,记为index2
遍历广告库中所有关键词,根据关键词的向量索引index2,得到每个关键词最相似的K2个结果,存储在离线词表中。
在线步骤:
a1)根据获取到的原始查询词查询查询词的向量索引index1,得到K2个扩展查询词。
b1)根据种子库已有的匹配对,确定与每个扩展查询词匹配的匹配关键词。
c1)在离线词表进行相似性查询,得到每个匹配关键词的同义词列表(每个关键词最相似的K1个结果),即候选关键词。
d1)将原始查询词与c1)中得到的候选关键词组成对应数量的<原始查询词,候选关键词>匹配对。获取存在于种子库中的多个匹配对<扩展查询词,候选关键词>,分别计算<原始查询词,候选关键词>与<扩展查询词,候选关键词>的相似度,选取相似度大于阈值的<原始查询词,候选关键词>中的候选关键词,作为目标关键词。
结合图11所示,步骤S904具体可以包括:
离线步骤:利用小样本学习模型生成种子库中关键词的索引,记为index3
使用广告库中所有关键词检索index3,得到每个关键词获取向量距离最近的K3个关键词,存储在离线词表中。
在线步骤:
利用传统方式获取到与查询词匹配的关键词。传统方式可以包括与查询词具有相同核心词的关键词,与查询词相同的关键词,被查询词包含的关键词等。
a2)根据获取到的查询词查询查询词的向量索引index1,得到K4个扩展查询词。
b2)根据获取到的关键词查询种子库中关键词的索引index3,得到K5个候选关键词。
c2)将a2)中得到的K4个扩展查询词和b2)中得到K5个候选关键词,两两组成匹配对。
d2)利用预先构建的坏例集合对步骤c2)中的各匹配对进行校验。对于出现在坏例集合中的匹配对进行删除处理,提取保留下来的匹配对中的关键词,作为目标关键词。
在步骤S903中,可以利用常规方式筛选,例如,在查询词与关键词所表征的地域不一致的情况下,可以过滤掉。示例性地,查询词为“北京”,但关键词为“上海”,则可以认为地域不一致。或者,在查询词与关键词所表征的实体信息或行业信息不一致的情况下,将出现不一致的匹配对过滤掉。
在步骤S905中,将步骤S903中筛选后剩余的关键词与步骤S904中的目标关键词进行并集运算。将运算结果中的关键词与步骤S901中确定出的关键词一起,作为目标关键词。
利用目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容。将关联内容进行排序,根据用户的选择进行展示。
结合图12所示,本申请提供一种召回内容的确定装置,该装置可以包括:
扩展查询词确定模块1201,用于确定与原始查询词相似的至少一个扩展查询词;
候选关键词确定模块1202,用于根据原始查询词和扩展查询词,确定多个候选关键词;
召回内容确定模块1203,用于从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。
在一种实施方式中,召回内容确定模块1203具体可以包括以下组件:
第一匹配对组建子模块,用于分别将原始查询词与多个候选关键词组成多个第一匹配对;
第二匹配对组建子模块,用于在至少一个扩展查询词和多个候选关键词中,筛选出符合预定条件的多个第二匹配对,每个第二匹配对中包括一个扩展查询词和一个候选关键词;
第一匹配对筛选子模块,用于计算每个第一匹配对与每个第二匹配对的相似度,根据相似度计算结果选择至少一个第一匹配对;
目标关键词确定子模块,用于将选择出的每个第一匹配对中的候选关键词确定为目标关键词。
在一种实施方式中,召回内容确定模块1203具体可以包括以下组件:
第一候选关键词确定子模块,用于利用第一筛选规则,从多个候选关键词中确定多个第一候选关键词;
第二候选关键词确定子模块,用于利用第二筛选规则,从多个候选关键词中确定多个第二候选关键词;
目标关键词确定子模块,用于将多个第一候选关键词和多个第二候选关键词进行求交集运算,将运算结果中包括的候选关键词作为确定出的目标关键词。
在一种实施方式中,第一候选关键词确定子模块可以进一步包括:
第三匹配对组件单元,用于将原始查询词及扩展查询词,分别与多个候选关键词组成多个第三匹配对;
第三匹配对筛选单元,用于将出现在坏例集合中的第三匹配对删除,坏例集合中包含多个已经被确定为坏例的匹配对;
第一候选关键词确定执行单元,用于将删除后剩余的第三匹配对中的候选关键词确定为第一候选关键词。
在一种实施方式中,扩展查询词确定模块1201可以具体包括:
相似性查询子模块,用于利用预先训练的相似性模型,在数据库中查询与原始查询词相似的多个扩展查询词;数据库保存扩展查询词正例;
扩展查询词确定执行子模块,用于从多个扩展查询词中选择至少一个扩展查询词。
在一种实施方式中,数据库还保存候选关键词正例,以及每个扩展查询词正例与每个候选关键词正例的映射关系;
候选关键词确定模块1202可以具体包括:
匹配关键词确定子模块,用于利用映射关系,确定与原始查询词或扩展查询词具有映射关系的匹配关键词;
候选关键词确定执行子模块,用于根据匹配关键词,利用预先训练的相似性模型,得到多个候选关键词。
在一种实施方式中,还包括相似性模型训练模块,该模块可以具体包括:
样本输入子模块,用于将查询词样本、与查询词样本相似度不低于阈值的正样本以及与查询词样本相似度低于阈值的负样本输入待训练的相似性模型;
差异值确定子模块,用于确定相似性模型输出的查询词样本与正样本的第一差异值,以及相似性模型输出的查询词样本与负样本的第二差异值;
差值计算子模块,用于计算第一差异值标注结果与第一差异值的第一差值,以及第二差异值标注结果与第二差异值的第二差值;
训练执行子模块,用于利用第一差值和第二差值对待训练的相似性模型进行训练。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图13示出了可以用来实施本公开的实施例的电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图13所示,电子设备1300包括计算单元1310,其可以根据存储在只读存储器(ROM)1320中的计算机程序或者从存储单元1380加载到随机访问存储器(RAM)1330中的计算机程序来执行各种适当的动作和处理。在RAM1330中,还可存储设备1300操作所需的各种程序和数据。计算单元1310、ROM1320以及RAM1330通过总线1340彼此相连。输入输出(I/O)接口1350也连接至总线1340。
电子设备1300中的多个部件连接至I/O接口1350,包括:输入单元1360,例如键盘、鼠标等;输出单元1370,例如各种类型的显示器、扬声器等;存储单元1380,例如磁盘、光盘等;以及通信单元1390,例如网卡、调制解调器、无线通信收发机等。通信单元1390允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1310可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1310的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1310执行上文所描述的各个方法和处理,例如召回内容的确定方法。例如,在一些实施例中,召回内容的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1380。在一些实施例中,计算机程序的部分或者全部可以经由ROM1320和/或通信单元1390而被载入和/或安装到电子设备1300上。当计算机程序加载到RAM1330并由计算单元1310执行时,可以执行上文描述的召回内容的确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元1310可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行召回内容的确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种召回内容的确定方法,包括:
确定与原始查询词相似的至少一个扩展查询词;
根据所述原始查询词和所述扩展查询词,确定多个候选关键词;
从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。
2.根据权利要求1所述的方法,其中,所述从所述多个候选关键词中确定目标关键词,包括:
分别将所述原始查询词与所述多个候选关键词组成多个第一匹配对;
在所述至少一个扩展查询词和所述多个候选关键词中,筛选出符合预定条件的多个第二匹配对,每个所述第二匹配对中包括一个所述扩展查询词和一个所述候选关键词;
计算每个所述第一匹配对与每个所述第二匹配对的相似度,根据相似度计算结果选择至少一个第一匹配对;
将选择出的每个第一匹配对中的候选关键词确定为目标关键词。
3.根据权利要求1所述的方法,其中,所述从所述多个候选关键词中确定目标关键词,包括:
利用第一筛选规则,从所述多个候选关键词中确定多个第一候选关键词;
利用第二筛选规则,从所述多个候选关键词中确定多个第二候选关键词;
将所述多个第一候选关键词和所述多个第二候选关键词进行求交集运算,将运算结果中包括的候选关键词作为确定出的目标关键词。
4.根据权利要求3所述的方法,其中,所述利用第一筛选规则,从所述多个候选关键词确定出多个第一候选关键词,包括:
将所述原始查询词及所述扩展查询词,分别与所述多个候选关键词组成多个第三匹配对;
将出现在坏例集合中的第三匹配对删除,所述坏例集合中包含多个已经被确定为坏例的匹配对;
将删除后剩余的第三匹配对中的候选关键词确定为第一候选关键词。
5.根据权利要求1所述的方法,其中,所述确定与原始查询词相似的至少一个扩展查询词,包括:
利用预先训练的相似性模型,在数据库中查询与所述原始查询词相似的多个扩展查询词;所述数据库保存扩展查询词正例;
从所述多个扩展查询词中选择至少一个扩展查询词。
6.根据权利要求5所述的方法,其中,所述数据库还保存候选关键词正例,以及每个所述扩展查询词正例与每个所述候选关键词正例的映射关系;
所述根据所述原始查询词和所述扩展查询词,确定多个候选关键词,包括:
利用所述映射关系,确定与所述原始查询词或所述扩展查询词具有映射关系的匹配关键词;
根据所述匹配关键词,利用所述预先训练的相似性模型,得到多个候选关键词。
7.根据权利要求5或6所述的方法,其中,所述相似性模型的训练过程包括:
将查询词样本、与所述查询词样本相似度不低于阈值的正样本以及与所述查询词样本相似度低于阈值的负样本输入待训练的相似性模型;
确定所述相似性模型输出的所述查询词样本与所述正样本的第一差异值,以及所述相似性模型输出的所述查询词样本与所述负样本的第二差异值;
计算第一差异值标注结果与所述第一差异值的第一差值,以及第二差异值标注结果与所述第二差异值的第二差值;
利用所述第一差值和所述第二差值对所述待训练的相似性模型进行训练。
8.一种召回内容的确定装置,包括:
扩展查询词确定模块,用于确定与原始查询词相似的至少一个扩展查询词;
候选关键词确定模块,用于根据所述原始查询词和所述扩展查询词,确定多个候选关键词;
召回内容确定模块,用于从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。
9.根据权利要求8所述的装置,其中,所述召回内容确定模块,包括:
第一匹配对组建子模块,用于分别将所述原始查询词与所述多个候选关键词组成多个第一匹配对;
第二匹配对组建子模块,用于在所述至少一个扩展查询词和所述多个候选关键词中,筛选出符合预定条件的多个第二匹配对,每个所述第二匹配对中包括一个所述扩展查询词和一个所述候选关键词;
第一匹配对筛选子模块,用于计算每个所述第一匹配对与每个所述第二匹配对的相似度,根据相似度计算结果选择至少一个第一匹配对;
目标关键词确定子模块,用于将选择出的每个第一匹配对中的候选关键词确定为目标关键词。
10.根据权利要求8所述的装置,其中,所述召回内容确定模块,包括:
第一候选关键词确定子模块,用于利用第一筛选规则,从所述多个候选关键词中确定多个第一候选关键词;
第二候选关键词确定子模块,用于利用第二筛选规则,从所述多个候选关键词中确定多个第二候选关键词;
目标关键词确定子模块,用于将所述多个第一候选关键词和所述多个第二候选关键词进行求交集运算,将运算结果中包括的候选关键词作为确定出的目标关键词。
11.根据权利要求10所述的装置,其中,所述第一候选关键词确定子模块,包括:
第三匹配对组件单元,用于将所述原始查询词及所述扩展查询词,分别与所述多个候选关键词组成多个第三匹配对;
第三匹配对筛选单元,用于将出现在坏例集合中的第三匹配对删除,所述坏例集合中包含多个已经被确定为坏例的匹配对;
第一候选关键词确定执行单元,用于将删除后剩余的第三匹配对中的候选关键词确定为第一候选关键词。
12.根据权利要求8所述的装置,其中,所述扩展查询词确定模块,包括:
相似性查询子模块,用于利用预先训练的相似性模型,在数据库中查询与所述原始查询词相似的多个扩展查询词;所述数据库保存扩展查询词正例;
扩展查询词确定执行子模块,用于从所述多个扩展查询词中选择至少一个扩展查询词。
13.根据权利要求12所述的装置,其中,所述数据库还保存候选关键词正例,以及每个所述扩展查询词正例与每个所述候选关键词正例的映射关系;
所述候选关键词确定模块,包括:
匹配关键词确定子模块,用于利用所述映射关系,确定与所述原始查询词或所述扩展查询词具有映射关系的匹配关键词;
候选关键词确定执行子模块,用于根据所述匹配关键词,利用所述预先训练的相似性模型,得到多个候选关键词。
14.根据权利要求12或13所述的装置,其中,还包括相似性模型训练模块,包括:
样本输入子模块,用于将查询词样本、与所述查询词样本相似度不低于阈值的正样本以及与所述查询词样本相似度低于阈值的负样本输入待训练的相似性模型;
差异值确定子模块,用于确定所述相似性模型输出的所述查询词样本与所述正样本的第一差异值,以及所述相似性模型输出的所述查询词样本与所述负样本的第二差异值;
差值计算子模块,用于计算第一差异值标注结果与所述第一差异值的第一差值,以及第二差异值标注结果与所述第二差异值的第二差值;
训练执行子模块,用于利用所述第一差值和所述第二差值对所述待训练的相似性模型进行训练。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
CN202110258226.1A 2021-03-09 2021-03-09 召回内容的确定方法、装置、设备以及存储介质 Active CN113010752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110258226.1A CN113010752B (zh) 2021-03-09 2021-03-09 召回内容的确定方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110258226.1A CN113010752B (zh) 2021-03-09 2021-03-09 召回内容的确定方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113010752A true CN113010752A (zh) 2021-06-22
CN113010752B CN113010752B (zh) 2023-10-27

Family

ID=76403581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110258226.1A Active CN113010752B (zh) 2021-03-09 2021-03-09 召回内容的确定方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113010752B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491318A (zh) * 2021-12-16 2022-05-13 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质
CN116340639A (zh) * 2023-03-31 2023-06-27 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150012560A1 (en) * 2013-07-03 2015-01-08 Google Inc. Methods and systems for providing potential search queries that may be targeted by one or more keywords
US20150032448A1 (en) * 2013-07-25 2015-01-29 Nice-Systems Ltd Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置
CN108509963A (zh) * 2017-02-28 2018-09-07 株式会社日立制作所 基于深度学习的目标差异性检测方法和目标差异性检测设备
CN112364126A (zh) * 2020-10-21 2021-02-12 广州市百果园网络科技有限公司 一种关键词的提示方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150012560A1 (en) * 2013-07-03 2015-01-08 Google Inc. Methods and systems for providing potential search queries that may be targeted by one or more keywords
US20150032448A1 (en) * 2013-07-25 2015-01-29 Nice-Systems Ltd Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
CN108509963A (zh) * 2017-02-28 2018-09-07 株式会社日立制作所 基于深度学习的目标差异性检测方法和目标差异性检测设备
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置
CN112364126A (zh) * 2020-10-21 2021-02-12 广州市百果园网络科技有限公司 一种关键词的提示方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章露露;吕晓伟;: "基于Word2vec的语义查询扩展方法", 软件导刊, no. 09 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491318A (zh) * 2021-12-16 2022-05-13 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质
CN114491318B (zh) * 2021-12-16 2023-09-01 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质
CN116340639A (zh) * 2023-03-31 2023-06-27 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质
CN116340639B (zh) * 2023-03-31 2023-12-12 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113010752B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110019732B (zh) 一种智能问答方法以及相关装置
US11741094B2 (en) Method and system for identifying core product terms
CN113590796B (zh) 排序模型的训练方法、装置和电子设备
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
US20150169740A1 (en) Similar image retrieval
WO2023124005A1 (zh) 地图兴趣点查询方法、装置、设备、存储介质及程序产品
CN114549874A (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN116028618B (zh) 文本处理、文本检索方法、装置、电子设备及存储介质
CN113010752B (zh) 召回内容的确定方法、装置、设备以及存储介质
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN112541125A (zh) 序列标注模型训练方法、装置及电子设备
CN114782719B (zh) 一种特征提取模型的训练方法、对象检索方法以及装置
CN113239157A (zh) 对话模型的训练方法、装置、设备和存储介质
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质
CN114201953A (zh) 一种关键词提取、模型训练方法、装置、设备及存储介质
CN113901175A (zh) 物品关系判别方法和装置
CN116383491B (zh) 信息推荐方法、装置、设备、存储介质和程序产品
CN115033717B (zh) 三元组抽取模型训练方法、三元组抽取方法、装置及设备
CN113220841B (zh) 确定鉴别信息的方法、装置、电子设备和存储介质
CN115795023B (zh) 文档推荐方法、装置、设备以及存储介质
CN117573800A (zh) 一种段落检索方法、装置、设备及存储介质
CN115952852A (zh) 模型训练方法、文本检索方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant